Sei sulla pagina 1di 435

M. Pagano K.

Gauvreau
II edizione italiana a cura di:
(G
IDELSON-GNOCCHI
I.F. ANGELILLO
M. PAVIA
P. VILLARI
Presentazione alla II edizione italiana
J libri ai quali si pi affezionati tendono sempre ad essere letti pi volte. quanto accaduto
a noi con il testo di Marello Pagano e Kimberlee Gauvreau, che ci ha aiutato nel nostro Lungo
percorso formativo presso La SchooL of Public HeaLth della Harvard University di Boston; ci ha
confortato nel preparare le lezioni di Statistica per i corsi di laurea deLLe scienze sanitarie; ci ha
impegnato non poco nella cura della sua versione italiana.
Abbiamo cercato in turti i capitoli di m.antenere inaLterato Lo stile e di rendere apprezzabili anche
Le sfumature ed i dertagli, talvoLta sacrificando la pi appropriata forma itaLiana. Lo stile puntuaLe
ed accessibile con cui iL libro stato scrillO rappresenta, secondo noi, il suo vero punto di forza,
rendendo facilmente comprensibili concetti ed applicazioni taLora molto complessi.
Un ringraziamento particolare rivolto agli studenti che hanno studiato La Statistica sulla prima
edizione italiana deL testo; sono Loro che, grazie anche aL meritorio impegno dell 'editore Gnocchi,
ne hanno consentito questa seconda edizione itaLiana. Ci auguriamo che anche questa edizione
abbia lo stesso favorevole riscontro da parte degli studenti.
doveroso, infine, ricordare iL Professore Guido D'Alfonso, che non soltanto ha scriuo la
presentazione della prima edizione italiana del testo, ma ne ha anche Letlo, con L' impegno e La
che gli erano propri, le prime fo rnendoci utili e preziosi suggerimenti.
lTALO F. A GELILLO
M ARI A P AVIA
P AOLO VI LLARI
Presentazione alla I edizione italiana
La moderna ricerca biomedica ha abbandonato i modi tradizionali di valutazione dei feno-
meni biologici e clinici per darsi la norma e l'autorit di una metodologia capace da una parte
di preordinare e programmare gli esperimenti secondo ben definiti schemi, e dall'altra di appli-
care correttamente le diverse tecniche nella variet dei problemi che si presentano nella pratica.
Ne derivata un'accresciuta consapevolezza da parte dei ricercatori e dei medici della
necessit di una adeguata conoscenza di detti metodi e l'esigenza forte dell'introduzione, negli
anni di studi universitari e postuniversitari, di insegnamenti finalizzati ad orientare lo studioso
attraverso i capitoli fondamentali della biostatistica. La riforma dell'orientamento didattico
della Facolt di Medicina in Italia prevede, ad esempio, l'inserimento degli insegnamenti della
Statistica medica al primo anno di corso e della M etodologia epidemiologica clinica e della
Programmazione sociosanitaria nel triennio clinico.
Il confronto continuo e stimolante con gli studenti ha portato gli statistici medici ad una
profonda riflessione sui contenuti e le forme dell'insegnamento, i cui frutti si possono cogliere
dalla lettura dei testi che ripercorrono gli itinerari dei corsi condotti.
Il testo di Pagano e Gauvreau tra questi. Esso ripropone l'itinerario del corso introduttivo
di Biostatistica che gli Autori svolgono nella Harvard School of Public Health di Boston.
Il libro raccoglie ed espone in modo piano e largamente accessibile tutto quanto di attuale e
fondamentale necessario sapere sul campo della metodologia per la ricerca medica, privi-
legiando nella trattazione la struttura e il fondamento logico dei metodi piuttosto che le giu-
stificazioni matematiche. Le tecniche sono tuttavia sviluppate in modo sufficientemente det-
tagliato, cosicch il lettore, studente, medico o ricercatore al primo approccio con la statistica,
possa verificarne personalmente i risultati. Per illustrare principi e metodi, inoltre, gli Autori
hanno utilizzato dati reali estratti dalla letteratura medica corrente a vari livelli di complessit
e di settore medico di attinenza, che se da un lato illustrano in modo appropriato le procedure
statistiche, dall'altro, sono di intrinseco interesse per il medico.
Nel complesso il libro un'utile guida sia per chi si accosta per la prima volta alla Biostatistica
che per i ricercatori interessati ad un approccio moderno alla ricerca biomedica.
GUIDO D'ALFO so
Avvertenza
Sono numerose nel testo le tabelle che illustrano i risultati delle elaborazioni statistiche con-
dotte utilizzando i pacchetti statistici Stata, Minitab e SAS. Poich le versioni americane
sono ampiamente diffuse, si preferito lasciare queste tabelle in lingua originale.
Indice
1. Introduzione
1.1 Presentazione del testo
1.2 Esercizi
Bibliografia
2. Presentazione dei dati
2.1 Tipi di dati numerici
2.1.1 Dati nominali
2.1.2 Dati ordinali
2.1.3 Dati ordinati in ranghi
2.1.4 Dati discreti
2.1.5 Dati continui
1
2
4
5
7
7
7
9
9
lO
lO
2.2 Tabelle Il
2.2.1 Distribuzioni di frequenza Il
2.2.2 Frequenza relativa 12
2.3 Grafici 14
2.3.1 Diagrammi a barre 14
2.3.2 Istogrammi 15
2.3.3 Poligoni di frequenza 15
2.3.4 Diagrammi di dispersione a una dimensione 18
2.3.5 Diagrammi a scatola 19
2.3.6 Diagrammi di dispersione a due dimensioni (Diagrammi a punti) 20
2.3.7 Diagliammi lineari 20
2.4 Ulteriori applicazioni 21
2.5 Esercizi
Bibli ografi a
3. Misure di sintesi numerica
3.1 Mi LIre di tendenza centrale
3.1.1 Media
3.1.2 Medi ana
3.1.3 Moda
26
30
33
33
33
35
35
x
3.2 Misure di dispersione
3.2.1 Campo di variazione (Range)
3.2.2 Campo di variazione interquartile (Range interquartile)
3.2.3 Varianza e Deviazione standard
3.2.4 Coefficiente di variazione
3.3 Dati raggruppati
3.3.1 Media raggruppata
3.3.2 Varianza raggruppata
3.4 Disuguaglianza di Chebychev
3.5 Ulteriori applicazioni
3.6 Esercizi
Bibliografia
4. Tassi e standardi zzazione
4.1 Tassi
4.2 Standardizzazione dei tassi
4.2.1 Metodo diretto di standardizzazione
4.2.2 Metodo indiretto di standardizzazione
4.2.3 Utilizzo dei tassi standardizzati
4.3 Ulteriori applicazioni
4.3.1 Metodo diretto di standardizzazione
4.3.2 Metodo indiretto di standardizzazione
4.4 Esercizi
Bibliografia
5. Tavole di sopravvivenza
5.1 Calcolo della tavola di sopravvivenza
5.1.1 Colonna 1
5.1.2 Colonna 2
5.1.3 Colonne 3 e 4
5.1.4 Colonna 5
5.1.5 Colonna 6
5.1.6 Colonna 7
5.2 Applicazioni della tavola di sopravvivenza
5.3 Anni di vita potenziale perduti
5.4 Ulteriori applicazioni
5.5 Esercizi
Bibliografia
6. Probabilit
6.1 Operazioni sugli eventi e probabilit
6.2 Probabilit condizionale
I N DICE
37
37
37
38
40
41
41
42
43
44
48
51
53
53
57
58
60
61
69
70
72
72
77
79
79
79
80
81
82
83
83
84
86
90
92
100
101
101
104
INDICE
6.3 Teorema di Bayes
6.4 Test diagnostici
6.4.1 Sensibilit e Specificit
6.4.2 Applicazioni del teorema di Bayes
6.4.3 Curve ROC
6.4.4 Calcolo della prevalenza
6.5 Il Rischio Relativo e l'Odds Ratio
6.6 Ulteriori applicazioni
6.7 Esercizi
Bibliografia
7. Distribuzioni teoriche di probabilit
7.1 Distribuzioni di probabilit
7.2 La distribuzione binomiale
7.3 La distribuzione di Poisson
7.4 La distribuzione normale
7.5 Ulteriori applicazioni
7.6 Esercizi
Bibliografia
8. Distribuzione campionaria della media
8.1 Distribuzioni campionarie
8.2 Il teorema del limite centrale
8.3 Applicazioni del teorema del limite centrale
8.4 Ulteriori applicazioni
8.5 Esercizi
Bibliografia
9. Intervalli di confidenza
9.1 Intervalli di confidenza bilaterali
9.2 Intervalli di confidenza unilaterali
9.3 Distribuzione t di Student
9.4 Ulteriori applicazioni
9.5 Esercizi
Bibli ografia
lO. Test di ipotesi
10.1 Concetti generali
10.2 Test di ipotesi bilaterali
10.3 Test di ipotesi unilaterali
XI
105
107
108
108
111
112
114
117
121
124
127
127
129
134
136
143
147
150
151
151
152
153
156
161
163
165
165
168
169
172
174
176
179
179
181
183
X II
10.4 Tipi di errore
10.5 Potenza
10.6 Stima della dimensione del campione
10.7 Ulteriori applicazioni
10.8 Esercizi
Bibliografia
11. Confronto tra due medie
11.1 Campioni appaiati
Il .2 Campioni indipendenti
11.2.1 Varianze uguali
11.2.2 Varianze disuguali
11.3 Ulteriori applicazioni
11.4 Esercizi
Bibliografia
12. Analisi della varianza
12.1 Analisi della varianza ad un criterio di classificazione
12.1.1 Il problema
12.1.2 Fonti di variabilit
12.2 Procedure per confronti multipli
12.3 Ulteriori applicazioni
12.4 Esercizi
Bibliografia
13. Metodi non parametrici
13.1 Il test del segno
13.2 Il test di Wilcoxon dei ranghi con segno
13.3 Il test di Wilcoxon della somma dei ranghi
13.4 Vantaggi e svantaggi dei metodi non parametrici
13.5 Ulteriori applicazioni
13.6 Esercizi
Bibliografia
14. Inferenza sulle proporzioni
14.1 Approssimazione normale alla distribuzione binomiale
14.2 Distribuzione campionaria di una proporzione
14.3 Intervalli di confidenza
14.4 Test di ipotesi
f NDJCE
184
187
189
190
194
196
199
200
203
204
207
208
212
215
217
217
217
219
222
223
226
228
229
229
231
233
235
236
239
242
245
245
247
248
249
I NDI CE XIII
14.5 Stima dell a dimensione del campione 250
14.6 Confronto tra due proporzioni 251
14.7 Ulteriori applicazioni 253
14. 8 Esercizi 254
Bibliografi a 257
15. Tabelle di contingenza 259
15.1 Il test chi-quadrato 259
15.1.1 Tabelle 2x2 259
15.1.2 Tabelle rXc 262
15.2 Il test di McNemar 264
15.3 L'Odd Ratio 265
15.4 La fallacia di Berkson 268
15.5 Ulteriori applicazioni 270
15.6 Esercizi 273
Bibliografia 278
16. Tabelle di contingenza multiple 2x2 281
16. 1 Il paradosso di Simp on 281
16.2 Il metodo di Mantel-Haenszel 282
16.2.1 Test di omogeneit 283
16.2.2 Odds Rati o globale 285
16.2.3 Test di associazione 287
16.3 Ulteriori applicazioni 288
16.4 Esercizi 292
Bibli ografia 293
17. Cor relazione 295
17. 1 Il diagramma di dispersione a due dimensioni (Diagramma a punti) 295
17.2 Il coefficiente di correlazione di Pearson 296
17.3 Il coefficient'e di correlazione dei ranghi di Spearman 299
17.4 Ul teriori applicazioni 301
17.5 Esercizi 304
Bibliografi a 306
18. Regressione lineare semplice 307
18.1 Concetti sulla regressione 307
18.2 Il modello 310
18.2.1 La retta di regressione della popolazione 310
XIV
18.2.2 Il metodo dei minimi quadrati
18.2.3 Inferenza per i coefficienti di regressione
18.204 Inferenza per i valori predetti
18.3 Valutazione del modello
18.3.1 Il coefficiente di determinazione
18.3.2 Grafici dei residui
18.3.3 Trasformazioni
1804 Ulteriori applicazioni
18.5 Esercizi
Bibliografia
19. Regressione multipla
19.1 Il modello
19.1.1 L'equazione di regressione dei minimi quadrati
19.1.2 Inferenza per i coefficienti di regressione
19.1.3 Valutazione del modello
19.104 Variabili indicatrici
19.1.5 Termini di interazione
19.2 Selezione del modello
19.3 Ulteriori applicazioni
1904 Esercizi
Bibliografia
20. Regressione logistica
20.1 Il modello
20.1.1 La funzione logistica
20.1.2 L'equazione adattata
20.2 Regressione logistica multipla
20.3 Variabili indicatrici
2004 Ulteriori applicazioni
20.5 Esercizi
Bibliografia
21. Analisi della sopravvivenza
21.1 Il metodo della tavola di sopravvivenza
21.2 Il metodo del prodotto limite
21.3 Illog-rank test
21.4 Ulteriori applicazioni
21.5 Esercizi
Bibliografia
INDICE
311
314
316
317
317
319
320
322
326
329
331
331
332
333
334
335
336
337
339
343
346
347
347
348
349
351
352
354
356
358
361
361
366
368
371
376
378
INDICE
22. Teoria del campionamento
22.1 Schemi di campionamento
22.1.1 Campionamento casuale semplice
22.1.2 Campionamento sistematico
22.1.3 Campionamento stratificato
22.1.4 Campionamento a cluster
22.1.5 Campionamento non probabalistico
22.2 Fonti di distorsione
22.3 Ulteriori applicazioni
22.4 Esercizi
Bibliografia
Appendice A Tabelle
Appendice B Set di dati
Indice analitico
xv
379
379
380
380
381
381
382
382
384
386
387
389
415
429
Prefazione
Questo libro stato scritto per gli studenti in scienze mediche ed un testo introduttivo
allo studio della biostatistica o l'uso di tecniche numeriche per l'acquisizione di informa-
zioni da dati ed eventi. I numeri, in quanto pi precisi delle parole, sono particolarmente
adatti alla comunicazione di risultati scientifici.
Cos come possibile mentire con le parole, possibile tuttavia mentire anche con i nu-
meri. Numeri e bugie sono stati associati per lungo tempo; c' addirittura un libro intitolato
'How to Lie with Statistics'. probabile che questa associazione debba la sua origine, o
almeno la sua prima enunciazione, al primo ministro britannico Benjamin Disraeli. Mark
Twain sostiene che Disraeli abbia detto: Esistono tre tipi di menzogne: le menzogne, le
dannate menzogne e la statistica. Basta limitarsi ad osservare una moderna campagna
elettorale per convincersi dell'abuso fatto della statistica. Ma basta con le menzogne; que-
sto libro adotta la posizione del Professore Frederick Mosteller, quando afferma: faci le
mentire con la statistica, ma ancora pi facile mentire senza di essa.
Background
Principles of Biostatistics rivolto agli studenti di scienze biologiche e sanitarie che desi-
derano apprendere i moderni metodi della ricerca. Si basa su un corso obbligatorio tenuto
presso la School of Public Health della Harvard University, frequentato anche da numerosi
altri operatori sanitari di Harvard. Il corso antico quanto la Scuola stessa, a testimo-
nianza della sua importanza. Si sviluppa nell'arco di 16 settimane con lezioni ed esercita-
zioni in laboratorio. Ogni settimana comprende due lezioni di 50 minuti ed una esercita-
zione in laboratorio di 2 ore. Le lezioni sono tenute all'intera classe, che viene, poi, divisa
in piccoli gruppi per le. esercitazioni in laboratorio, sotto la guida di un tutor. Le esercita-
zioni in laboratorio richiamano gli argomenti trattati nelle lezioni, rivedono gli esercizi
svolti a casa ed introducono all'uso del computer. Abbiamo incluso il materiale svolto in
laboratorio - tranne gli esercizi svolti a casa e specifici comandi informatici - nelle sezioni
'Ulteriori Applicazioni'. Queste sezioni presentano ulteriori esempi o una differente pro-
spettiva del materiale gi presentato nel Capitolo. Le esercitazioni in laboratorio hanno
l'obiettivo di stimolare la discussione, sebbene siano sufficientemente complete da essere
utili anche al lettore che non utilizza il libro nell'ambito di un corso.
Questo libro stato modificato negli anni ed include argomenti che, noi riteniamo, pos-
sono essere trattati in modo approfondito in un semestre di una scuola americana. stato
necessario fare delle scelte; speriamo di aver fatto quelle giuste. Nel nostro corso, abbiamo
XVlIl PREFAZIONE
tempo sufficiente per esaminare la maggior parte degli argomenti presentati nei primi venti
capitoli. Comunque, c' materiale sufficiente per consentire al docente una certa flessibilit.
Ad esempio, alcuni docenti possono scegliere di omettere le sezioni sui dati raggruppati (Pa-
ragrafo 3.3), la disuguaglianza di Chebychev (Paragrafo 3.4), la distribuzione di Poisson
(Paragrafo 7.3) o il capitolo relativo all'analisi della varianza (Capitolo 12), se ritengono
che tali concetti siano meno importanti di altri.
Struttura del libro
Alcuni sostengono che la statistica sia lo studio della variabilit e dell'incertezza. Noi cre-
diamo che vi sia qualcosa di vero in questa affermazione e la abbiamo utilizzata come
guida, suddividendo il libro in tre parti. l primi cinque capitoli trattano la raccolta dei dati
e le diverse possibilit di sintetizzarli, esaminarli e spiegarli. l successivi due capitoli trat-
tano la probabilit e sono introduttivi agli strumenti necessari per la successiva analisi
dell'incertezza. solo dall'ottavo capitolo che introduciamo la distinzione tra popolazione
e campione ed iniziamo ad esaminare la variabilit insita nel processo di campionamento,
procedendo cos verso l'inferenza. Riteniamo che questa introduzione modulare a livelli
crescenti di incertezza sia giustificata dal successo ottenuto dai nostri studenti. Il presentare
i concetti un po' pi difficili solo dopo aver costruito delle solide basi rende pi facile la
comprensione al lettore.
Set di dati ed esempi
Nel testo abbiamo utilizzato dati estratti dalla letteratura medica per illustrare i concetti
di biostatistica. l dati reali non solo sono pi significativi, ma anche pi interessanti. Non
abbiamo voluto utilizzare esempi in cui l'argomento fosse troppo complesso. A tale scopo,
siamo stati guidati dal background e dagli interessi dei nostri studenti - innanzitutto la
sanit pubblica e la ricerca clinica - per scegliere esempi che illustrano in modo ottimale i
concetti presentati.
Esiste qualche rischio nell'utilizzo di dati pubblicati. Non possiamo garantire che tutti gli
esempi siano veritieri e che i dati siano stati raccolti in modo corretto; possiamo basarci solo
sull'affidabilit delle fonti. Non sottovalutiamo l'importanza di tale considerazione. Il
valore delle nostre inferenze dipende criticamente dal valore dei dati e consigliamo vi-
vamente di valutare con cura la loro qualit. Assumiamo che ci sia compreso dal lettore.
Pi di una volta abbiamo utilizzato esempi in cui la popolazione degli Stati Uniti sud-
divisa in razze. Nel riportare queste statistiche ufficiali ci siamo lasciati guidare dalle agen-
zie governative che le hanno rilasciate. Non vogliamo concretizzare questa suddivisione
razziale, poich, in effetti, le differenze osservate possono essere dovute a fattori socioeco-
nomici piuttosto che razziali. Una possibilit sarebbe quella di ignorare queste statistiche;
tuttavia, ci non rivelerebbe le ineguaglianze esistenti nel nostro sistema sanitario - ine-
guaglianze che devono essere eliminate. Prestiamo attenzione a questo problema nella
speranza di stimolare l'interesse nel promuovere possibili soluzioni.
Abbiamo ridotto al minimo l'uso delle notazioni matematiche tenendo presente la loro
reputazione, meritata, di linguaggio quasi incomprensibile. Se utilizzate in modo eccessivo
tali notazioni matematiche possono scoraggiare anche lo studente pi audace. Non pos-
siamo, tuttavia, eliminare del tutto il loro utilizzo, che si sviluppato nel tempo per facili-
PREFAZIONE XIX
tare la comunicazione dei risultati. Speriamo, a tale proposito, di aver scritto un testo sinte-
tico e comprensibile.
Al di l della loro precisione, i numeri hanno qualcosa di pi - forse un po' di magia - che
rende divertente il loro studio. Il divertimento nella concettualizzazione pi che nei cal-
coli e fortunatamente il computer pu svolgere i compiti pi faticosi. Questo consente agli
studenti di concentrarsi sulle idee. In altre parole, il computer consente al docente di in-
segnare la poesia della statistica e non il suo aspetto forse pi pesante.
Uso del computer
Per utilizzare il computer in modo ottimale, necessario avere un buon pacchetto stati-
stico. Noi utilizziamo lo Stata, della Stata Corporation, College Station, Texas. Riteniamo
che sia uno dei migliori pacchetti disponibili oggi sul mercato, ha un'ottima interfaccia con
l'utente, preciso, potente, ha un prezzo ragionevole e opera in diversi ambienti, tra cui
Windows, Unix e Macintosh. Inoltre, i risultati delle elaborazioni effettuate con questo
pacchetto sono accettate dalla Federal Drug Administration. Sono comunque disponibili
altri pacchetti e questo libro pu essere supportato da ognuno di essi. In questa seconda
edizione, ad esempio, presentiamo anche i risultati ottenuti con il SAS ed il Minitab, nelle
sezioni Ulteriori Applicazioni di ogni Capitolo. Raccomandiamo vivamente l'utilizzo di un
pacchetto statistico.
Alcuni degli esercizi nel testo richiedono l'ausilio del computer. Per aiutare il lettore,
abbiamo incluso i files usati negli esercizi in Appendice B e nel CD allegato allibro. Il CD
contiene ciascun set di dati in due formati: un file ASCII (suffisso 'raw') ed un file Stata
(suffisso 'dta'). Ci sono anche molti esercizi che non richiedono l'utilizzo del computer.
Come sempre, un apprendimento attivo d migliori risultati di un apprendimento passivo.
Non smetteremo mai di affermare l'importanza degli esercizi e di esortare il lettore a svol-
gerne il maggior numero possibile.
Novit nella seconda edizione
In questa seconda edizione la trattazione di numerosi argomenti stata rivista ed am-
pliata, e nuovi esempi sono stati introdotti per illustrare i concetti in modo pi chiaro. I dati
utilizzati nell'edizione precedente, soprattutto le statistiche ufficiali pubblicate dalle agen-
zie governative, sono stati ove possibile aggiornati. Il testo contiene inoltre molti dati - re-
gistrati nel CD allegato allibro - e nuovi esempi. Nell'Appendice A sono riportate le ta-
belle con le probabilit4 esatte per la distribuzione binomiale e di Poisson (ottenute con lo
Stata). Come gi detto in precedenza, sono illustrati anche i risultati ottenuti con il SAS ed
il Minitab, in aggiunta allo Stata nelle sezioni Ulteriori Applicazioni. La sezione degli
Esercizi, infine, stata notevolmente ampliata ed arricchita, soprattutto per quanto ri-
guarda i quesiti relativi ai concetti fondamentali trattati in ogni Capitolo.
Ringraziamenti
Abbiamo un debito di gratitudine con molte persone: il Presidente della Harvard Uni-
versity Derek Bok che ci ha fornito il sostegno necessario a far decollare il libro, il Dr. Mi-
chael K. Martin che ha calcolato le tabelle statistiche A.3-A.B dell'Appendice A e fohn-Paul
xx PREFAZiONE
Pagano per l'assistenza fornita nella redaz ione della prima edizione. Ringraziamo tutti
coloro che hanno revisionato il manoscritto: Rick Chappell, University of Wisconsin;
Dr. Todd G. Nick, University of Mississippi, Medical Center; Al Bartolucci, University of
Alabama, Birmingham; Bruce E. Trumbo, California State University, Hayward; James
Godbold, The Mount Sinai School of Medicine della New York University; Maureen
Lahiff, University of California, Berkeley. Il nostro ringraziamento va anche ai tutor che
ci hanno aiutato durante il corso con preziosi suggerimenti. Probabilmente i ringraziamenti
pi meritati sono per gli studenti che hanno frequentato il corso negli anni e che ci hanno
sopportato quando stavamo cercando di imparare il modo migliore per insegnare. Stiamo
ancora imparando.
M ARCELLO P AGANO - KIMBERLEE G AUVREAU
Boston, Massachusetts
Introduzione
el1903 H.G. Wells ipotizz che il ragio-
namento statistico sarebbe diventato un gior-
no un segno di civilt necessario quanto il sa-
per leggere e scrivere. Infatti, la statistica rive-
ste un ruolo rilevante in molti processi deci-
sionali. Prima che un nuovo far maco possa
essere commercializzato, ad esempio, la U.S.
Food and Drug Administration richiede che
venga sOttOposto ad un clinical tri al - uno
studio sperimentale condotto sull'uomo. I ri -
sultati di questo studio devono essere anali z-
zati al fine di determinare non solo se il far-
maco efficace, ma anche e non provoca ef-
fetti collaterali. Inoltre, le decisioni del Go-
verno degli Stati Uniti sui programmi di
Sicurezza Sociale e di Sanit Pubblica sono in
parte basate sulle previsioni relative alla lon-
gevit della popolazione; pertanto, necessa-
rio poter prevedere il numero di anni che un
soggetto vivr. Ci sono molte altre domande
a cui necessario dare una risposta. Dove do-
vrebbe investi re le proprie risorse un governo
se volesse ridurre la mortalit infantile? L'uti-
lizzo della cintura di sicurezza o dell'air bag
riduce il rischio di morire in un incidente au-
tomobilistico? La mastectomia deve essere
sempre consigliata ad una paziente affetta da
cancro della mammella? Quali fattori aumen-
tano in un soggetto il rischio di sviluppare
malattie coronariche? Per rispondere a questi
e ad altri quesiti, ci basiamo sui metodi della
biostatistica.
Lo studio della statistica riguarda la raccol-
ta, l'organi zzazione, l'analisi e l'interpreta-
zione dei dati numerici. I concetti della stati-
1
stica possono essere applicati in diversi setto-
ri, quali l'economia, la psicologia e l' agricol-
tura. Quando l'interesse rivolto alle scienze
biologiche e mediche, si usa il termine biosta-
tistica.
Storicamente, la statistica stata utili zzata
per illustrare gli eventi con i numeri. I nume-
ri spesso comunicano le idee pi sintetica-
mente delle parole. Ad esempio, per i seguen-
ti dati, il messaggio abbastanza chiaro. Nel
1979 sono state uccise con rivoltella 48 perso-
ne in Giappone, 34 in Svizzera, 52 in Canada,
58 in Israele, 21 in Svezia, 42 in Germania, 8
in Inghilterra e 10.728 negli Stati Uniti (1). La
forza di questi numeri evidente; il messag-
gio sarebbe ugualmente chiaro anche se do-
vessimo considerare le differenze di dimen-
sione tra le varie popolazioni.
Come secondo esempio, si consideri la se-
guente CltaZlOne tratta da un editoriale del
The Boston Globe (2) :
La mancanza di contraccezione legata ad un
tasso straordinariamente elevato di aborti nel -
l'Unione Sovietica - 120 aborti per 100 nascite,
verso i 20 aborti per 100 nascite in Gran Bretagna,
dove la possibilit di ricorrere ai contraccettivi
assicurata. Un supporto inadeguato alla pianifi ca-
zione famili are negli Stati Uni ti ha determinato un
tasso di 40 aborti per 100 nascite - un tasso infe-
riore a quello dell'Unione Sovietica, ma due volte
pi elevato di quello della maggior parte dei Paesi
industriali zzati.
In questo caso, un gran numero di informa-
zioni contenu to in soli tre numeri: 120, 20 e
2
40. La statistica consente un'analisi delle con-
seguenze derivanti da attitudini diverse nei
confronti della pianificazione familiare.
In entrambi gli esempi, i numeri forniscono
una sintesi di alcuni aspetti della situazione in
esame. Considerare il numero di morti conse-
guenti all' uso di rivoltelle senza dubbio pi
immediato che ragionare su una frase quale:
' Alcune persone sono state uccise in Giappo-
ne, di meno in Svizzera, di pi in Canada, an-
cora di pi in Israele, ma molte di meno in
Svezia, e cos via' . Entrambi gli esempi af-
frontano situazioni molto complesse, tuttavia
i numeri sono in grado di comunicare le
informazioni essenziali. Naturalmente, nes-
suna valutazione statistica, per quanto effica-
ce, potrebbe convincere che una determinata
conclusione vera. I dati relativi all' uso della
rivoltella sono spesso superati dall'aforisma:
'Le rivoltelle non uccidono, sono gli uomini
che uccidono'. Ci non deve sorprendere;
dopo tutto, c' ancora chi crede che la terra
sia piatta. L'obiettivo di un' analisi statistica
quello di fornire dei numeri che contengano
informazioni su una determinata si tuazione e
di presentarli cos da rendere possibili valide
interpretazioni.
1.1 PRESENTAZIONE DEL TESTO
Se vogliamo studiare gli effetti di una nuo-
va dieta, si pu iniziare a misurare i cambia-
menti nella massa corporea in tutti i soggetti
che la hanno seguita. Allo stesso modo, se vo-
gliamo valutare l'efficacia di una determinata
terapia nel trattamento del cancro della pro-
stata, dovremmo esaminare la sopravvivenza
dei soggetti trattati con questa terapia dopo
la diagnosi . Tali raccolte di numeri, tuttavia,
possono mostrare un elevato grado di varia-
bilit e non sono molto utili fino a quando
essi non vengono combinati. La statistica de-
scrittiva organizza e sintetizza i dati ed aiuta a
descrivere le caratteristiche di un gruppo o di
una popolazione. Il Capitolo 2 esamina le
tecniche descrittive di tabulazione e rappre-
sentazione grafica dei dati. Le capacit grafi-
INTRODUZIONE
che dei computer hanno reso pi facilmente
reali zzabile questa sintesi rispetto al passato,
ed ora possibile utili zzare nuove modalit
di presentazione anche per le analisi pi sem-
plici.
Il Capitolo 3 va al di l delle rappresenta-
zioni grafiche presentate nel Capitolo 2 ed in-
troduce le misure di sintesi numerica. Per de-
finizione, una sintesi cogli e solo un aspetto
particolare dei dati pertanto, an-
che importante avere un'idea dell'efficaci a
con cui la sintesi in grado di rappresentare i
dati nell'insieme. Ad esempio, vogliamo co-
noscere la sopravvivenza di pazienti affetti da
AIDS dopo la di agnosi di una delle infezioni
opportuni stiche che caratterizzano la malat-
tia. Se calcoliamo la sopravvivenza media,
quest'ultima rappresentativa di tutti i pa-
zienti? Inoltre, quale utilit avrebbe tale valu-
tazione per la pianificazione dei servizi sani-
tari? Il Capitolo 3 esamina le tecniche descrit-
tive che aiutano a rispondere a quesiti come
questi.
I dati che possono assumere solo due valori
richiedono particolare attenzione. Nel campo
dell e scienze mediche, uno degli esempi pi
comuni di questo tipo di dat i probabilmen-
te la categorizzazione tra vivi e morti. Se in-
dichiamo il primo status con O ed il secondo
con 1, siamo in grado di classificare, utili z-
zando questi numeri, un gruppo di soggetti e
calcolare la media dei risultati. In questo
modo, possiamo sintetizzare la mortalit in
ciascun gruppo. Il Capitolo 4 illustra esclusi-
vamente le misure che possono assumere solo
due valori. , inoltre, introdotta la nozione
della divisione di un gruppo in sottogruppi o
classi in relazione ad alcu ne caratteristiche
come l'et o il sesso. Ad esempio, si potrebbe
voler esaminare la mortalit nelle fe mmine
separatamente da quella nei maschi. Infine, il
capitolo esamina le tecniche che consentono
di effettuare validi confronti tra gruppi che
possono differire nella loro composizione.
Il Capitolo 5 introduce la tavola di soprav-
vivenza, una dell e pi importanti tecniche
nello studio delle scienze mediche. Le tavole
di sopravvivenza sono utili zzate dagli esperti
fNTRODUZ/ONE
in sanit pubblica per caratterizzare lo stato
di salute di una popolazione e dalle compa-
gnie di assicurazione per predire la durata
della vita di un determinato soggetto. In que-
sto capitolo lo studio della mortalit iniziato
nel Capitolo 4 ampliato ed include la spe-
ranza di vita di ciascun soggetto; ci consente
un'analisi pi accurata. La conoscenza della
speranza di vita fornisce anche la base per cal-
colare la curva di sopravvivenza di una popo-
lazione. Questa misura di longevit fre-
quentemente utilizzata nei clinical trials che
studiano gli effetti di vari farmaci e di tratta-
menti chirurgici sul tempo di sopravvivenza.
In definitiva, i primi cinque capitoli del li-
bro dimostrano che l'estrazione di importan-
ti informazioni da una serie di dati numerici
non impedita dalla loro variabilit. Malgra-
do la variabilit, i dati spesso presentano an-
che una certa regolarit. Ad esempio, se esa-
miniamo il tasso annuale di mortalit tra gli
adolescenti negli Stati Uniti negli ultimi dieci
anni, non notiamo una grande differenza tra i
numeri. solo una coincidenza, o ci indica
una stabilit naturale nel tasso di mortalit?
Per rispondere a quesiti come questo neces-
sario studiare i principi della probabilit.
La teoria della probabilit si basa su ci che
noto come sistema assiomatico: S1llllZla con
alcune verit di base e poi si costruisce intor-
no ad esse un sistema logico. Nella sua forma
pi pura, il sistema non ha alcun valore prati-
co. La sua praticit deriva dalla capacit di
utilizzare la teoria per la produzione di utili
approssimazioni. possibile trarre un'analo-
gia con la geometria, una disciplina con cui la
maggior parte degli studenti entra in contatto
nei primi anni di scuola.' Sebbene sia impossi-
bile che un'ideale linea retta esista al di fuori
della nostra immaginazione, ci non ci ha im-
pedito di edificare meravigliose costruzioni
basate su calcoli geometrici. La stessa cosa
valida per la teoria della probabilit; sebbene
essa non sia pratica nella sua forma pura, i
suoi principi di base - esaminati nel Capitolo
6 - possono essere applicati per quantizzare
l'incertezza.
La teoria della probabilit trova una sua
3
importante applicazione nei test diagnostici.
L'incertezza emerge poich, malgrado le assi-
curazioni delle case produttrici, nessun test
disponibile perfetto. Pertanto, ci sono nu-
merose importanti domande a cui rispondere.
Ad esempio, possibile concludere che cia-
scun campione ematico che risulta positivo al
test per l'HIV contenga realmente il virus? E
ancora, tutte le unit di sangue della Croce
Rossa hanno dato risultati negativi per l'HIV;
ci significa che non ci sono campioni conta-
minati? Se ci sono alcuni campioni contami-
nati, quanti potrebbero essere? Per risponde-
re a queste domande, dobbiamo basarci sul
comportamento a medio o a lungo termine
dei test diagnostici; la teoria della probabilit
consente di quantizzare tale comportamento.
Il Capitolo 7 approfondisce le nozioni sul-
la probabilit ed introduce alcune comuni di-
stribuzioni di probabilit. Questi modelli
matematici costituiscono un utile punto di
partenza per le metodologie esaminate nelle
successive parti del libro.
I primi capitoli del libro esaminano la va-
riabilit che esiste in un insieme di numeri . I
capitoli successivi esaminano un'altra forma
di variabilit - la variabilit che emerge quan-
do selezioniamo un campione di osservazioni
da una popolazione. Supponiamo di voler sa-
pere se un nuovo farmaco efficace nel trat-
tamento dell'ipertensione. Poich la popola-
zione mondiale di ipertesi molto ampia,
poco verosimile che si disponga del tempo o
delle risorse necessarie per esaminare ogni
singolo soggetto iperteso. In altre situazioni,
la popolazione pu includere pazienti futuri;
possiamo voler sapere come risponderanno
ad un determinato trattamento sia i pazienti
affetti da una determinata malattia che quelli
che la svilupperanno in seguito. Per risponde-
re a queste domande, di solito si seleziona un
campione dalla popolazione in esame e, sulla
base di questo campione, si inferisce che cosa
potrebbe accadere all'intera popolazione.
Se scegliamo due diversi campioni, poco
verosimile che perverremo alla stessa serie di
numeri. Allo stesso modo, se studiamo un
gruppo di bambini con cardiopatia congenita
4
a Boston, otterremo risultati differenti da
quelli di un gruppo di bambini esaminato a
Roma. Malgrado ques ta differenza, vorrem-
mo essere in grado di utili zzare uno o en-
trambi i campioni per trarre conclusioni
sull 'intera popolazione di bambini con questa
malatti a. Il resto del libro sviluppa l'inferenza
statlstl ca.
Il Capitolo 8 studia le propriet dell a medi a
campionaria quando vengono selezionati
campi oni ripetuti da una popolazione ed in-
troduce l'importante concetto del teorema
del limite centrale. Ques to teorema fornisce
un fondamento per quantizzare l'incertezza
associata alle inferenze dedotte.
Affinch uno studi o abbia un valore prati-
co, dobbiamo essere in grado di estrapolare i
risultati applicandoli ad un gruppo pi ampio
o ad una popolazione. A tal fine, vengono in-
trodotti nei Capitoli 9 e lO l' intervall o di con-
fidenza ed il test di ipotesi. Queste tecni che
sono dei metodi per trarre una conclusione
sulla popolazione campi onata, fornendo, co-
munque, anche informazioni sulla probabilit
che la conclusione non sia esatta. Questi con-
cetti sono prima applicati alla media di una
singola popolazione. Ad esempio, potremmo
voler stimare la concentrazione media di un
agente inquinante in un serbatoi o d' acqua e,
quindi, determinare se il li vello medi o reale
sia pi elevato della concentrazione massima
consentita dall'Ente per la Protezione Am-
bientale. Nel Capitolo 11, la teori a estesa al
confronto tra le medi e di due popolazioni;
nel Capitolo 12 applicata al confronto tra
tre o pi medie. Il Capitolo 13 sviluppa ulte-
riormente il concetto del test di ipotesi, ma
introduce le tecniche che consentono di ri-
du rre alcune delle assunzioni necessari e per
eseguire questi test. I Capitoli 14, 15 e 16 svi-
luppano i metodi inferenziali che possono es-
sere applicati alle frequenze - come il numero
di casi di sindrome della morte improvvisa
del neonato in relazione alla posizione ass un-
ta dal neonato nella cull a - piuttosto che a
mlSUraZ1Ol1l contll1ue.
L'inferenza pu essere anche utilizzata per
esaminare la relazione tra varie caratteri sti-
f NTRODUZfONE
che. Se un bambino nato a termine, la cui et
ges tazionale di 39 settimane, pesa all a na-
scita 4 Kg o 8,8 libbre, ci non sorprende.
Se l'et gestazionale del neonato di sole 22
settimane, per, il suo peso sarebbe motivo
di preoccupazione. Perch? Sappi amo che il
peso alla nascita tende ad aumentare con l' et
gesta zio naIe e, sebbene sia estremamente raro
trovare un bambino che pesi 4 Kg a 22 setti-
mane, ci non un v ~ n t o raro a 39 settima-
ne. Lo studio del grado di associazione tra
due fattori noto come analisi di correlazio-
ne; questo l' argomento del Capi tolo 17. Se
vogli amo predire il ri ultato di un fattore in
base al valore di un altro, la regressione la
tecnica adatta. La regre sione lineare semplice
l' argomento del Capitolo 18 e la regressione
multipla - in cui vengono usati due o pi fat-
tori per predire un unico risultato - trattata
nel Capitolo 19. Se il ri sultato in esame pu
assumere solo due valori - come vivo o mor-
to - deve essere applicata una tecni ca alterna-
tiva; la regressione logisti ca sviluppata nel
Capitolo 20.
el Capitolo 21 vengono int rodotti i meto-
di inferenziali corrispondenti alle tavole di
sopravvivenza. Queste tecniche consentono
di trarre conclusioni sulla mortalit di una
popolazione in base ad un suo campione di
soggetti .
Infine, il Capitolo 22 esamina un argomen-
to fondamentale nell ' inferenza - il concetto
dell a rappresentati vit di un campi one. In
ogni studio, di fondamentale importanza
che il campione scelto fornisca un quadro ac-
curato della popolazione da cui selezionato.
Sono descritti numerosi metodi per selezio-
nare campioni rappre entativi, il concetto di
distors ione ed i diversi probl emi che possono
verificarsi nella selezione di un campione. Il
buon senso ha un ruolo importante nel cam-
pionamento, cos come in tutto il libro.
1.2 ESERCIZI
1. Pianificate uno tudio per esaminare un
argomento che ritenete possa influenzare la
salute dell a popolazione nel mondo. Descri-
I NTRODUZIONE
vete brevemente i dati di cui avete bisogno,
come ottenerli, come anali zzarli ed il metodo
per presentare i risultati . Conservate questo
materiale e rileggetelo dopo aver completato
la lettura del libro.
2. Esaminate la seguente citazione relativa
al rapido aumento della popolazione (3):
512 milioni di persone erano malnutrite nel
periodo 1986-1987 rispetto ai 460 mili oni de-
gli anni 1979-198l.
a. Supponete di condividere ques ta opinione.
Giustificate l' uso di questi numeri.
b. Siete sicuri che i nu meri siano corretti?
Pensate che sia possibile che 513 milioni
invece di 512 milioni di soggetti fossero
malnutriti negli anni 1986-1987?
5
3. Oltre ad affermare che 'i cinesi mangiano
la pasta dal 1100 a.C.', l'etichetta su una con-
fezione di pasta afferma che ' gli americani
mangiano 11 libbre di pasta all 'anno', mentre
'gli italiani ne mangiano 60 libbre all 'anno'.
Credete che tali statistiche siano accurate?
Usereste ques ti numeri come base per uno
studio sulla nutri zione?
Bibliografia
1. M CG ERVEY J.D.: Probabilities in everyday life.
N elson- Hall, Chicago, 1986.
2. The pill' s Eastern Europe debut. The Boston
Globe, J anuary 19: 10, 1990.
3. U NITED N ATI ONS P OPULATION FUND: Family
Planning: saving children, improving liv es. Jo-
nes & Janell o, New York.
Presentazione dei dati
Ogni studio o esperimento produce una se-
rie di dati. Le sue dimensioni possono variare
da poche a molte migliaia di osservazioni.
Una serie completa di dati, per, non fornir
necessariamente informazioni facilmente in-
terpretabili. Ad esempio, la Tabella 2.1 elenca
nell' ordine j primi 2.560 casi di Sindrome da
Immunodeficienza Acquisita (AIDS) ripor-
tati ai Centers for Disease Control and Pre-
vention (1). Ogni soggetto stato classificato
come affetto da sarcoma di Kaposi, ed indi-
cato con 1, o non affetto da tale patologia, ed
indicato con O. (Il sarcoma di Kaposi un tu-
more che colpisce la cute, le mucose ed i
linfonodi). Sebbene la Tabella 2.1 illustri l'in-
tera serie di ri ultati, estremamente difficile
interpretare i dati. Non siamo neppure in
grado di individuare le proporzioni relative
di O e 1. Tra i dati grezzi ed i risultati dello
studio si colloca un'intelligente e creativa ma-
nipolazione dei numeri effettuata con i me-
todi della statistica descrittiva.
La statistica descrittiva organizza, sinte-
tizza le osservazioni e ~ n s e n t e una visione di
insieme sulle caratteristiche generali di una
serie di dati. La statistica descrittiva pu as-
sumere forme differenti, quali tabelle, grafici
e misure di sintesi numerica. In questo ca-
pitolo, analizzeremo i diversi metodi per il-
lustrare una serie di dati. Prima di decide-
re quale tecnica sia la pi adatta in una de-
terminata situazione , comu nque, necessario
definire quale tipo di dati abbiamo.
2
2.1 TIPI DI DATI NUMERICI
2.1.1 Dati nominali
Nello studio della biostatistica SI 1l1con-
trano molti tipi di dati numerici, che si diffe-
renziano per la diversa relazione tra valori
possibili. I dati pi semplici sono i dati nomi-
nali, in cui i valori rientrano in categorie o
classi non ordinate. Come in Tabella 2.1, i
numeri sono spesso utilizzati per rappresen-
tare le categorie. In uno studio, ad esempio, si
pu assegnare ai maschi il valore 1 ed alle
femmine il valore O. Sebbene le caratteristiche
siano indicate con numeri e non con parole,
l'ordine e la grandezza dei numeri non sono
importanti. Potremmo con altrettanta facilit
assegnare 1 alle femmine e O ai maschi . I nu-
meri sono utilizzati per convenienza poich
ci consentono di utilizzare i computer per
eseguire complesse analisi dei dati.
I dati nominali che assumono uno di due
distinti valori - come maschio e femmina -
sono denominati dicotomici o binari, a se-
conda che si utilizzi la radice greca o quella
latina per il numero 'due' . Comunque, non
tu tti i dati nominali sono necessariamente di-
cotomici. Spesso esistono tre o pi possibili
categorie in cui possono rientrare le osserva-
zioni. Ad esempio, le persone possono essere
raggruppate in relazione al gruppo sangui-
gno, dove 1 rappresenta il gruppo O, 2 il
gruppo A, 3 il gruppo B e 4 il gruppo AB. La
sequenza di questi valori non importante. I
numeri sono soltanto simboli per i diversi
8 PRESENTAZfONE DE! DATf
Tabella 2.1 Risultati sulla presenza del sarcoma di Kapos i nei primi 2.560 casi di AIDS registrati
presso i Centers for Disease Contro! and Prevention ad Atlanta, Georgia
00000000 00010100 00000010 00001000 00000001 00000000 10000000 00000000
00101000 00000000 00000000 00011 000 00100001 010011 00 00000000 00000010
00000001 00000000 00000010 01100000 00000000 00000100 00000000 00000000
00100010 00100000 00000101 00000000 00000000 00000001 00001001 00000000
00000000 00010000 00010000 00010000 00000000 00000000 00000000 00000000
00000000 00000000 00000000 00001000 00000000 00010000 10000000 00000000
00100000 00000000 00001000 00000010 00000000 00000100 00000000 00010000
00000000 00000000 00000100 00001000 00001000 00000101 0,0000000 01000000
00010000 00000000 00010000 01000000 00000000 00000000 00000101 00100000
00000000 00000000 00000100 00000000 01000100 00000000 00000001 10100000
00000100 00000000 00010000 00000000 00001000 00000000 00000010 00100000
00000000 00000000 00000000 10001000 00001000 00000000 01000000 00000000
00000000 00001100 00000000 00000000 10000011 00000001 11 000000 00001000
00000000 00000000 00000000 00000000 01000000 00000001 00010001 00000000
10000000 00000000 01000000 00000000 00000000 01010100 00000000 00010100
00000000 00000000 00000000 00001 010 00000101 00000000 00000000 00010000
00000000 00000000 00000000 00000001 00000100 00000000 00000000 00001000
11000000 00000100 00000000 00000000 00000000 00000000 00000000 00001000
11000000 00010010 00000000 00001000 00000000 00111000 00000001 010011 00
00000000 01100000 00100010 10000000 00000000 00000010 00000001 00000000
01000010 01000100 00000000 00010000 00000000 01000000 00000001 00000000
01000000 00000001 00000000 10000000 01000000 00000000 00000000 00000100
00000000 00000000 01000010 00000000 00000000 00000000 00000000 00000000
00000000 00000010 00001010 00001001 10000000 00000000 00000010 00000000
00000000 01000000 00000000 00001000 00000000 01000000 00010000 00000000
00001000 01000010 01001111 00100000 00000000 00100000 00000000 10000001
00000001 00000000 01000000 00000000 00000000 00000000 00000000 01000000
00000000 00000000 00100000 01000000 00100000 00000000 0000001 1 00000000
01000000 00000100 10000001 00000001 00001000 00000100 00001000 00001000
00100000 00000000 00000000 00000000 00000010 01000001 00010011 00000000
00000000 10000000 10000000 00000000 00000000 00001000 01000000 00000000
00001000 00000000 01000010 00011 000 00000001 00001001 00000000 00000001
01000010 01001000 01000000 00000010 00000000 10000000 00000100 00000000
00000010 00000000 00000000 00000010 00000000 00100100 00000000 1011 0100
00001100 00000100 00001010 00000000 00000000 00000000 00000000 00000000
00000010 00000000 00000000 00000000 00100000 10100000 00001000 00000000
01000000 00000000 00000000 00100000 00000000 01000001 00010010 00010001
00000000 00100000 00110000 00000000 00010000 00000000 00000100 00000000
00010100 00000000 00001001 00000001 00000000 00000000 00000000 00000000
00000010 00000100 01010100 10000001 00001000 00000000 00010010 00010000
gruppi sanguigni, proprio come le lettere. tica che pu essere interpretata la propor-
necessari o ri cordare ci quando si eseguono zlOne di soggetti che nentra \J1 cIascun
operazioni aritmeti che sui dati . Ad esempio, gruppo. Un'analisi dei dati in Tabell a 2.1 mo-
dire che il gruppo sangui gno medi o di una stra che il 9,6% dei pazienti con AIDS era af-
determinata popolazione 1,8 non ha alcun fetto da sarcoma di Kaposi, mentre il 90,4%
significato. Tuttavia, un' operazione aritme- non ne era affetto.
T1PJ DI DAT1 NUMERICI
2.1.2 Dati ordinali
Quando l' ordine tra le categorie impor-
tante i dati sono definiti dati ordinali. Ad
esempio, le ferite possono essere classificate
in relazione alla loro gravit, dove 1 rappre-
senta una ferita mortale, 2 una ferita grave, 3
una ferita di modesta entit e 4 una ferita
lieve. In questo caso esiste un ordine naturale
tra i di versi gruppi; il numero pi piccolo
rappresenta la ferita pi grave. Tuttavia, il va-
lore intri nseco di ques ti numeri non impor-
tante. Il numero 4 potrebbe indicare una fe-
ri ta mortale e 1 una ferita lieve. Inoltre, la dif-
ferenza tra una ferita mortale ed una ferita
grave non necessari amente uguale a quell a
tra una ferita di modes ta enti t ed una ferita
lieve, anche se in entrambi i casi le categorie
sono di stanziate da una uni t. Pertanto,
molte operazioni aritmetiche non possono
essere applicate ai dati ordinali.
La Tabella 2.2 illustra un secondo esempi o
di dati ordinali; la scala utilizzata dagli on-
cologi per classificare lo stato di salute di pa-
zienti arnlOlati in un clinical trial (2). Un cli-
nical trial uno studi o sperimentale condotto
sull'uomo, che ha di solito l' obiettivo di faci-
litare il confronto tra trattamenti alternativi
per una determinata patologia, ad esempi o il
cancro. I pazienti vengono assegnati casual-
mente ai diversi gruppi di trattamento e poi
9
sottoposti a foll ow up per valutare il verifi-
carsi o meno di un determinato evento.
2.1.3 Dati ordinati in ranghi
In alcune situazi oni una seri e di osserva-
zioni prima disposta in ordine decrescente
in relazione alla grandezza e poi a ciascuna
osservazione assegnato un numero che cor-
risponde alla relativa posizione nell a se-
quenza. Questi dati sono defi niti dati ordi-
nati in ranghi. Ad esempi o, consideri amo
tutte le possibili cause di morte negli Stati
Uniti . Possiamo elencare tutte ques te cause,
insi eme al numero di morti per ciascuna di
esse nel 1992. Se le cause sono ordinate da
quella che ha provocato il maggior numero di
morti a quella che ne ha causato il minor nu-
mero e poi ad esse vengono assegnati dei nu-
meri interi, si dice che i dati sono stati ordi -
nati in ranghi. La Tabella 2.3 elenca le l O
principali cause di morte negli Stati Uni ti nel
1992 (3). Si noti che le malattie cerebrovasco-
lari sarebbero state classificate al terzo posto
sia nel caso in cui avessero causato 480.000
morti che 98.000. Nell'assegnare i ranghi, non
si considerano le grandezze delle osserva-
zioni' ma solo le loro rel ative posizioni. No-
nostante ques ta imprecisione, sorprendente
la quantit di informazioni contenuta nei ran-
ghi. Infatti, talvolta meglio lavorare con i
Tabella 2.2 Classificazione dell 'Eastern Cooperative Oncology Group sull o stato di salute dei pazienti
Status
o
Defini zione
Il paziente pi enamente attivo ed in grado di effettuare qualsiasi attivit, senza alcuna
restrizione dovuta alla malattia
Il paziente non in grado di svolgere attivit faticose, ma pu camminare e svolgere lavori
leggeri e sedentari
2 Il paziente in grado di camminare ed autosufficiente per pi del 50% delle ore di
veglia, ma non pu svolgere alcuna atti vit lavorati va
3 Il paziente solo parzialmente autos ufficiente; costretto a rimanere a letto o seduto per
pi del 50% dell e ore di veglia
4 Il paziente inabil e, non assolutamente autos ufficiente ed cos tretto a rimanere per-
manentemente a letto o sedu to
lO PRESENTAZiONE DEI DATI
Tabella 2.3 Le lO principali cause di morte negli mentre un'altra solo due. Il numero medio di
Stati Uniti, 1992 nascite per queste due donne 2,5, che non
Numero
Rango Causa di morte totale
di morti
Malattie cardiache 717.706
2 Neoplasie maligne 520.578
3 Malattie cerebrovascolari 143.769
4 Pneumopatie croniche ostruttive 91.938
5 Incidenti 86.777
6 Polmonite ed influenza 75.719
7 Diabete mellito 50.067
8 Infezioni da HIV 33.566
9 Suicidio 30.484
lO Omicidio e pena capitale 25.488
ranghi che con i dati originali; questo aspetto
ulteriormente approfondito nel Capitolo 13.
2.1.4 Dati discreti
Per i dati discreti sono importanti sia l'or-
dine che la grandezza. In questo caso, i nu-
meri rappresentano quantit realmente misu-
rabili piuttosto che semplici simboli. Inoltre,
i dati discreti possono assumere solo valori
specifici - spesso numeri interi - che differi-
scono per quantit fisse; non sono possibili
valori intermedi. Esempi di dati discreti sono
il numero di incidenti stradali nel Massachu-
setts in un mese, il numero di parti di una
donna, il numero di nuovi casi di tubercolosi
riportati negli Stati Uniti in un anno ed il nu-
mero di posti-letto in un ospedale.
Si noti che per i dati discreti esiste un ordine
naturale tra i possibili valori dei dati. Se siamo
interessati, ad esempio, al numero di parti di
una donna, un numero pi elevato indica che
una donna ha avuto pi figli. Inoltre, la diffe-
renza tra una e due nascite uguale a quella
tra quattro e cinque nascite. Infine, il numero
di nascite ristretto a numeri interi non nega-
tivi; una donna non pu partorire 3,4 volte.
Poich ha senso misurare la distanza tra i pos-
sibili valori assunti da osservazioni discrete,
possono essere applicate operazioni aritmeti-
che. Tuttavia, il risultato di un'operazione
aritmetica su due valori discreti non di per s
necessariamente discreta. Ad esempio, suppo-
niamo che una donna abbia partorito tre volte,
un numero intero.
2.1.5 Dati continui
I dati che rappresentano quantlta misura-
bili, ma che non si limitano ad assumere solo
determinati valori (come i numeri interi)
sono noti come dati continui. In questo caso,
la differenza tra due possibili valori pu es-
sere arbitrariamente piccola. Esempi di dati
continui sono il tempo, il livello di coleste-
rolo sierico di un paziente, la concentrazione
di un agente inquinante e la temperatura. In
tutti i casi sono possibili valori frazionari.
Poich ha senso misurare la distanza tra due
osservazioni, possibile applicare delle ope-
razioni aritmetiche. Il solo fattore limitante
per un' osservazione continua il grado di ac-
curatezza con il quale pu essere misurata;
pertanto, spesso il tempo approssimato al
secondo vicino ed il peso al grammo o alla
libbra vicina. Comunque, pi accurati sono
gli strumenti di misurazione, maggiore la
quantit di dettagli che possibile ottenere
nei nostri dati.
Talvolta possiamo aver bisogno di un mi-
nor numero di dettagli rispetto a quelli con-
sentiti dai dati continui; in questo caso pos-
siamo trasformare le osservazioni continue in
osservazioni discrete, ordinali o anche dico-
tomiche. Ad esempio, in uno studio sugli ef-
fetti del fumo materno sui neonati possiamo
prima rilevare il peso alla nascita di un ampio
numero di neonati per poi suddividerli in tre
gruppi: quelli che pesano meno di 1.500 gram-
mi, tra 1.500 e 2.500 grammi e pi di 2.500
grammi. Sebbene siamo in possesso delle mi-
surazioni reali del peso alla nascita, non ci in-
teressa se un neonato pesa 1.560 grammi o
1.580 grammi; ci interessa solo il numero di
neonati che rientra in ciascun gruppo. In base
all'esperienza, non dobbiamo aspettarci dif-
ferenze sostanziali nel gruppo di bambini con
peso molto basso, in quelli con peso basso e
con peso normale. I dati ordinali, inoltre,
sono spesso pi semplici da gestire rispetto ai
dati continui e l'analisi pi semplice. Tutta-
TABELLE
via, nel nostro esempi o vi una perdita di
dettagli nelle informazioni relative ai neonati .
In generale, il grado di precisione richiesto in
una serie di dati dipende dalle domande che ci
pomamo.
Il Paragrafo 2.1 ha descritto gradualmente i
dati numerici, da quelli nominali a quelli con-
tinui. In questa descrizione la natura dell a re-
lazione tra i valori possibili diventata sem-
pre pi compl essa. necessario fare delle
distinzioni tra i di versi tipi di dati poich ven-
gono utilizzate tecniche differenti per analiz-
zarli. Come detto in precedenza, non ha al-
cun senso parlare di un gruppo sanguigno
medio di 1,8; ha senso, invece, parlare di una
temperatura media di 24,55C.
2.2 TABELLE
Adesso che siamo in grado di distinguere i
diversi tipi di dat i, dobbiamo imparare ad in-
dividuare le tecniche st ati stiche pi appro-
priate per descriverli. Sebbene una certa
quantit di informazioni sia perduta nella sin-
tesi dei dati, possibile anche guadagnarne
una quantit notevole. Una tabeLLa forse il
modo pi sempli ce per sintetizzare una serie
di osservazioni e pu essere utili zzata per
tutti i tipi di dati numerici.
2.2.1 Distribuzioni di frequenza
Un tipo di tabella comunemente utili zzato
per valutare i dati la distribuzione di fre-
quenza. Per i dati nominali e ordinali, una di-
st ribuzione di frequenza consiste in una serie
di classi o categorie e I1elle conte numeriche
che corri spondono a ciascuna di esse. Un
sempli ce esempio la Tabella 2.4, che riporta
Tabella 2.4 Casi di sarcoma di Kaposi nei primi
2.560 pazienti con AIDS registrati
presso i enters for Disease Control
ad Atlanta, Georgia
Sarcoma di Kaposi
Si
o
Numero di soggetti
246
2.314
11
il nu mero di soggetti (conta nu merica) affetti
o non affetti da sarcoma di Kaposi (classi o
categorie) per i primi 2.560 casi di AIDS ri-
portati ai Centers for Di sease Control. Un
esempio pi complesso fornito nella Tabella
2.5, che indica il numero di sigarette fumate
per adulto negli Stati Uniti in vari anni (4).
Tabella 2.5 Consumo di sigarette pro capite in
soggetti di et maggiore o uguale a 18
anni, Stati Uniti, 1900- 1990
An no N 1I 111erO di sigarette
1900 54
1910 151
1920 665
1930 1.485
1940 1.976
1950 3.522
1960 4.171
1970 3.985
1980 3.851
1990 2.828
Per illustrare i dati discreti o continui nell a
forma di una distribuzione di frequenza,
dobbiamo scomporre i valori delle osserva-
zioni in una serie di intervalli distinti, non so-
vrappos ti. Se ci sono troppi intervalli, la sin-
tesi non un reale mi gli or amento rispetto ai
dati grezzi. Se sono troppo pochi, si perde
una grande quantit di informazioni . Sebbene
non sia necessario, gli intervalli sono spesso
costruiti di ampiezze uguali; ci facilita il
confronto tra le classi. Una volta selezionati i
limiti superiore ed inferiore di ciascun inter-
vallo, si calcola il numero di osservazioni i cui
valori ri entrano in ciascuna coppia di limiti
ed i risultati sono organizzati in una tabell a.
Ad esempio, la National H ealth Examination
Survey ha, tra l'altro, rilevato il livello di co-
les terolo sierico di 1.067 soggetti dell a popo-
lazione maschile degli Stati Uniti di et com-
presa tra 25 e 34 anni approssimandolo al
milligrammo pi vicino p er 100 millilitri (5).
Le osservazioni sono state, poi, suddivise in
intervalli di uguale ampiezza; in Tabella 2.6
ono presentate le frequenze corrispondenti a
ciascun intervallo.
12
La Tabella 2.6 forni sce un quadro di in-
sieme dei dati; essa illustra come i valori di
cole terolo sierico sono di stribuiti negli in-
tervalli. Si noti che le osservazioni variano da
80 a 399 mg/ 100 mi, con poche misurazioni
alle es tremit dell' intervallo ed un gran nu-
mero di valori tra 120 e 279 mg/ 100 mI. L' in-
tervallo 160- 199 mg/ 100 mI contiene il mag-
gior numero di osservazioni . La tabell a 2.6
permette una mi gliore comprensione dei dati
rispetto ad un elenco di valori del colesterolo
di 1.067 soggetti. Sebbene si siano perse al-
cune informazioni - data la tabella, non pos-
siamo pi risalire ai valori ori ginali dei dati -
sono state anche es tratte importanti info rma-
zioni che aiutano a comprendere la distri bu-
zione dei livelli di colesterolo sieri co in que-
sto gruppo di maschi.
Tabell a 2.6 Frequenze assolute dei livelli di cole-
sterolo sierico in 1.067 soggetti dell a
popolazione maschile degli Stati
Uniti di et compresa tra 25 e 34
anni, 1976- 1980
Livello di colesterolo umero di soggetti
(mg1100 mi)
80-11 9 13
120- 159 150
160-199 442
200-239 299
240-279 11 5
280-319 34
320-359 9
360-399 5
Totale 1.067
L'acquisizione di un tipo di informazione e
la perdita di un altro vale anche per i semplici
dati di cotomici riportati nelle Tabell e 2.1 e
2.4. Potremmo pensare di non aver perso al-
cun elemento sintetizzando questi dati e con-
tando i numeri O ed 1, ma non cos. Ad
esempi o, se esiste un certo andamento tem-
porale nelle osservazioni - forse la propor-
zione di pazienti affett i da AIDS con sarcoma
di Kaposi pu aumentare o diminui re con il
diffondersi dell'epidemia - questa info rma-
zione perduta nella sintesi .
PRESENTAZIONE DEr DATI
Le tabell e forniscono maggiori informa-
zioni quando non sono troppo complesse.
Come regola generale, le tabell e e le colonne
alloro interno devono essere sempre defi nite
con chiarezza. Se sono utili zzate delle unit
di mi sura, come mg/ 100 mi per i livelli di co-
les terolo sieri co in Tabella 2.6, esse devono
essere specificate.
2.2.2 Frequenza rel ati va
uti le talvolta conoscere la proporzione di
valori che rientra in un determinato intervall o
in una di stribuzione di frequenza e non il nu-
mero assoluto. La frequenza relativa per un
intervall o la proporzione del numero di os-
servazioni che appare nell' intervallo stesso.
La frequenza relati va calcolata di videndo il
numero di osservazioni all'interno di un in-
tervall o per il numero totale di osservazioni
della tabella. La proporzione pu essere la-
sciata immutata o essere moltiplicata per
100% per ottenere la percentuale di valori
nell' intervallo. Ad esempio, in Tabella 2.6 la
frequenza relativa nell a classe 80-119 mg/ 100
mI (13/ 1. 067) x 100% = 1,2%; all o stesso
modo, la frequenza relativa nella cl asse 120-
159 mg/100 mi (150/ 1.067) x 100% =
14,1 %. Le frequenze relative per tutti gli in-
tervalli di una tabella sommano al 100%.
Le frequenze relati ve sono uti li per con-
frontare seri e di dati con un numero diverso
di osservazioni . La Tabella 2.7 ill ustra le fre-
quenze assolute e relative del livell o di cole-
sterolo sieri co per i 1. 067 soggetti dell a popo-
lazione maschile di et compresa tra 25 e 34
anni illustrati in Tabella 2.6 e per un gruppo
di 1.227 maschi di et compresa tra 55 e 64
anni. Poich i soggetti anziani sono pi nu-
merosi, non corretto confrontare le colonne
dell e frequenze a olme dei due gruppi. In-
vece, il confronto delle frequenze relati ve ha
un signi ficato. Possiamo notare che, in gene-
rale, i soggetti anziani presentano li velli di co-
lesterolo sieri co pi elevati rispetto ai giovani;
i soggetti giovani hanno una proporzione pi
elevata di valori al di sotto di 200 mg/ 100 mI,
mentre gli anziani presentano una propor-
zione pi elevata al di sopra di questo valore.
TABELLE 13
Tabell a 2.7 Frequenze assolute e frequenze relative dei livelli di colesterolo sierico in 2.294 soggetti
della popolazione maschile degli Stati Uniti, 1976-1980
Et 25-34 Et 55-64
Livello di colesterolo Numero Frequenza Numero Frequenza
(mg/l 00 mI) di soggetti relativa (%) di soggetti relativa (%)
80-119 13 1,2 5 0,4
120- 159 150 14,1 48 3,9
160-199 442 41,4 265 21,6
200-239 299 28,0 458 37,3
240-279 115 10,8
280-319 34 3,2
320-359 9 0,8
360-399 5 0,5
Totale 1.067 100,0
La frequenza relativa cumulativa p er un
intervall o la percentuale del numero totale
di osservazioni che hanno un valore inferiore
o uguale al limite superiore dell'intervallo
stesso. La frequenza relativa cumulativa cal-
colata sommando le frequenze relative per
l'intervallo specificato insieme a quelle per
tutti gli intervalli precedenti. Cos, per il
gruppo di et compresa tra 25 e 34 anni in Ta-
bella 2.7, la frequenza relativa cumul ativa del
secondo intervallo 1,2 + 14,1 = 15,3%; all o
stesso modo, la frequenza relativa cumulativa
del terzo intervallo 1,2 + 14,1 + 41,4 =
56,7%. Come le frequenze relative, le fre-
quenze relative cumulative sono utili per
confrontare serie di dati che contengono nu-
meri di versi di osservazioni. La Tabella 2.8 ri-
281 22,9
128 10,4
35 2,9
7 0,6
1.227 100,0
porta le frequenze relati ve cumulative dei li-
velli di colesterolo sierico dei due gruppi di
maschi illustrati in Tabella 2.7.
In accordo con la Tabella 2.7, i soggetti an-
ziani tendono ad avere livelli di colesterol o
sierico pi elevati dei giovani. Questa una
generali zzazione comune; si pu anche dire,
ad esempio, che gli uomini sono pi alti dell e
donne o che le donne vivono pi a lungo de-
gli uomini. La generalizzazione relativa al co-
lesterolo sierico non significa che ogni sog-
getto di et compresa tra 55 e 64 anni ha un li-
vell o di colesterolo pi elevato rispett o ad
ogni soggetto di et compresa tra 25 e 34 anni
e neanche che il livello di colesterolo sierico
di ogni soggetto aumenta con l'et. Ci che
indica l'affermazione che per un determi-
Tabella 2.8 Frequenze relative e frequenze relative cumulative dei livelli di colesterolo sierico in 2.294
soggetti della popolazione maschile degli Stati Uniti, 1976-1980
Et 25-34 Et 55-64
Livello di colesterolo Frequenza Frequenza Frequenza Frequenza
(mg/100 mi) relativa relativa cumulativa relativa relativa cumulativa
(%) (%) (%) (%)
80-119 1,2 1,2 0, 4 0,4
120-159 14,1 15,3 3,9 4,3
160-199 41,4 56,7 21,6 25,9
200-239 28,0 84,7 37,3 63,2
240-279 10,8 95,5 22,9 86,1
280-319 3,2 98,7 10,4 96,5
320-359 0,8 99,5 2,9 99,4
360-399 0,5 100,0 0,6 100,0
14
nato livello di colesterolo, la proporzione di
soggetti giovani, con una lettura inferiore o
uguale a questo valore, superiore all a pro-
porzione di soggetti anziani. Ci pi evi-
dente in Tabella 2.8 che in Tabella 2.7. Ad
esempio, il 56,7% dei soggetti di et com-
presa tra 25 e 34 anni ha un livello di coleste-
rolo sierico inferiore o uguale a 199 mg/ 100
mi, mentre solo il 25,9% dei soggetti di et
compresa tra 55 e 64 anni rientra in questa ca-
tegoria. Poich le proporzioni relative per i
due gruppi seguono questo andamento in
ogni intervallo della tabella, si dice che le due
distribuzioni sono ordinate stocasticamente.
Per un qualsiasi livello, una proporzione
maggiore di soggetti anziani ha livelli di cole-
sterolo sierico superiori a questo valore ri-
spetto ai giovani; pertanto, la distribuzione
dei livelli per i soggetti anziani stocastica-
mente maggiore della distribuzione dei gio-
vani. Tale definizione risulter pi significa-
tiva quando tratteremo le variabili casuali e le
di tribuzioni di probabilit nel Capitolo 7. A
quel punto, le implicazioni di tale distribu-
zione appariranno evidenti .
2.3 GRAFICI
I dati possono essere sintetizzati ed illu-
strati anche attraverso l'uso di grafici, o rap-
presentazioni figurate di dati numerici. I gra-
4.500
4.000
3.500
3.000
.,
...
'"
.?t 2.500
-o
2
2.000
"
E
1.500 ::l
Z
1.000
500
O
__ .1
PRESENTAZiONE DE! DATI
fici devono essere realizzati in modo da co-
municare al primo sguardo l'andamento ge-
nerale di una serie di dati. Sebbene la lettura
dei grafici sia pi semplice di quella delle ta-
belle, essi spesso forniscono un minor nu-
mero di dettagli. Ancora una volta, per, la
perdita di dettagli pu essere accompagnata
da una migliore comprensione dei dati. I gra-
fici pi utili sono relativamente semplici ed
auto-esplicativi . ComeJe tabelle, essi devono
essere definiti con chi arezza ed necessario
indicare le unit di misura.
2.3.1 Diagrammi a barre
Il diagramma a barre un tipo comune di
grafico utilizzato per illustrare una distribu-
zione di frequenza per dati nominali o ordi-
nali. In un diagramma a barre, le diverse ca-
tegorie in cui rientrano le osservazioni sono
presentate lungo un asse orizzontale. Una
barra verticale tracciata al di sopra di ogni
categoria e l'altezza della barra rappresenta la
frequenza o la frequenza relativa delle osser-
vazioni in quella classe. Le barre devono
avere uguale ampiezza ed essere separate
l'una dall'altra per non implicare alcuna con-
tinuit. Ad esempio, la Figura 2.1 un dia-
gramma a barre che illustra i dati relativi al
consumo di sigarette negli Stati Uniti presen-
tati in Tabella 2.4. Si noti che, con la rappre-
1900 1910 1920 1930 1940 1950 1960 1970 1980 1990
Figura 2.1 Diagramma a barre: con-
sumo di sigarette pro capite in sog-
getti di et maggiore o uguale a 18
anni, Stati Uniti, 1900-1990 Anno
GRAFICI
sentazione grafica, l'andamento del consumo
di sigarette negli anni pi evidente che nell a
tabella.
2.3.2 Istogrammi
L'istogramma rappresenta probabilmente il
grafico pi utili zzato. Mentre il di agramma a
barre rappresenta una distribuzione di fre-
quenza per dati nominali o ordinali , un isto-
gramma illustra una distribuzione di fre-
quenza per dati di screti o continui . L'asse
orizzontale indica i limiti reali dei diversi in-
tervalli, cio i punti che separano l'intervall o
dagli intervalli conti gui. Ad e empi o, il limite
tra le prime due classi di li vello di colesterolo
sieri co in Tabell a 2.6 119,5 mg/ l00 mi e rap-
presenta il reale limite superiore dell'inter-
vallo 80-119 ed il reale limite inferiore dell'in-
tervallo 120-159. L'asse verticale di un isto-
gramma illustra la freq uenza o la freq uenza
relat iva dell e osservazioni in ciascun inter-
vallo.
Il primo passo nell a costruzione di un isto-
gramma tracciare le scale degli assi. La scala
verticale deve iniziare da zero; altrimenti, i
confronti visivi tra i diversi intervalli possono
essere distorti. Dopo aver tracciato gli assi, su
ciascun intervallo posta una barra verticale
centrata nel punto medio. L'altezza dell a
barra indica la freque nza associata a quell'in-
450
400
350
u 300
u
v
OD
OD
250

-o
2
2
"
E
150
:l
Z
15
tervallo. Ad esempio, la Figura 2.2 illustra un
istogramma costruito con i dati relativi al li -
vell o di colesterolo sierico della Tabella 2.6.
In realt, la frequenza associata a ciascun
intervallo in un istogramma rappresentata
non dall'altezza della barra, ma dalla sua area.
Cos, in Figura 2.2, 1'1,2% dell'area totale
corrisponde alle 13 osservazioni comprese tra
79,5 e 119,5 mg/l00 mi ed il 14,1 % dell' area
corrisponde alle 150 osservazioni comprese
tra 119,5 e 159,5 mg/ l00 mI. L'area dell 'in-
tero istogramma pari al 100%, o a 1. Si noti
che la proporzione dell'area totale corrispon-
dente ad un intervall o uguale alla frequenza
relativa dell 'intervallo stesso. Pertanto, un
istogramma che illustra le frequenze relative
- come in Figura 2.3 - avr la stessa forma di
un istogramma che illustra le frequenze asso-
lute. Poich l'area di ciascuna barra rappre-
senta la proporzione relativa di osservazioni
in un intervallo, bisogna prestare molta atten-
zione nella costruzione di un istogramma con
intervalli di ampiezza diversa; l'altezza deve
vari are con l'ampiezza in modo che l'area di
ciascuna barra abbia la gi usta proporzione.
2.3.3 Poligoni di frequenza
Il poligono di frequenza, un altro grafico
comunemente utilizzato, molto simile
all 'istogramma. Un poligono di frequenza
Figura 2.2 l stogramma: frequen ze
assolute dei livelli di colesterolo sie-
rico in 1.067 soggetti della popola-
zione maschil e degli Stati Uniti di et
compresa tra 25 e 34 anni, 1976- 1980
100
50
O
-
---
79.5 399.5
Livello di colesterolo sierico (mg/ l00 mi)
16 PRESENTA ZIONE DEr DATI
45
40
35

30
'"
b
25
'"

'"
20
N
c::
'" l5
;:J
cr'
'"
d:
IO
5
O
-
---
Figura 2.3 Istogramma: frequenze
relative dei li vell i di colesterolo sie-
ri co in 1.067 soggetti dell a popola-
zione maschi le degli Stati Uniti di et
compresa tra 25 e 34 anni , 1976-1980
79.5 119.5 159.5 199.5 239.5 279.5 319,5 359.5 399.5
Li vell o di colesterol o sieri co (mg/ l 00 mi )
utilizza i due stessi assi dell'istogramma. Esso
costruito ponendo un punto al centro di
ciascun intervallo cos che l'altezza del punto
sia ugual e alla frequenza o alla frequenza re-
lativa associata a quell ' intervallo. Sono posti
dei punti anche sull 'asse orizzontale nel
punto medio degli intervalli che immediata-
mente precedono o seguono gli intervalli che
contengono le osservazioni. I punti sono, poi,
uniti tra loro con delle linee rette. Come in un
istogramma, la frequenza delle osservazioni
in un determinato intervallo rappresentata
dall 'area all' interno dell'intervallo ed al di
sotto del tratto di retta.
La Figura 2.4 un poligono di frequenza
dei dati rel ativi al livello di colesterolo sieri co
della Tabella 2.6. Confrontiamola con l' isto-
gramma della Figura 2.2, tracciato sullo
sfondo. Se il numero totale dell e osservazioni
nella serie di dati dovesse aumentare costan-
temente, potremmo ridurre l'ampiezza degli
intervalli nell' istogramma ed avere ancora un
numero adeguato di misurazioni per ciascuna
classe; in questo caso, l' istogramma ed il poli-
gono di frequenza sono sovrapponibili. I due
grafici, cos come sono disegnati, contengono
le stesse infor mazioni relative alla distribu-
zione di livelli di colesterolo sierico in questa
popolazione maschile. Si pu notare che le
misurazioni si concentrano intorno a 180
mgl l00 mI e diminuiscono con una pendenza
maggiore a sinistra che a destra di tale valore.
La maggior parte delle osservazioni rientra
tra 120 e 280 mgl l00 mI e tutte rientrano tra
80 e 400 mgl l00 mI.
Poich possono essere facilmente sovrap-
posti, i poligoni di frequenza sono pi adatti
degli istogrammi per confrontare due o pi
serie di dati. La Figura 2.5 mostra i poligoni
di frequenza dei dati relativi allivello di cole-
sterolo sierico presentati in Tabella 2.7. Poi-
ch i soggetti anziani tendono ad avere livelli
pi elevati di coles terol o sierico, il loro poli-
gono a destra del poligono relativo ai sog-
gettI glOVal11.
Sebbene l'asse orizzontale sia lo stesso di
quello di un poligono di frequenza standard,
l'asse verticale di un poligono di frequenza
cumulativa illustra le frequenze relative cu-
mulative. Un punto posto al reale limite su-
periore di ciascun intervall o; l'altezza del
punto rappresenta la frequenza relativa cu-
mulativa associata a quell' intervall o. I punti
sono, poi, uniti tra loro con delle linee rette.
Come i poligoni di frequenza, i poli goni di
frequenza cumul ativa possono essere utili z-
zati per confrontare serie di dati, come illu-
strato in Figura 2.6. Osservando che il poli-
gono di frequenza cumulativa per i maschi di
et compresa tra 55 e 64 anni alla destra del
GRAFICI 17
450
400
350
"8
300 v
OJ)
OJ)
S;
250
-o
2 200
<U
E
:;J
ISO
Z
100
SO
O
Figura 2.4 Poli gono di fre-
quenza: frequenze assolute
dei li velli di coles terolo sie-
ri co in 1.067 soggerri dell a
popolazione maschil e degli
Stati Uniti di et compresa
tra 25 e 34 anni, 1976-1980
59,S 99,S 139,5 179,5 219,5 259,5 299,5 339,5 379,5 419,5
poligono dei maschi di et compresa tra 25 e
34 anni per ogni valore di colesterolo sierico,
notiamo che la distribuzione dei soggetti an-
ziani stocasticamente maggiore rispetto a
quella dei giovani .
I poligoni di freq uenza cumul ativa possono
essere utili zzati anche per ottenere i percentili
di una serie di dati. Il novantacinquesimo
percentile il valore che maggiore o uguale
al 95 % delle osservazioni e minore o uguale
al restante 5%. All o stesso modo, il settanta-
Livell o di colesterolo sierico (mg/ l00 mi )
cinquesimo percenti le il valore che mag-
giore o uguale al 75% delle osservazioni e mi-
nore o uguale al restante 25%. Q uesta defini -
zione approssimativa perch il 75% di un
numero intero non sempre d come risultato
un altro numero intero; pertanto, si ricorre
spesso ad un'approssimazione. In Figura 2.6,
il cinquantesimo percentil e dei livelli di cole-
sterolo sierico per il gruppo di et compresa
tra 25 e 34 anni - cio il valore maggiore o
uguale alla met dell e osservazioni e minore o
o Et 25 - 34
"Et 55 - 64
Figura 2.5 Poli gono di frequenza:
fr equenze relati ve dei li velli di cole-
sterolo sierico in 2.294 soggerri dell a
popolazione maschil e degli Stati
Uniti , 1976- 1980

'"
.:':
:;;
"'E
'"
N
c:
v
:;J
o-
v
d:;
45
40
35
30
25
20
15
IO
5
O
59,5 99.5 I 39,5 179,5 2 I 9,5 259,5 299,5 339,5 379.5 419,5
Li vello di coles terolo sieri co (mg/ l00 mi )
18
~
~
~
'"
od
.2l
::l

u
'"
~
'"
"
....
'"
N
<::
v
::l
c-
v
....
r..t..
100
90
80
70
60
50
40
30
20
lO
O
o Et 25 - 34
t>. Et 55 - 64
PRESENTAZ!ONE DEI DATI
79,5 119,5 159.5 199,5 239,5 279,5 319,5 359,5 3')9.5
Livello di colesterolo sieri co (mg/100 mI)
Figura 2.6 Poligono di frequenza
cumulati va: fr equenze relative cumu-
lative dei li velli di colesterolo sierico
in 2.294 soggetti dell a popolazione
maschile degli Stat i Uniti, 1976- 1980
uguale all'altra met - approssimativamente
193 mgl 100 mI; il cinquantesimo percentile
per il gruppo di et compresa tra 55 e 64 anni
circa 226 mgl 100 mI.
I percentili sono utili per descrivere la
forma di una distribuzione. Ad esempio, se il
quarantesimo ed il sessantesimo percentile di
una serie di dati sono ad uguale distanza dal
punto medio, e cos anche il trentesimo ed il
settantesimo percentile, il ventesimo e l'ot-
tantesimo, e tutte le altre coppie di percentili
la cui somma 100, i dati sono simmetrici;
cio, la distribuzione dei valori ha la stessa
forma su ciascun lato del cinquantesimo per-
centile. Invece, se c' un numero di osserva-
zioni atipiche su di un unico lato dal punto
medio, i dati si dicono asimmetrici. Se queste
osservazioni sono inferiori al resto dei valori,
i dati sono asimmetrici a sinistra; se sono su-
periori alle altre misurazioni, i dati sono
asimmetrici a destra. Nel Capitolo 3 sono ul-
teriormente discusse le diverse forme che una
distribuzione di dati pu assumere.
Il Il I11 11 I 1111111 11111111111 III
39 1,8
Tasso per 100.000 abitant i
2.3.4 Diagrammi di dispersione a una di-
mensIOne
Il diagramma di dispersione a una dimen-
sione un altro tipo di grafico che pu essere
utilizzato per sintetizzare una serie di osser-
vazioni discrete o continue. Il diagramma di
dispersione a una dimensione utilizza un sin-
golo asse orizzontale per illustrare la posi-
zione relativa di ciascuna osservazione. Ad
esempio, la Figura 2.7 illustra i tassi grezzi di
mortalit per i 50 Stati ed il Distretto della
Columbia nel 1992, da un minimo di 391,8
per 100.000 abitanti in Alaska ad un massimo
di 1.214,9 per 100.000 abitanti a Washington,
D.C. (3). Un vantaggio del diagramma di di-
spersione a una dimensione che consente di
non perdere alcuna informazione, poich
ogni osservazione rappresentata individual-
mente; uno svantaggio che la lettura del gra-
fico pu risultare complessa se numerose os-
servazioni sono molto vicine.
1. 214.9
Figura 2.7 Di agramma di disper-
sione a una dimensione: tassi grezzi
di mortalit negli Stati Uniti, 1992
GRAFI CI
2.3.5 Diagrammi a scatola
Il diagramma a scatola simil e al di agram-
ma di dispersione a una dimensione poich
richiede un singolo asse; tuttavia, invece di
tracciare ogni singola osservazione mostra
solo una sintesi dei dati (6) . La Figura 2.8 un
diagramma a scatola dei dati relativi al tasso
grezzo di mortalit illustrati in Figura 2.7. La
scatola centrale - che nella Figura 2.8 rap-
presentata in sen o verticale, ma pu anche
essere orizzontale - si estende dal ventici n-
quesimo percentile, 772,0 per 100.000, al set-
tantacinquesimo percentile, 933,3 per 100.000.
Il venticinq uesimo ed il settantacinquesimo
percentile di una serie di dati sono detti i
quartili dei dati. La linea tracciata tra i quar-
tili a 872,0 morti per 100.000 abitanti indica il
cinquantesimo percentile dell a serie di dati; la
met dell e osservazioni mino re o uguale a
872,0 per 100.000 abitanti, mentre l'altra met
maggiore o uguale a questo valore. Se il cin-
quantesimo percentile appross imativamente
a met tra i due quartili, questo indica che le
osservazioni centrali della serie di dati sono
approssimativamente simmetriche.
Le linee al di fuori della scatola si es ten-
dono ai valori adi acenti. I valori adiacenti
sono le osservazioni pi estreme che comun-
Figura 2.8 Di agramma a scatol a: tassi
grezzi di mortalit negli Stati Uniti ,
1992
Figura 2.9 Di agramma di di sper-
sione a una dimensione e di a- I
gramma a scatola: tassi grezzi di
mortalit negli Stati Uniti, 1992 391 ,8
c

:.n
'"
o
o
o
ci
o
...
v
c..
g
'" f-;
1. 214,9
1. 090, 2
933,3
872,0
772,0
539,5
39 1,8
539,5
19
que non superano plU di 1,5 volte l'altezza
della scatola esternamente ad ognuno dei
quartili. ella Figura 2.8, 1,5 volte l'altezza
della scatola pari a 1,5 x (933,3 - 772,0) =
242,0 per 100.000 abitanti. Pertanto, i valori
adi acenti sono le osservazioni pi grandi e
pi piccole nella serie di dati che non supe-
rano, rispettivamente, i valori di 772,0 - 242,0
= 530,0 e 933,3 + 242,0 = 1.175,3 per 100.000,
o 539,5 per 100.000 e 1.090,2 per 100.000 abi-
tanti. Nelle serie simmetriche di dati i valori
adiacenti devono contenere circa il 99% dell e
mi surazioni. Tutti i punti al di fuori di questo
intervallo sono rappresentati da cerchi; que-
ste osservazioni sono considerate osserva-
zioni atipiche e non caratteri stiche del resto
dei dati.
da sottolineare che la spiegazione prece-
dente un modo per definire un diagramma a
scatola; ci sono altre defini zioni che presen-
tano vari gradi di complessit (7). Inoltre,
sebbene un di agramma a scatola fornisca una
di screta quantit di informazioni sulla distri-
buzione di una seri e di dati, possibile otte-
ner e una quantit maggiore di informazioni
combinando il di agramma di dispersione a
una dimensione ed il diagramma a scatola,
come in Figura 2.9.
o
o
772,0 872,0 933.3 1.090,2
I I I
Il Il 111 11 I 111111 1 1111111111 I III
Tasso per 100.000 abitanti
1.2 14,9
20
2.3.6 Diagrammi di dispersione a due di-
mensioni (Diagrammi a punti)
A differenza degli altri grafici illustrati in
precedenza, il diagramma di dispersione a
due dimensioni o diagramma a punti utiliz-
zato per illustrare la relazione tra due diverse
mis ure continue. Ogni punto del grafico rap-
presenta una coppia di valori; la scala per una
quantit segnata sull'asse orizzontale, o asse
x, e la scala per l'altra sull 'asse verticale, o asse
y. Ad esempio, la Figura 2.10 traccia due sem-
plici misure di funzionalit polmonare - ca-
pacit vitale forzata (FVC) e volume espira-
torio forzato in un secondo (FEV]) - in 19
soggetti asmatici che hanno partecipato ad
uno studio sugli effetti fisici dell' anidride
solforosa (8). La capacit vitale forzata il
volume di aria che pu essere espulsa dai pol-
moni in sei secondi, e il volume espiratorio
forzato in un secondo il volume che pu es-
sere espulso dopo un secondo di sfor zo co-
stante. Si noti che il soggetto rappresentato
dal punto pi lontano a sinistra aveva una mi-
surazione di FEV
1
di 2,0 litri ed una misura-
zione di FVC di 2,8 litri. (Sul grafico sono ri-
portati solo 18 punti anzich 19 perch due
soggetti presentavano valori identici di FVC
e FEV
1
; pertanto, i due punti sono sovrappo-
sti). Come atteso, il grafico indica che esiste
7
o
PRESENTAZIONE DE! DATT
una stretta relazione tra ques te due quantit;
la capacit vitale forzata aumenta al crescere
del volume espiratorio for zato in un secondo.
2.3.7 Diagrammi lineari
Un diagramma lineare simile ad un dia-
gramma a punti poich pu essere utili zzato
per illustrare la relazione tra quantit conti -
nue. Ancora una volta, ciascun punto sul gra-
fico rappresenta una coppia di valori. In que-
sto caso, per, ciascun valore sull 'asse x ha
un' unica misurazione corrispondente sull'as-
se y; i punti adiacenti sono, poi, uniti tra loro
con delle linee rette. In genere, la scala sul -
l'asse orizzontale rappresenta il tempo. Per-
tanto, possiamo seguire il cambiamento della
quantit sull' asse verticale in un determinato
peri odo. Ad esempio, la Figura 2.11 illustra
l'andamento dei tassi di malaria - comprese le
variazioni legate a particolari eventi - che si
sono verificati negli Stati Uniti tra il 1940 ed
il 1989 (9). Si noti la scala logaritmica sull 'asse
verticale che ci consente di illustrare un am-
pio range di osservazioni pur continuando a
mostrare le variazioni tra i valori pi piccoli.
Per confrontare due o pi gruppi in rela-
zione ad una determinata quantit, possibile
tracciare plU di una misurazione sull 'asse y.
Supponiamo di essere preoccupati dall' au-
6 o o

5
B
'"
N
...
4
o
'-'-'
"
""
3
":;
'B
"u
2
'"
o.
'"
U
O
O
00
8 o
o
o
o
o
o
2 3 4 5
Volume espiratorio fo rzato in un secondo (litri)
6
Figura 2. 10 Diagramma a punti: ca-
pacit vitale forzata in funzione del
volume espiratori o for zato in un se-
condo in 19 soggetti asmat ici
ULTERIORI APPLI CAZ I ON I
Fi gura 2.11 Di agramma lineare: ta si
di malaria registrati per anno, Stati
Uniti , 1940- 1989
c
5
:.D
'"
o
o
o
o
o
'"
'"
100
IO
U 0.1
0,01
1940
mento dei costi nell 'assistenza sanitaria. Per
anali zzare questo problema, potremmo voler
confrontare le vari azioni dei costi in due di -
versi sistemi di assi tenza sanitaria negli ul -
timi anni . La Figura 2.12 illustra l' andamento
dell e spe e per l' assistenza sanitaria negli Stati
Uni ti e nel Canada tra il 1970 ed il 1989 (lO).
In questo paragrafo non abbi amo esami -
nato tutti i tipi possibili di grafi ci. Abbi amo
semplicemente incluso una selezione di quelli
pi comuni. da ottolineare che esistono
molti altri modi per illustrare i dati (11 ).
Come regola generale, comunque, non si do-
vrebbero concentrare molte informazioni in
Fi gura 2.12 Di agramma lineare: spe-
se per l'assistenza sa ni taria come per-
cenruale del prodotto interno lordo
di Stati Uniti e Canada, J 970- 1989
o
-o

o
E
.,
c
o
g
-o
2
c..
v
-o
.,
'" a
c
.,
t!
<>
c..
12
11
lO
9
8
7
1970
Ri cadute
dei veterani
dell a Corea Ritorno
dei veterani
del Vi ernam
21
I mmi grazione
1950 1960 1970 1980 1990
Anno
un singolo grafi co. Un'illustrazione rel ativa-
mente semplice spesso la pi efficace.
2.4 ULTERIORI APPLICAZIONI
Supponi amo di voler ridurre il numero di
decessi infantili per infortuni. necessario
prima di tutto capire la natura del problema.
di seguito illustrata una seri e di dati che in-
dicano le cause di morte per infortuni o di 100
bambini di et compresa tra 5 e 9 anni (12). I
dati sono nominali: 1 rappresenta incidente
stradale, 2 annegamento, 3 incendi o in am-
1975 1980 1985 1990
Anno
22
biente domestico, 4 omicidio e 5 altre cause,
quali soffocamento, cadute ed avvelenamen-
to. Con questi dati, cosa possiamo conclu-
dere relativamente ai decessi infantili causati
da infortuni?
1 5 3 2 4 1 3 5
2 1 1 5 3 1 2 1 4 1
4 1 3 1 5 1 2 1 2
5 1 5 5 3 2 1
2 3 1 2 5 5 1
1 2 5 1 1 3 4 1 1
1 1 2 1 1 2 1 2 3
3 3 1 5 2 3 5 1 3 4
1 1 2 4 5 4 1 5 1 5
5 1 1 5 1 1 5 1 5
Sebbene siano disponibili tutti i risultati,
estremamente diffici le giungere ad una con-
clusione. Se vogli amo sintetizzare queste os-
servazioni, per, possiamo costrui re una di-
stribuzione di frequenza. Per i dati nominali
ed ordi nali, una distribuzione di frequenza
una tabella formata da una serie di categorie o
classi con le conte numeriche che corrispon-
dono a ciascuna di esse. Per costruire una di-
stribuzione di frequenza per i dati illustrati in
precedenza, necessario prima di tutto elen-
care le diverse cause di morte e poi contare il
numero di bambini deceduti per ciascuna
causa. Queste osservazioni sono illustrate in
Tabella 2.9 come distribuzione di frequenza.
Utilizzando questa tabella, possibile osser-
vare che 48 dei 100 decessi per infortunio
per incidenti stradali, 14 per annegamento, 12
per incendio in ambiente domestico, 7 per
omicidio e 19 per altre cause.
Tabella 2.9 Decessi per infortunio in 100 bam-
bini di et compresa tra 5 e 9 anni,
Stati Uniti, 1980-1985
Causa
Incidente stradale
Annegamento
Incendi o domestico
Omicidio
Altro
Totale
~ u m r o di decessi
48
14
12
7
19
100
PRESENTAZIONE DEI DATI
Come i dati nominali ed ordinali, anche i
dati discreti e continui possono es ere illu-
strati sotto forma di distribuzione di fre-
quenza. necessario prima di tutto suddivi-
dere i valori dei risultati in una serie di inter-
valli distinti, non sovrapposti. Il nu mero di
osservazioni che rientra in ciascuna coppia di
limiti calcolato ed organizzato in forma ta-
bella re. Supponiamo di voler studiare le con-
seguenze del basso peso,all a nascita tra i neo-
nati negli Stati Uniti. Al fine di anali zzare le
dimensioni del problema, esaminiamo prima
di tutto la distribuzione del peso alla nascita
di tutti i neonati nel 1986 (13). Separiamo
queste osservazioni in intervalli di uguale am-
piezza; le fr equenze corrispondenti sono illu-
strate in Tabella 2.10. Questa tabella fornisce
maggiori informazioni sulla distribuzione del
peso alla nascita rispetto ad un elenco di
3.751.275 misurazioni. Possiamo notare che
la maggior parte delle osservazioni com-
presa tra 2.000 e 4.499 grammi; relativamente
poche misurazioni sono al di fuori di questo
intervallo. Gli intervalli 3.000-3.499 e 3.500-
3.999 grammi contengono il maggior numero
di valori.
Dopo aver analizzato le frequenze assolute,
potremmo essere anche interessati a valutare
la frequenza relativa per ciascun intervallo
Tabella 2.10 Frequenze assolute dei pesi alla na-
scita di 3.751.275 neonati negli Stati
Uniti,1986
Peso alla nascita
Numero di neonati
(grammi)
0-499 4.843
500-999 17.487
1.000-1.499 23.139
1.500-1.999 49.112
2.000-2.499 160.919
2.500-2.999 597.738
3.000-3.499 1.376.008
3.500-3.999 1.106.634
4.000-4.499 344.390
4.500-4.999 62.769
5.000-5.500 8.236
Totale 3.751.275
ULTERIOR I APPLICAZIONI
della tabella. La freq uenza relati va la per-
centual e del numero totale di osservazioni
che rientra in un intervall o. Le frequenze re-
lative del peso all a nascita illustrate in Tabella
2.10 - che calcoliamo dividendo il numero di
osservazioni nell'intervall o per il numer o to-
tale di osservazioni nell a tabell a e moltipli-
cando per 100 - sono illustrate in Tabella
2.11. La tabella indi ca che il 36,7 + 29,5 =
66,2% dei pesi all a nascita sono compresi tra
3.000 e 3.999 grammi e che il 4,3 + 15,9 + 36,7
+ 29,5 + 9,2 = 95,6% tra 2.000 e 4.499
grammi. Solo il 2,5% dei bambini nati nel
1986 pesava meno di 2.000 grammi.
Oltre all e tabelle, possiamo utili zzare anche
i grafi ci per sinteti zzare ed illustrare una serie
di dati. Ad esempio, possiamo illustrare i dati
nominali dell a Tabella 2.9 utili zzando il dia-
gramma a barre come in Figura 2.13. Le cate-
gori e in cui rientrano le osservazioni sono
posi zionate lungo l'asse orizzontale; le barre
verticali rappresentano la frequenza di osser-
vazioni in ciascuna cla se. Il grafico evidenzia
che una elevata proporzione di decessi infan-
tili causati da infortuni il ris ultato di inci-
denti stradali.
Un diagramma a barre sovrapposte pu es-
sere utili zzato per concentrare una maggiore
quantit di informazioni in un' unica figura.
In questo tipo di grafi co, le barre che rappre-
Figura 2.13 Decessi per infortunio
in 100 bambini di et compresa tra 5 e
9 anni, Stati Uniti, 1980-1985
o
2
2
...
..8
.5
...
'"
o.,
'"
'"
"
u
" -o
:;:;
o
...
'"
E
;;J
Z
50
40
30
20
IO
O
23
Tabella 2.11 Frequenze relative dei pesi alla na-
scita di 3.751.275 neonati negli Stati
Uniti, 1986
Peso alla nascita Frequenza relativa
(grammi) (%)
0-499 0,1
500-999 0,5
1.000- 1.499 0,6
1.500- 1. 999 1,3
2.000-2.499 4,3
2.500-2.999 15,9
3.000-3.499 36,7
3.500-3.999 29,5
4.000-4.499 9,2
4.500-4.999 1,7
5.000-5.500 0,2
Totale 100,0
sentano la frequenza dell e osservazioni in due
o pi gruppi sono disposte una sull'altra. Ad
esempio, la Figura 2.14 illustra i tassi di mor-
talit per 1.000 nati (il numer o di decessi per
1.000 nascite) in Francia per quattro categorie
di neonati - i nati morti, i morti nell a prima
settimana di vita, quelli tra 7 e 27 giorni dopo
la nascita e, infine, tra 28 giorni ed un anno
(14). Poich ciascuno di questi tassi diminui-
sce con il tempo, il grafico riesce a dare una
significativa informativa sull a mortalit com-
plessiva.
Incidente Annegamento Incendio Omicidio
stradale
Altro
Causa
24
.:::
'" c::
o
o

....
v
Cl.

-;;;

E
'i3
50
45
40
35
30
25
20
PRESENTAZIONE DEI DATI
28-365 giorni
7-27 giorni
. 0- 6 giorni
N ati morti
I 11111 III1 I I Il

15
'"
'" b
lO
5
O
Anno
Tra i diversi grafi ci che possono essere ap-
plicati ai dati discreti o continui, l' isto-
gramma forse il pi utilizzato. Come il dia-
gramma a barre, l'istogramma una rappre-
sentazione figurata di una distribuzione di
frequenza. L'asse ori zzontale illust ra i reali li-
miti degli intervalli in cui rientrano le osser-
vazioni; l'asse verticale illustra la frequenza o
la frequenza relativa dell e osservazioni in cia-
scun intervallo. Ad esempi o, la Figura 2.15
un istogramma dei dati rel ativi al peso alla na-
scita sintetizzati in Tabella 2.11. Osservando
'"
N
t:
v
:J
o-
v
40
IO
O
-----
Figura 2.14 Mortalit in-
fantile e peri natale 111
Francia, 1958- 1981
il grafico, possIamo notare che i dati sono
. . .
aSlmmetnCl a slmstra.
Il diagramma a scatola un altro tipo di
grafico che descrive i dati discreti o continui
ed illustra la sintesi delle osservazioni utili z-
zando un singolo asse verticale od ori zzon-
tal e. Supponiamo di voler confrontare le
spese per l'assistenza sanitaria nel 1989 dei 24
Paesi membri dell 'Organizati on for Eco-
nomie Cooperation and Development. Tali
spese sono sintetizzate come percentuale del
prodotto interno lordo nell a Figura 2.16, da
---
O 500 1.000 1.500 2.000 2.500 3.000 3.500 4.000 4.500 5.000 5.500
Peso all a nascita (grammi )
Figura 2.15 Frequenze relati ve
dei pesi alla nascita di 3.751.275
neonati negli Stati Uniti , 1986
ULTERIORI APPLI CAZIONI
Il ,8
o

...2
o
c:
....
'"
.5
8
(5
8,8
-o
o
8,3 ...
o..
V
-o
'"
7,4
"""@
2
6,7
c:
'"
Figura 2.16 Spese per l' assistenza sani-

'"
taria come percentuale del prodotto in-
o..
terno lordo in 24 Paes i, 1989
S, l
un minimo di 5,1 % in Grecia ad un massimo
di Il,8% negli Stati Uniti (lO). Le tre linee
orizzontali che costituiscono la scatola cen-
trale indicano che il venticinquesimo, il cin-
quantesimo ed il settantacinquesimo percen-
tile dei dati sono pari, rispettivamente, al
6,7%, 7,4% e 8,3%. L'altezza della scatola
la distanza tra il venticinquesimo ed il settan-
tacinquesimo percentile, noti anche come
quartili dei dati. Le linee che si estendono da
ciascun lato della scatola indicano le osserva-
zioni pi es treme che non superano pi di 1,5
volte l'altezza della scatola esternamente ad
ognuno dei quartili o valori adiacenti. Nella
Figura 2.16 i valori adiacenti sono 5,1 % e
25
o
8,8%. Gli Stati Uniti rappresentano un valore
atipico, con un dato relativo alla spesa sanita-
ria annua difforme dagli altri.
Un diagramma lineare pu essere utilizzato
per illustrare la relazione tra due misurazioni
continue. Ogni punto della linea rappresenta
una coppia di valori; la linea stessa consente
di seguire il cambiamento nella quantit sul-
l'asse y che corrisponde ad un cambiamento
sull'asse x . La Figura 2.17, cos come la Fi-
gura 2.1, illustra i dati relativi al consumo di
sigarette negli Stati Uniti. Si noti che il dia-
gramma lineare mostra maggiori dettagli ri-
spetto al corrispondente diagramma a barre.
Nel corso degli anni, l'uso dei computer in
Guerra
in Corea
Ini zia la commercializzazione
di sigarette con filtro
Teori a dell ' uguaglianza

5.000
4.500
. 4.000
Smobilitazione
post bellica
I
Viene vietata la pubblicit televisiva
I
L' imposta federa le
I sull e entrate indirette
viene raddoppiata
Figura 2.17 Consumo
di sigarette pro capite in
soggetti di et maggiore
o uguale a 18 anni , Stati
Uniti,1900- 1990
u
l: 3.500
o..
3.000

'"
OJ)
.;;;
2.500
:.o 2.000
o
E 1.500

1.000
U
500
O
Depressio.ne
economIca
I
A vvertenze stampate
sui pacchetti di sIgarette
Movimento dei diritti
dei non fumatori
Prima relazione del Responsabil e
dei Servizi di Sanit Pubblica
Prime evidenze sull a relazione tra
fumo in giovane et e casi di cancro
II Guerra mondial e
1900 1910 1920 1930 1940 1950 1960 1970 1980 1990
Anno
26
statIstIca sorprendentemente aumentato.
Pertanto, molti calcoli che richiedevano un
grande dispendio di tempo possono ora es-
sere effettuati in modo pi efficiente uti liz-
zando un pacchetto statistico. Un pacchetto
statistico costituito da una serie di pro-
grammi progettati per analizzare i dati nume-
rici. Sono disponibili molti pacchetti; gene-
ralmente, si differenziano per i comandi che
utilizzano ed il formato dei risultati che pro-
ducono.
Un pacchetto statistico potente e relativa-
mente facile da utilizzare lo Stata. Lo Stata
un programma interattivo che aiuta a ge-
stire, illustrare ed analizzare i dati. Le osser-
vazioni o le misurazioni sono registrate in co-
lonne; ad ogni colonna assegnato il nome di
una variabile. Utilizziamo, poi, queste varia-
bili per eseguire specifiche analisi . Quando
necessario, riprodurremo i risultati ottenuti
con lo Stata per illustrare che cosa in grado
di fare il computer. Poich possibile che al-
cuni lettori preferiscano utilizzare al tri pac-
chetti statistici, includeremo anche i risultati
ottenuti con Minitab e SAS.
I computer sono particolarmente utili nella
costruzione di grafici . Ad esempio, le Figure
2.13-2.17 sono tutte prodotte con lo Stata.
Per creare la Figura 2.17 abbiamo registrato
gli anni tra il 1900 ed il 1990 nella variabile
year ed i valori del consumo di sigarette pro
capite nella variabile cigarett (la e finale
stata omessa perch il nome di una variabile
pu essere al massimo di otto lettere). Lo
Stata ha tracciato i punti che rappresentano
ciascuna coppia di valori; i punti sono stati
collegati e sono stati aggiunti dei simboli con
appropriate opzioni di comando.
2.5 ESERCIZI
1. Che cos' la statistica descrittiva?
2. Quali sono le differenze tra dati ordinali
e dati nominali?
3. Quali vantaggi e quali svantaggi presenta
PRESENTA ZIONE DE! DATi
la trasformazione di misurazioni continue in
misurazioni discrete o ordinali?
4. Nel costruire una tabella, quando pu es-
sere utile utili zzare frequenze rel ati ve anzich
frequenze assolute?
5. Quali grafi ci possono essere utilizzati
per illustrare osservazioni nominali o ordi-
nali? Quali grafici sono adatti per osserva-
zioni di screte o continue?
6. Che cosa sono i percentili di una serie di
dati?
7. Individuare quale delle seguenti osserva-
zioni un esempio di dato di screto o conti-
nuo.
a. Il numero di sui cidi negli Stati Uniti in un
determinato anno.
b. La concentrazione di piombo in un cam-
pione d'acqua.
c. Il tempo di sopravvivenza di un paziente
dopo una diagnosi di cancro.
d. Il numero di precedenti aborti di una ge-
stante.
8. Di seguito riportata la spesa pro capite
per l'assistenza sanitaria nel 1989 di 23 dei 24
Paesi membri della Organization fo r Econo-
mic Cooperation and Development (lO). (Il
dato relativo alla spesa pro capite della Tur-
chia non disponibil e).
Paese Spesa pro capite (doll ari USA)
Australia 1.032
Austria 1.093
Belgio 980
Canada 1.683
Danimarca 912
Finlandia 1.067
Francia 1.274
Germania 1.232
Giappone 1.035
Gran Bretagna 836
Grecia 371
Irlanda 658
Islanda 1.353
Italia 1.050
Lussemburgo 1.193
ESERCI ZI
orvegla
uova Zelanda
Paesi Bassi
Portogallo
Spagna
Stati Uniti
Svezia
Svi zzera
1.234
820
1.135
464
644
2.354
1.361
1.376
27
Disegnare un diagramma a barre per illu-
strare il numero di casi verificatisi in ciascun
anno. Quali informazioni fornisce il dia-
gramma sui casi di AIDS pediatrico in questo
periodo?
11. La tabella di seguito riportata illustra il
numero di esecuzioni capitali negli Stati Uniti
dal 1976, anno in cui la Corte Suprema ha in-
a. Ordinare questi Paesi in relazione all a trodotto la pena di morte (16).
.. .
spesa sal11tana pro capite.
b. Disegnare un istogramma per questi dati.
c. Descrivere la forma dell'istogramma.
9. La tabella di seguito riportata suddivide
10.614.000 visite di specialisti in malattie car-
diovascolari negli Stati Uniti in relazione alla
durata di ciascuna visita (15). La durata di O
minuti indica che il paziente non ha avuto
contatto diretto con lo speciali sta.
Durata Numero di visite
(minuti) (migliaia)
O 390
1-5 227
6-10 1.023
11 -15 3.390
16-30 4.431
31 -60 968
61 185
Total e 10.614
La conclusione a cui si perviene che le vi-
site da specialisti in malattie cardiovascolari
durano per lo pi 16-30 minuti. Siete d' ac-
cordo con questa affermazione? Perch o
perch no?
10. La distribuzione di frequenza di seguito
riportata illustra il numero di casi di AIDS
pediatrico rilevati negli Stati Uniti tra il 1983
ed il 1989 (9).
Anno N umero di casi
1983 122
1984 250
1985 455
1986 848
1987 1.412
1988 2.811
1989 3.098
Anno
INumero di
Anno
Numero di
esecuzioni esecuzioni
1976 O 1986 18
1977 1 1987 25
1978 O 1988 11
1979 2 1989 16
1980 O 1990 23
1981 1 1991 14
1982 2 1992 31
1983 5 1993 38
1984 21 1994 28
1985 18
Disegnare un diagramma a barre per illu-
strare la distribuzione delle esecuzioni per
anno. Come variato il numero di esecuzioni
dal 1976?
12. stato condotto uno studio per anali z-
zare le differenze di sesso e di razza in sog-
getti di et 65 anni che hanno riportato una
frattura dell'anca tra il 1984 ed il 1987 (17). Di
seguito sono riportati i dati che sintetizzano
le dimissioni ospedaliere dei pazienti del pro-
gramma Medicare.
Et
Uomini Uomini Donne Donne
bianchi di colore bianche di colore
65-74 36.473 2.295 103.105 3.425
75-84 62.513 2.902 233.047 6.819
85-94 40.975 1.659 189.459 5.968
95 4.088 208 18.247 934
a. Disegnare un diagramma a barre sovrap-
poste per illustrare il numero di dimissioni
ospedaliere per frattura dell'anca suddiviso
per fasce di et. (Ogni barra deve compren-
dere quattro sezioni separate che indicano
28
uomini di razza bianca, uomini di colore,
donne di razza bianca, donne di colore) .
b. Come varia in relazione all'et il numero
totale di fratture dell'anca?
c. Quali conclusioni si possono trarre sulla
relazione sessolfrattura dell' anca?
13. In uno studio sui fattori di rischio per
malatti e cardiovascolari, sono stati registrati i
livelli di cotinina sierica - un prodotto del
metabolismo della nicotina - in fumatori e in
non fumatori (18). Di seguito sono riportate
le relative distribuzioni di frequenza.
Livello di cotinina
Fumatori
Non
(ng/ml) fumatori
0-13 78 3.300
14-49 133 72
50-99 142 23
100-149 206 15
150- 199 197 7
200-249 220 8
250-299 151 9
2: 300 412 11
Totale 1.539 3.445
a. corretto confrontare le distribuzioni dei
livelli di cotinina nei fumatori e nei non fu-
matori in base alle frequenze assolute in
ciascun intervallo? Perch o perch no ?
b. Calcolare le frequenze relative dei valori di
cot111111a Slenca 111 Ciascun gruppo.
c. Disegnare una coppia di poligoni di fre-
quenza.
d. Descrivere la forma di ciascun poli gono.
Che cosa si pu dire sulla distribuzione dei
livelli di cotinina in ciascun gruppo?
e. Lo status di fumatore o non fumatore
stato dichiarato direttamente dai soggetti
interessati. possibile che alcuni soggetti
siano stati inclusi in una categoria sba-
gliata? Perch o perch no?
14. Le frequenze relative delle concentra-
zioni ematiche di piombo in due gruppi di la-
voratori in Canada - uno esaminato nel 1979
e l'altro nel 1987 - sono di seguito illustrate
(19).
PRESENTAZIONE DEI DATI
Piombo ematico 1979 1987
(Ilg/ dl) (%) (%)
< 20 11,5 37,8
20-29 12,1 14,7
30-39 13,9 13, 1
40-49 15,4 15,3
50- 59 16,5 10,5
60-69 12,8 6,8
70-79 8,4 1,4
2: 80 . 9,4 0,4
a. In quale dei due anni i lavoratori tendono
ad avere livelli pi bassi di piombo ema-
ti co ?
b. Calcolare le frequenze relative cumulative
per ciascun gruppo di lavoratori ed utili z-
zare questi dati per disegnare una coppia di
poligoni di frequenza cumulativa.
c. Per quale gruppo di lavoratori la di stribu-
zione del piombo ematico stocastica-
mente pi elevata?
15. La tabell a di seguito riportata illustra il
numero di nati vivi per mese negli Stati Uniti
nel peri odo Gennaio 1991 - Dicembre 1992
(20) .
Mese Numero Mese Numero
1991 (migli aia) 1992 (mi gliaia)
Gennaio 325 Gennaio 334
Febbraio 312 Febbraio 304
Marzo 346 Marzo 360
Aprile 340 Apri le 330
Maggio 355 Maggio 361
Gi ugno 342 Giugno 333
Lugli o 358 Luglio 352
Agosto 346 Agosto 350
Settembre 365 Settembre 357
Ottobre 355 Ottobre 345
N ovembre 324 N ovembre 332
Dicembre 342 Dicembre 325
a. Disegnare un diagramma lineare per illu-
strare il numero di nati vivi in relazione al
tempo.
b. Pensate che il numero di nati vivi segua un
andamento stagionale negli Stati Uniti?
16. Una distribuzione di frequenza dei li-
velli di zinco sierico di 462 maschi di et
ESERCIZI
compresa tra 15 e 17 anni di seguito ripor-
tata (21). Le osservazioni sono raccolte nel
CD allegato al libro in un file chiamato ser-
zinc (Appendice B, Tabella B.1). Le 462 mi-
surazioni di zinco sierico, in microgrammi
per decilitro, sono registrate nella variabile
une.
Popolazione maschile degli Stati Uniti, et 15-17
Livello di zinco sierico Numero
(Ilg/dl) di soggett:i
50-59 6
60-69 35
70-79 110
80-89 116
90-99 91
100-109 63
110-119 30
120-129 5
130-139 2
140-149 2
150-159 2
a. Calcolare la frequenza relativa associata a
ciascun intervallo. Che cosa si pu conclu-
dere sulla distribuzione dei livelli di zinco
sierico?
b. Disegnare un istogramma dei dati. Le os-
servazioni devono essere suddivise in Il
intervalli di uguale ampiezza, come nella
precedente distribuzione di frequenza, da
50-59 a 150-159j.1g/ dl.
c. Descrivere la forma dell 'istogramma.
17. Le percentuali di neonati con basso
peso alla nascita in diversi Paesi sono raccolte
nel CD allegato al libro in un file chiamato
unicef (22) B, Tabella B.2). Le
osservazioni sono registrate nella variabile
lowbwt.
a. Disegnare un diagramma a scatola per la
percentuale di neonati con basso peso alla
nasclta.
b. I dati sono asimmetrici? Se si, sono asim-
metrici a destra o a sinistra?
c. I dati contengono osservazioni atipiche?
18. Il numero di soggetti con almeno 65
anni residenti in case di riposo per 1.000 abi-
29
tanti di et 2: 65 anni in ciascuno Stato degli
Stati Uniti raccolto nel CD allegato allibro
in un file chiamato nurshome (23) (Appen-
dice B, Tabella B.3). I nomi degli Stati sono
registrati nella variabile state ed il numero di
soggetti in case di riposo per 1.000 abitanti
nella variabile resident.
a. Quale Stato presenta il numero pi basso
di soggetti di et 2: 65 anni in case di riposo
per 1.000 abitanti? Quale Stato presenta il
numero pi elevato? Quali fattori possono
influenzare l'estrema variabilit riscontrata
tra i vari Stati?
b. Disegnare un diagramma a scatola del nu-
mero di soggetti in case di riposo per 1.000
abitanti .
c. Le osservazioni sono simmetriche o asim-
metriche? Qualche Stato pu essere consi-
derato atipico?
d. Illustrare con un istogramma il numero di
soggetti in case di riposo per 1.000 abitanti.
L'istogramma contiene un numero mag-
giore o minore di informazioni rispetto al
diagramma a scatola?
19. Le concentrazioni di catrame e nicotina
dichiarate da 35 marche di sigarette canadesi
sono raccolte nel CD allegato al libro in un
file chiamato cigarett (24) (Appendice B, Ta-
bella B.4). La concentrazione in milligrammi
di catrame per sigaretta registrata nella va-
riabi le tar e la concentrazione di nicotina
nella variabile nicotine.
a. Disegnare un diagramma di dispersione a
una dimensione delle concentrazioni di ca-
trame. Assicuratevi di individuare i casi in
cui due o pi misurazioni hanno lo stesso
valore e risultano pertanto sovrapposte.
b. Descrivere la distribuzione dei valori.
c. Disegnare un diagramma di dispersione a
punti della concentrazione di catrame ver-
sus la concentrazione di nicotina. Etichet-
tare le assi in modo appropriato.
d. Esiste una relazione tra queste due quan-
tit?
20. L'incidenza di nascite da donne nubili
negli Stati Uniti dal 1940 al 1992 registrata
30
nel CD all egato al libro in un fi le chiamato
brate (25) (Appendice B, Tabella B.5). Gli
anni sono registrati nella variabile year ed il
numero di nati vivi per 1.000 donne nubili di
et compresa tra 15 e 44 anni nella variabile
birthrt.
a. Disegnare un diagramma lineare per illu-
so-are l'incidenza di nascite da donne nu-
bili nel tempo.
b. Molti ritengono che l'elevato numero di
bambini nati da madri nubili sia un pro-
bl ema recente nella nostra societ. Dopo
avere anali zzato il diagramma, condividete
tale opini one?
Bibliografia
1. CENTERS l'OR DISEASE CONTRO L AND PREVEN-
TION: HIV/AIDS Surveillance Report, Volume
5, umber 4, 1994.
2. OKEN M.M., CREECH R.H., TORMEY D.C.,
HORTON ]., DAVIs T.E., McFADDEN E.T., CAR-
BONE P.P.: Toxicity and response criteri a of the
-astern Cooperative Oncology Group. Ame-
rican Journal of Clinical Oncology, 5:649-655,
1982.
3. NATIONAL CENTER l'OR HEALTH STATISTICS:
Advance report oE final mortality statistics,
1992. Monthly Vital Statistics Report, Volume
43, March 22, 1995.
4. GARFINKEL L., SILVERBERG E.: Lung cancer and
smoking trends in the United States over the
past 25 years. Ca-A Cancer Journal for Clini-
cians, 41: 137 -145, 1991.
5. NATI ONAL CENTER FOR HEALTH STATISTICS,
FULWOOD R., .KALSBEEK W., RI FKI D B., Rus-
SELL-BRIEFEL R., MUESING R., LARoSA ]., LIP-
PEL K.: Toral serum cholesteroll evels of adlllts
20-74 years of age: United States, 1976-1980.
Vital and Health Statistics, Seri es 11 , N umber
236, May 1986.
6. SPEAR M.E.: Charting Statistics. McGraw-Hi ll ,
ew York, 1952.
7. TUKEY J.W.: Exploratory data analysis. Addi-
son-Wesley, Reading, MA, 1977.
8. BETHEL R.A., SHEPPARD D., GEFFROY B., TAM
E., NADEL J.A., BOUSHEY H.A.: Effect of 0.25
PRESENTAZIONE DEI DATI
sll bjects. American Review of Respiratory Di-
sease, 31:659-661, 1985.
9. CENTERS l'OR DISEASE Co TROL: Summary of
notifiable diseases, United States, 1989. Morbi-
dity and Mortality Weekly Report, Volume 38,
October 5, 1990.
l O. SCI-II EBER G.J., POULLIER J.P.: International
health spending: iss ues and trends. Health Af-
fairs, 10:106- 116, 1991.
Il . TUFTE E.R.: The visual display of quantitative
information. Graphics Press, Chesbire, CO,
1983.
12. WALLER A.E., BAKER S.P., Sz KA A.:
Chi ldhood injury deaths: national analysis
and geographic variati ons. American Journal
ofPublicHealth, 79:310-315, 1989.
13. NATIONAL CENTER l'OR H EALTII STATI STICS:
Ad vance reports, 1986. Supplements to the
M onthly Vital Statistics Report, Seri es 24,
March 1990.
14. RUMEAU-RouQUEn"E c.: The French perinatal
program: 'Born in France'. Child Health and
Development, Volume 3, Prevention of Peri-
natal Mortality and Morbidity. Karger, New
York,1984.
15. NATI ONAL CENTER l'OR HEALTH STATISTI S,
N ELSON c.: Office visirs to cardiovascular di-
sease specialists, 1985. Vital and Health Stati-
stics, Advance Data Report N umber 171, June
23, 1989.
16. KUNTZ T.: Killings, legai and otherwise,
around the U.S .. The New York Times, De-
cember 4:3, 1994.
17. JACOBSEN S.]., GOLDBERG J., MILES T.P.,
BRODY J.A. , STIERS W., RIMM A.A.: Race and
sex differences in mortality fol lowing fracture
of the bip. AmericanJournal of Public Health,
82:1147-1150,1992.
18. WAGENKNECHT L.E., BURKE G.L., PERKINS
L. L. , HALEY N.J., FRIEDMAN G.D.: Misclassi-
fication of smoking status in the CARDIA
Study: a compari so n of self-report with serum
cotinine levels. American Journal of Public
Health, 82:33-36, 1992.
19. YASSI A., C!-lEANG M., TENE BEIN M., BAW-
DEN G., SPI EGEL ]., REDEKOP T.: An analysis of
occupati onal bl ood lead trends in Manitoba,
1979 rhrough 1987. AmericanJournal of Pu-
blic Health, 81 :736-740, 1991.
ppm sulphur dioxide on airway resi stance in 20. ATIONAL CENTER l'OR HEALTII TATISTICS:
freely brearhing, heavil y exercising, asthmatic Births, marriages, di vorces and deaths for
BIBLiOGRAFIA
1992. Monthly Vital Statistics Report, Volume
41, May 19, 1993.
21. N ATIONAL CENTER FOR H EALTH STATISTICS,
FULWOOD R. , JOHNSON CL., BRYNER ].D.,
GUNTER E.W., MCGRATH CR.: Hematologi -
cal and nutritional biochemistry reference d ata
for persons 6 months-74 years of age: United
States, 1976- 1980. Vital and H ealth Statistics,
Seri es 11, Number 232, D ecember 1982.
22. UNITED N ATIONS CHILDREN'S FUND: The state
oJ the world's children 1994. O xford Univer-
sity Press, New York.
31
23. N ATIONAL C ENTER FOR H EALTH STATISTICS:
Health, United States, 1994 Chartbook. May
1995.
24. KAlSERMAN M.J., RI CKERT W.S.: Carcinogens
in tabacco smoke: benzo[a]pyrene from Ca-
nadian ci gar ettes and ci garette tabacco. Ame-
ricanfournal oJ Public Health, 82:1023-1026,
1992.
25. N ATIONAL CENTER FOR H EALTH STATISTICS,
VENTURA S.J.: Births ta unmarried mothers:
United Srates, 1980- 92. Vital and Health Sta-
tistics, Seri es 21, Number 53, June 1995.
Misure di sintesi numerica
Nel capitolo precedente abbiamo studi ato
le tabelle ed i grafici come metodi per orga-
nizzare, sintetizzare visivamente ed illustrare
i dati. Sebbene tali tecniche siano estrema-
mente utili, non consentono tuttavia di for-
mulare affermazioni sintetiche, quantitative e
che caratterizzino una distribuzione nel suo
insieme. Per fare ci disponiamo delle misure
di sintesi numerica. Gli strumenti dell a stati-
stica descrittiva sono in grado di fornire nu-
merose informazioni su determinate serie di
osserVaZlOl11.
3.1 MISURE DI TENDENZA CENTRALE
La caratteristica pi comunemente studiata
di una serie di dati il suo centro, o il punto
in cui le osservazioni tendono a raccogliersi.
Si considerino i dati di uno studio che esa-
mina la risposta all' inalazione dell' ozono e
dell'anidride solforosa in adolescenti asma-
tici. In Tabella 3.1 sono riportate le misura-
zioni iniziali del volume espiratorio forzato
in un secondo per i 13 soggetti in studio (1).
Si ricordi che questo volume il volume di
aria che pu essere espulso dai polmoni dopo
un secondo di sforzo costante. Prima di esa-
minare gli effetti degli agenti inquinanti sulla
funzionalit polmonare, potremmo voler de-
terminare l'inizial e volume espiratorio for zato
in un secondo per i soggetti in questo gruppo.
3.1.1 Media
La misura di tendenza centrale pi comu-
nemente utilizzata la media ari tmetica o
3
media. La media calcolata sommando tutte
le osservazioni in una serie di dati e divi-
dendo per il numero totale dell e mi surazioni.
Ad esempio, in Tabella 3.1, abbiamo 13 os-
servazioni. Se x rappresenta il volume espira-
torio forzato in un secondo, allora Xl = 2,30
indica la prima della serie di osservazioni;
X2 = 2,15, la seconda; e cos via fino a X13 =
3,38. In generale, Xi si riferisce ad una singola
misurazione, dove i pu assumere qualsiasi
valore da 1 a n, il numero totale delle osserva-
zioni. La media delle osservazioni in una serie
di dati - rappresentata da x (leggi x 'soprase-
gnato') - :
1 n
x= li )' Xi
-f;1
Tabella 3.1 Volumi espiratori forzati in un se-
condo in 13 adolescenti asmatici
Soggetto
Volume espiratorio
forzato in un secondo (litri)
2,30
2 2,15
3 3,50
4 2,60
5 2,75
6 2,82
7 4,05
8 2,25
9 2,68
lO 3,00
11 4,02
12 2,85
13 3,38
34
Si noti che abbiamo utilizzato delle abbre-
viazioni matematiche. La lettera greca sigma
maiuscola, L, il simbolo della sommatoria.
L'espressione L;=l Xi indica che dobbi amo ad-
dizionare i valori di tutte le osservazioni in
una serie di dati, da Xl a Xn- Quando L appare
nel testo, i limiti della sommatoria sono posti
accanto ad essa; in caso contrario, i limiti
sono al di sopra ed al di sotto di essa. En-
trambe le rappresentazioni indicano esatta-
mente la stessa cosa. Nei casi in cui necessa-
rio sommare tutte le osservazioni in una serie
di dati, possibile trascurare i limiti. Per i dati
del volume espiratorio forzato in un secondo:
1 13
x= 13
= + 2,15 + 3,50 + 2,60 + 2,75
+ 2,82 + 4,05 + 2,25 + 2,68 + 3,00
+ 4,02 + 2,85 + 3,38)
38,35
13
= 2,95 litri.
La media pu essere utilizzata come misura
di sintesi per misurazioni discrete e continue.
In genere, comunque, essa non adatta per
dati nomi nali o ordinali. Si ricordi che per
questi tipi di dati i numeri sono semplici eti-
chette, cos, se scegliamo di indicare il gruppo
sanguigno 0, A, B e AB con i numeri 1,2,3 e
4, un gruppo sanguigno medio di 1,8 non ha
alcun significato. Un'eccezione a questa re-
gola si applica con i dati dicotomici ed i due
possibili risultati sono rappresentati da e L
In questo caso, la media delle osservazioni
uguale alla proporzione di 1 nella serie di
dati. Ad esempio, supponiamo di voler cono-
scere la proporzione di adolescenti asmatici
maschi dello studio precedente. In Tabella 3.2
sono riportati i dati dicotomici: il valore 1
rappresenta un maschio, lo una femmina. Se
calcoliamo la media di queste osserVaZlOl11,
troviamo che:
1 13
x= 11 ) Xi
t:T
MISURE DI SINTESI NUMERICA
= + 1 + 1 + + + 1 + 1 + 1 +
+ 1 + 1 + 1 + O)
8
13
= 0,615.
Pertanto, il 61,5% dei soggetti nell o studi o
sono maschi.
Tabella 3.2 Indicatori dei sesso dei 13 adolescenti
asmatici
Soggetto
2
3
4
5
6
7
8
9
lO
11
12
13
Sesso
O
l
O
O
O
l
O
Il calcolo della media prende in considera-
zione la grandezza di ogni singola osserva-
zione in una seri e di dati. Che cosa accade
quando un'osservazione ha un valore molto
diverso dagli altri? Supponiamo, ad esempio,
di aver registrato i dati della Tabella 3.1 su un
dischetto e che ques to sia stato accidental-
mente sottoposto a raggi X all 'aeroporto; per-
tanto, la misurazione del volume espiratorio
forzato in un secondo del soggetto Il ora
registrata come 40,2 invece che 4,02. La me-
dia del volume espiratorio forzato in un se-
condo dei 13 soggetti sar allora calcolata
come:
x = + 2,15 + 3,50 + 2,60 + 2,75
+ 2,82 + 4,05 + 2,25 + 2,68 + 3,00
+ 40,2 + 2,85 + 3,38)
74,53
13
= 5,73 litri,
MISURE DI TENDENZA CENTRALE
che quasi il doppio del valore precedente.
Chiaramente, la media estremamente sensi-
bile a valori atipici. In questo particolare
esempio, avremmo giustamente dubitato di
una misurazione del volume espi ratorio for-
zato in un secondo di 40,2 litri e avremmo
corretto l'errore o separato questa osserva-
zione dalle altre. Spesso, per, l'errore po-
trebbe non essere cos evidente, oppure l'os-
servazione atipica potrebbe addirittura non
essere un errore. Poich il nostro obiettivo
quello di caratterizzare un intero gruppo di
soggetti, potremmo preferire una misura di
sintesi che sia meno sensibile ad ogni singola
osservazlOne.
3.1.2 Mediana
Una misura di tendenza centrale che
meno sensibile al valore di ciascuna misura-
zione la mediana, che pu essere utilizzata
come misura di sintesi per dati ordinali, di-
screti e continui. La mediana definita come
il cinquantesimo percentile di una serie di mi-
surazioni; se una serie di osservazioni di-
sposta in ordine crescente, la met dei valori
sar maggiore o uguale alla mediana, mentre
l'altra met sar minore o uguale ad essa. Per-
tanto, se una serie di dati contiene un totale di
n osservazioni dove n dispari, la mediana
il valore centrale o la misurazione corrispon-
dente a [(n + 1)/2]; se n pari, la mediana la
media dei due valori centrali, l'osservazione
corrispondente a (n/2) ed a [(n/2) + 1]. Se
dobbiamo ordinare le 13 misurazioni del vo-
lume espiratorio forzato in un secondo elen-
cate in Tabella 3.1, risulter la seguente se-
quenza:
2,15, 2,25, 2,30, 2,60, 2,68, 2,75, 2,82, 2,85,
3,00, 3,38, 3,50, 4,02, 4,05.
Poich il numero di osservazioni dispari,
la mediana sar la (13 + 1)/2 = settima osser-
vazione o 2,82. Sette misurazioni sono minori
o uguali a 2,82 litri e sette sono maggiori o
uguali a 2,82.
I! calcolo della mediana considera l'ordine e
35
la relativa grandezza delle osservazioni in una
serie di dati. Nella situazione in cui il volume
espiratorio forzato in un secondo del sog-
getto 11 stato registrato come 40,2 invece
che 4,02, l'ordine delle mi surazioni cambier
solo li evemente:
2,15, 2,25, 2,30, 2,60, 2,68, 2,75, 2,82, 2,85,
3,00, 3,38, 3,50, 4,05, 40,2.
Pertanto, la mediana del volume espiratorio
forzato in un secondo rimarr 2,82 litri. La
mediana definita robusta, cio molto meno
sensibile a valori atipici rispetto alla media.
3.1.3 Moda
Una terza misura di tendenza centrale la
moda, che pu essere utilizzata come misura
di sintesi per tutti i tipi di dati. La moda di
una serie di valori l'osservazione che si veri-
fica con maggiore frequenza. I dati del vo-
lume espiratorio forzato in un secondo in Ta-
bella 3.1 non hanno un' unica moda, poich
ciascuno dei valori appare una sola volta. La
moda dei dati dicotomici in Tabella 3.2 1;
questo valore si verifica 8 volte, mentre lo
solo 5 volte.
La migliore misura di tendenza centrale per
una serie di dati spesso dipende da come sono
distribuiti i valori. Se i dati sono simmetrici e
unimodali - cio quando disegnando un isto-
gramma o un poligono di frequenza esiste un
solo picco, come nella distribuzione ideale il-
lustrata in Figura 3.1 (a) - allora la media, la
mediana e la moda sono approssimativa-
mente uguali. Se la distribuzione di valori
simmetrica, ma bimodale, come in Figura 3.1
(b), la media e la mediana sono di nuovo ap-
prossimativamente uguali. Si noti, per, che
questo valore potrebbe trovarsi tra i due pic-
chi ed essere quindi una misurazione che si
verifica difficilmente. Una distribuzione bi-
modale spesso indica che la popolazione da
cui sono. selezionati i valori consiste di due
distinti gruppi che differiscono per la caratte-
ristica misurata; in questo caso, preferibile
riportare due mode piuttosto che la media o
la mediana o considerare separatamente i due
36
(a)
(b)
(c) (d)
gruppi. I dati in Figura 3.1 (c) sono asimme-
tri ci a destra, mentre quelli in Figura 3.1 (d)
sono asimmetrici a sinis tra. Quando i dati
non sono simmetri ci, la medi ana spesso la
mi gliore mi sura di tendenza centrale. Poich
la media sensibile alle osservazioni estreme,
essa spostata nell a di rezione dei valori delle
osservazioni atipiche e, pertanto, pu risul -
tare eccessivamente aumentata o ridotta. Si
noti che quando i dati sono asimmetrici a de-
stra, la media alla destra dell a medi ana;
quando i dat i sono asimmetri ci a si ni stra, la
media alla sinistra della mediana.
Indipendentemente dalla misura di ten-
denza cent rale utilizzata in una particolare si-
tuazione, pu essere fuorviante ass umere che
questo valore sia rappresentativo di tutte le
osservazioni. Un esempi o che illustra ci
stato incluso nella puntata del 17 N ovembre
1991 del popolare programma ' 60 Minutes'.
Il programma comprendeva un servizio su
di eta e mortalit in Francia e negli Stati Uni ti.
Sebbene la di eta francese sia estremamente
ricca di grass i e di coles terolo, la Francia ha
un tasso molto pi basso di malatti e cardi o-
vascolari degli Stati Uniti. Questa differenza
paradossale stata attribuita all'abitudine dei
francesi di bere vino - in particolar e vino
r osso - con i pasti. Alcuni studi hanno sugge-
rito che un consumo moderato di alcoli ci ri -
duca il ri schi o di malattie cardiovascolari.
Mentre il consumo di vino pro capite in
Francia uno dei pi elevati nel mondo,
MISURE DI SI NTESI NUMERI CA
Fi gura 3.1 Possibil i distri buzioni dei valori dei
dati
quello negli Stati Uniti tra i pi bassi; il pro-
gramma sosteneva che i francesi bevono una
quantit moderata di vino ogni giorno, forse
due o tre bicchi eri. La realt, per, pu essere
molto diversa. Secondo uno studi o condotto
da una casa vini cola nel 1990, pi dell a met
dei francesi adul ti non beve vino (2). Tra co-
loro che lo bevono, solo il 28% dei maschi e
1' 11 % delle femmine lo consumano quoti-
di anamente. Ovviamente la distribuzione
molto pi vari abil e di quanto suggerisca il
'valore tipico' . Si ri cordi che, quando sinte-
ti zziamo una seri e di dati, alcune infor ma-
zioni si perdono. Cos, sebbene sia util e sa-
pere dove il centro di una serie di dati, que-
sta info rmazione non di soli to sufficiente a
caratterizzare una distribuzione.
Come ulteriore esempi o, le due diverse di-
stribuzioni illustrate in Figura 3.2 hanno le
Figura 3.2 Due distribuzioni con medi e, mediane e
mode uguali
MISURE DI DISPERSrONE
stesse medie, mediane e mode. Per sapere
quanto sia realmente valida la nostra misura
di tendenza centrale, dobbiamo avere un'idea
della variabilit tra i valori dei dati. Tutte le
osservazioni tendono ad essere simili e perci
a situarsi vicino al centro, o sono distribuite
in un ampio intervall o di valori?
3.2 MISURE DI DISPERSIONE
3.2.1 Campo di variazione (Range)
Un numero che pu essere utili zzato per
descrivere la variabilit in una serie di dati il
campo di variazione. Il campo di variazione o
range di un gruppo di misurazioni definito
come la differenza tra l'osservazione pi
grande e quell a pi piccola. Sebbene il range
sia facil e da calcolare, la sua utilit limitata;
esso considera solo i valori es tremi di una se-
rie di dati e non la maggioranza delle osserva-
zioni. Pertanto, come la medi a, molto sensi-
bile a valori eccezionalmente grandi o ecce-
zionalmente piccoli. Il range per i dati del vo-
lume espiratorio forzato in un secondo in
Tabell a 3.1 4,05 - 2,15 = 1,90 litri. Se il vo-
lume espiratorio forzato in un secondo del
soggetto Il fosse stato registrato come 40,2
invece che 4, 02, il range sarebbe pari a
40,2-2,15 = 38,05 litri, un valore venti volte
pi grande. I range dei valori di concentra-
zione annuale media di anidride solforosa
nell'aria in numerose citt sono riportati in
Figura 3.3 (3).
3.2.2 Campo di varia?ione interquartile
(Range interquartile)
Una seconda misura di variabilit - meno
influenzata dai valori estremi - il campo di
variazione interquartile. Il campo di varia-
zione interquartiLe o range interquartile cal-
colato sottraendo il venticinquesimo percen-
tile dei dati dal settantacinquesimo percentil e
e comprende, pertanto, il 50% delle osserva-
zioni centrali. (Si ricordi che il venticinque-
simo ed il settantacinquesimo percentile di
37
una serie di dati sono chiamati quartili). Per i
dati del volume espiratorio forzato in un se-
condo in Tabella 3.1, il settantacinquesimo
percentile 3,38. Si noti che tre osservazioni
sono maggiori di questo valore e nove sono
minori . Allo stesso modo, il venticinquesimo
percentile 2,60. Pertanto, il range interquar-
tile 3,38-2,60 = 0,78 litri.
Se non si dispone di un computer, possi-
bile applicare delle regole per calcolare a
mano il k-esimo percentile di una serie di
dati, cos come per la mediana; la regola ap-
plicata varia se il numero delle osservazioni n
pari o dispari . Iniziamo disponendo le mi-
surazioni in ordine crescente. Se nk/ 100 un
numero intero, il k-esi mo percentile la me-
dia di (nk / 100) e (nk / 100 + 1). Se nk/ 100 non
un numero intero, il k-esimo percentile
il valore U + 1), dove j il maggior numero
intero minore di nk/ 100. Per trovare il ven-
ticinquesimo percentile dei 13 valori relativi
al volume espiratorio forzato in un secon-
do, ad esempio, si nota prima di tutto che
13(25)/ 100 = 3,25 non un numero intero;
pertanto, il venticinquesimo percentile la 3
+ 1 = 4 a misurazione (poich 3 il pi grande
numero intero minore di 3,25) o 2,60 litri .
Allo stesso modo, 13(75)/ 100 = 9,75 non un
numero intero, e il settantacinquesimo per-
centile la 9 + 1 = 10
a
misurazione o 3,38 li -
tri. I range interquartili del numero di episodi
di di versi comportamenti sessuali di maschi
omosessuali prima e dopo l'acquisizione di
informazioni sull'AIDS - cos come le medie,
le mediane e i range - sono illustrati in Figura
3.4 (4). Si noti che in tutti i casi le medie sono
maggiori delle mediane, ad indicare che i dati
sono asimmetri ci e che esiste un certo nu-
mero di valori insolitamente grandi che de-
terminano un aumento delle medie. La diffe-
renza tra le medie e le mediane meno evi-
dente dopo l'acquisizione di informazioni
sull' AIDS; le informazioni relative al virus,
infatti, sembrano aver avuto un effetto limi-
tante sul comportamento sessuale, special-
.. .
mente nel casI estremI.
38 MISURE DI SINTESI NUMERICA
Range dei singoli valori annuali e media composta per un periodo di <"- anni per citt
Concemrazione (Jlg/m
3
) lO 100
I i i I I l
l Milano Range delle medie annuali
2 .Shenyang delle singole citt
3 Teheran
4 SeuI I I I
5 Rio de Janeiro '-----"t'----'
(j San Paolo
7 Xian Media globale
il Parigi 1980 - 1984
9 Pechino
lO Madri d
Il Mani la
12 Guangzhou
13 Glasgow
14 Francoforte
15 Zagabria
16 Samiago
17 Bruxelles
18 Calcutta
19 Londra
20 New York
21 Shanghai
22 Hong Kong
23 Dublino
24 Se. Louis
25 Medellin
26 Momreal
27 Nuova Deli
28 Varsavia
29 Atene
30 Wroclaw
31 Tokyo
32 Caracas
33 Osaka
34 Hamilton
35 Amsterdam
36 Copenhagen
37 Bombay
I Ili j I
I I
I I
Il 13
I I 14
I I 15
I I 16
I 17
I I 18
I I 19
I I . 11 0
I I 111
I I 11 2
I 113
I 114
I 115
I 11 6
I I 11 7
I I 11 8
I I 119
I I 120
I I 121
I I 122
I I 123
I 124
I 125
I 126
I 127
'------,-,-'- H-d-r
i
=:2
9
8---'
I I 130
l l 131
132
I 133
I 134

1f-__ ----j __
I 138
38 Christchurch
39 Sydney
40 Lisbona
1'--___
I I 140
41 Helsinki
42 Monaco
43 Kuala Lumpur
44 Houston
45 Chicago
46 Bangkok
47 Toromo
48 Vancouver
49 Bucarest
50 Tel Aviv
51 Cali
52 Auckland
'5 3 Melbourne
54 Craiova
I
I
L
I
I I 141
1-(1<42


45
46
J 147
I 148
I 149
1I-____ .---rtI=-___ --I152
1U53
1 ______ 1 _____ -'154
Linee guida OMS 40-60 Ilg/ml
Figura 3.3 Sintesi delle medi e annuali di anidride solforosa, 1980-1984
Il
12
3.2.3 Varianza e Deviazione standard
Un'altra misura di dispersione comune-
mente utilizzata per una serie di dati la
varianza. La varianza misura l'entit della
variabilit o dispersione dalla media delle mi-
surazioni. Per calcolarla si pu sempli-
cemente tentare di misurare la distanza me-
dia di ognuna dell e singole osservazioni da
x, o:
1 n
- ). (Xi- x) .

MISURE DI DiSPERSiONE
39
D Prima
4.001 D Dopo
2.672 1440 3.000 1 121 456 4
4 000
1
4.000 4000 4 000 4 000 579
1 Tr 11 l1T-f T1fT1fT+ IlfTT Il
180
160
o
140
o
o
'<i 120

' 0..
100
"
-o
2 80
o
+
"
E
::>
60
Z
o
+
+
40 +
o O
20
O
Bacio Rapporto
oro-genitale
(passivo)
Rapporto
oro-genitale
(atti vo)
Ingestionc
di liquido
seminale
(orale)
Rappono Rapporto Ingestione
di liquido
seminale
(rettale)
Rapporto
oro-rettale
(passivo)
Rappono
oro-rettale
(attivo)
Uso Uso
retto-genitale retto-genitale di profilattici di profi lattici
(attivo) (passivo) (personale) (partner)
Figura 3.4 Frequenza annuale medi ana (+) e media (0), range inrerquarril e (riquad ri ) e range di specifici comporta-
menti sessuali nell 'anno precedente e successivo all'acquisizione di informazioni sull ' AIDS
Si pu dimostrare matemati camente, per,
che '[,7=1 (Xi-X) sempre uguale a zero_ Per
definizione, la somma dell e deviazioni dall a
media di tutte le osservazio ni minori di X
uguale all a somma dell e deviazioni di tutte le
osservazioni maggiori di x; pertanto, queste
due somme si eliminano a vicenda. Per supe-
rare questo problema, si pu calcolare la me-
dia dei valori assoluti delle deviazioni dalla
media, che sono sempre positive_ Anche se
tale approccio non pre nta alcuna difficolt
in linea teorica, la misura di sintesi che ne de-
riva manca di alcune importanti propriet
statistiche ed di raro riscontro in letteratura.
Una procedura pi comune quella di ele-
vare al quadrato le deviazioni dalla media - si
ricordi che L1na quantit elevata al quadrato
sempre positiva - e poi trovare la medi a di
queste distanze elevate al q uadrato_ Questa
misura di sintesi la varianza dell e osserva-
ZiOnI.
Pi espli citamente, la varianza calcolata
sottraendo la media di una serie di dati da cia-
scuna osservazione, elevando al quadrato
ques te deviazioni, sommandole, e dividendo
per il numero totale di osservazioni nella se-
rie di dati meno 1. Rappresentando la va-
rianza con 52:
1 "
s2 =--- ') (x, - x)2.
(n- l ) bt
Il motivo per cui si divide per n-l piutto-
sto che per n quando calcoli amo la varianza
sar discusso ulteriormente nel Capi tolo 9;
possiamo, quindi, pensare alla vari anza come
ad una media dell e deviazioni elevate al qua-
drato. Per le 13 misurazioni del volume espi-
ratorio forzato in un secondo presentate in
Tabella 3.1, la media 2,95 litri e le deviazioni
dall a media elevate al quadrato sono di se-
guito riportate.
40
Soggetto X ' , X i - x
(Xi -x?
1 2,30 -0,65 0,4225
2 2,15 -0,80 0,6400
3 3,50 0,55 0,3025
4 2,60 - 0,35 0,1 225
5 2,75 -0,20 0,0400
6 2,82 - 0,13 0,01 69
7 4,05 1,10 1,2100
8 2,25 -0,70 0,4900
9 2, 68 -0,27 0,0729
l O 3,00 0,05 0,0025
11 4,02 1,07 1,1449
12 2,85 - 0, 10 0,0100
13 3,38 0,43 0, 1849
Totale 38,35 0,00 4,6596
La varianza pertanto:
1 13
52 = - - )' (x - 2 95)2
(13-1) (;;-( , ,
= 4,6596
12
= 0, 39 litri
2
.
La deviazione 5tandard di una seri e di dati
la radice quadrata della varianza. Pertanto,
per le 13 misurazioni del volume espiratori o
fo rzato in un secondo in Tabella 3.1, la devia-
zione standard uguale a:
= J 0,391itri
2
= 0,62 litri .
Nelle applicazioni pratiche, la deviazione
standard utilizzata pi spesso della va-
rianza, principalmente perch ha le stesse
unit di misura della media. In un confronto
tra due gruppi di dati, il gruppo con la devia-
zione standard minore ha osservazioni pi
omogenee; il gruppo con la deviazione stan-
dard maggiore presenta una maggiore varia-
bilit. La grandezza reale dell a deviazione
standard dipende dai valori dei dati; ci che
grande per una serie di dati pu essere pic-
MISURE DI Si NTESI NUMERICA
colo per un'altra. Inoltre, poich la devia-
zione standard ha dell e unit di misura, non
ha senso confrontare le deviazioni standard
di due quantit non correlate. La medi a e la
deviazione standard di una serie di dati pos-
sono essere usate per sinteti zzare le caratteri-
stiche di un' intera distribuzione di valori; tale
argomento sar trattato nel Paragrafo 3.4.
3.2.4 Coefficiente di ariazione
Mentre non ha molto senso confrontare le
deviazioni standard, invece possibil e con-
frontare la variabilit tra due o pi serie di
dati che rappresentano quanti t di verse con
diverse unit di misura utilizzando una mi-
sura di sintesi numerica nota come coeffi -
ciente di variazione. Il coefficiente di varia-
zione mette in relazione la deviazione stan-
dard di una serie di valori con la sua media;
esso il rapporto di 5 e x moltiplicato per 100
ed , quindi, una misura di variabilit relativa.
Poich la deviazione standard e la media
hanno la stessa uni t di misura, le unit si an-
nullano e pertanto il coefficiente di varia-
zione un numero adimensionato. Il coeffi-
ciente di vari azione per i dati del volume
espiratorio forzato in un secondo in Tabella
3. 1 :
CV = -b- x 100%
x
= 0,62 x 100%
2,95
= 21 ,0%.
difficile giudi care se questo valore, di per
s, sia grande o piccolo; il coefficiente di va-
riazione la misura pi utile per confrontare
due o pi serie di dati. Inoltre, poich non di-
pende dalle unit di misura, esso pu essere
usato per valutare la variabilit relativa tra
due serie qualsiasi di osservazioni. Sebbene il
coefficiente di vari azione sia ancora utilizzato
come misura di sintesi, le sue propriet stati -
stiche non sono soddi sfacenti. Pertanto, il
suo utilizzo sta di minuendo e non deve essere
. .
ll1coragglato.
DATI RAGGRUPPA TI
3.3 DATI RAGGRUPPATI
Se vogliamo contare le monete che abbiamo
in tasca, possiamo farlo in due modi. Il primo
sommare il valore delle monete mano a
mano che le estraiamo. Il secondo raggrup-
pare prima le monete in base al valore, poi
moltiplicare il valore di ogni moneta per il
numero di monete e, infine, sommare i valori
ottenuti. Ad esempi o, se abbiamo 3 cente-
simi, 4 nickels, 2 decimi di dollaro ed un
quarto di dollaro, abbiamo un totale di :
3(1)+ 4(5)+2(10)+1 (25)= 3 + 20 + 20 + 25
= 68 centesimi.
La stessa procedura pu essere utili zzata
per sommare una qualsiasi serie di osserva-
zioni. Ad esempio, consideriamo i dati in Ta-
bella 3.3 (5). Nei pazienti affetti da anemia
falciforme - una forma ereditari a di anemia -
spesso si utili zza la terapia trasfusionale per
prevenire ictus ricorrenti dopo il primo even-
to cerebrovascolare. La terapia trasfusionale a
lungo termine presenta, tuttavia, dei rischi e
non sempre consigliabile. La Tabella 3.3 ri -
porta la durata della terapia in lO pazienti in-
clusi in uno studio che valuta gli effetti
dell' interruzione dell e trasfusioni. Potremmo
essere interessati a detertninare la media di
ques ti valori.
3.3.1 Media raggruppata
La tecnica standard per calcolare la medi a
dell e osservazioni in Tabell a 3.3 semplice-
mente quella di sommare i valori e dividere
per n = 10; in questo casp troviamo che:
1 n
x= - )' Xi
nf:1
= C ~ (12 + 11 + 12 + 6 + Il + 11 + 8
+5+ 5 + 5)
86
l O
= 8,6 anni.
41
Tabella 3.3 Durata della terapia trasfusionale in
l O pazienti affetti da anemia fal-
ciforme
Soggetto Dur ata (anni)
1 12
2 I l
3 12
4 6
5 11
6 11
7 8
8 5
9 5
lO 5
In alternati va, avremmo potuto calcolare la
somma dell'e misurazioni raggruppando pri-
ma le osservazioni di uguale valore; si noti
che vi sono tre 5, un 6, un 8, tre Il e due 12.
In questo caso:
IO
~ Xi = 3(5) + 1(6) + 1(8) + 3(11) + 2(12)
1- = 15+6+8+33+24
= 86
e
_ 86
x=-
l O
= 8,6 anni.
Otteniamo la stessa media indipendente-
mente dal metodo utilizzato.
La tecnica di raggruppare le misurazioni
che hanno uguali valori prima di calcolarne la
medi a offre un particolare vantaggio rispetto
al metodo standard: essa pu essere applicata
a dati che sono stati sinteti zzati sotto for ma
di dis tribuzione di frequenza. I dati organiz-
zati in questo modo sono spesso indicati
come dati raggruppati. Anche se le osserva-
zioni originali non sono pi disponibili - o
addi rittura non lo sono mai state - potremmo
ancora voler calcolare le misure di sintesi nu-
meri ca dei dati. Non conosciamo, per, i va-
lori delle osservazioni individuali; possiamo,
tuttavia, determinare il numero di misura-
zioni che rientrano in ciascun intervallo spe-
cifico. Q ues ta informazione pu essere utili z-
zata per calcolare una media raggruppata.
42
Per calcolare la media di una serie di dati
organizzati sotto forma di distribuzione di
frequenza, assumiamo prima di tutto che tutti
i valori che rientrano in un determinato inter-
vallo siano uguali al punto medio di quell'in-
tervallo. I dati relativi allivello di colesterolo
sierico della popolazione maschi le di et
compresa tra 25 e 34 anni presentati in Ta-
bella 2.6 sono riprodotti in Tabell a 3.4 (6). Il
primo intervallo contiene i valori compresi
tra 80 e 119 mg/ l00 mI, con un punto medio
di 99,5. Assumiamo, pertanto, che tutte le 13
misurazioni all' interno di questo intervallo
siano uguali al valore di 99,5 mg/ l00 mI. Allo
stesso modo, assumiamo che tutte le 150 os-
servazioni nel secondo intervallo - 120-159
mg/l00 mI - siano uguali al valore di 139,5
mg/ l00 mI. Poich sti amo facendo queste as-
sunzioni, il nostro calcolo solo approssima-
tivo ed inoltre i risultati cambierebbero se
raggruppassimo i dati in modo diverso.
Tabella 3.4 Frequenze assolute dei li velli di cole-
sterolo sierico in soggetti della popo-
lazione maschil e degli Stati Uniti di et
compresa tra 25 e 34 anni, 1976-1980
Livello di colesterolo Numero
(mg/100 011) di soggetti
80-119 13
120-159 150
160-199 442
200-239 299
240-279 115
280-319 34
320-359 9
360-399 5
Totale 1. 067
Per trovare la media di dati raggruppatI,
prima di tutto sommi amo le misurazioni
moltiplicando il punto medio di ciascun in-
tervallo per la frequenza corrispondente e
sommando questi prodotti; dividiamo poi per
il numero totale di valori. Pertanto:
dove k il numero di intervalli nell a tabella,
MISURE DJ SiNTESi NUMERICA
mi il punto medio dell 'i-esimo intervallo e ii
la frequenza associata all'i-esimo intervallo.
Si noti che la somma dell e frequenze, 2:7: 1 ii
uguale al numero totale di osservazioni n. Per
i dati in Tabella 3.4:
8
_ I i: ' miii
x= =:........:..._-
I :: , ii
= (_1_) [99,5(13) +.139,5(150)+ 179,5(442)
1.067 + 219,5(299)+ 259,5(115)
212.166,5
1.067
+ 299,5(34) + 339,5(9)
+ 379,5(5)J
= 198,8 mg/ l00 mI.
La media raggruppata in realt la media
ponderata dei punti medi dell'intervall o; cia-
scun punto medio pesato per la frequenza
delle osservazioni all'interno dell' intervallo.
3.3.2 Varianza raggr uppata
Dopo aver calcolato la media di una serie di
dati raggruppati, possiamo anche voler misu-
rare la sua varianza o la devi azione standard.
Di nuovo, assumi amo che tutte le osserva-
zioni che rientrano in un determinato inter-
vall o siano uguali al punto medio, mi' di
quell'intervall o. La varianza raggruppata dei
dati :
k
I i: 1 (mi - x)2 ii
52
dove tutti i termini sono definiti come per la
media. La varianza raggruppata per i dati in
Tabella 3.4 pertanto:
52
I:: 1 (mi - 198,8)2 ii
= (_1_) [(-99,3)2(13) + (-59,3)2(150)
1.067-1 + (-19,3)2(442) + (20,7)2(299)
+ (60,7)2(115) + (100,7)2(34)
+ (140,7)2(9) + (180,7)2(5)J
DISUGUAGLIANZA DI CHEBYCHEV
2.058.342,8
1.066
= 1.930,9 (mg/ lOO ml f
Si ricord i che la deviaz ione standard la ra-
dice quadrata dell a vari anza; pertanto, la de-
viazione standard raggruppata dei dati rela-
tivi al li vell o di colesterolo sieri co :
5 = h.930,9( mg/ l 00 mI?
= 43,9 mg/ lOO mI.
3.4 DISUGUAGLIANZA DI CHE BY-
CHEV
Dopo aver calcolato la media e la devia-
zione standard di una serie di dati, questi due
numeri possono essere utili zzati per ri assu-
mere le caratteristiche dell'intera distribu-
zione. La med ia ci indica dove sono centrate
le osservazioni; la deviazione standard forni-
sce un'idea della quantit di dispersione da
quel punto centrale. Le due mi sure posson o
esser e usate per cos truire un intervallo che in-
clude una determinata proporzione di osser-
vazioni in una serie di dati.
Si dice spesso che la media pi o meno due
deviazioni standard comprenda la maggior
parte dei dati. Se abbiamo qualche informa-
zione sull a forma della distribuzione di va-
lori, questa affermazione pu essere resa pi
precisa. Quando i dati sono simmetrici e uni -
modali, ad esempio, si pu dire che circa il
67% dell e osservazioni rientra nell' intervall o
x 15, circa il 95% nell' intervallo x 25 e
quasi tutte le osservazioni nell 'intervallo x
35. Tale affermazione nota come regola em-
pirica e sar ulteriormente approfondita nel
Capitolo 7, a proposito dell e distribuzioni
teoriche dei valori.
Sfortunatamente, la regola empirica un' ap-
prossimazione che si applica solo quando i
dati sono simmetrici e unimodali. In caso con-
trario, per riassumere la di stribuzione di va-
lori possibile utili zzare la disuguaglianza di
Chebychev. La di su guagli anza di Chebychev
43
meno sp ecifica della regola empirica, ma
valida per qualsiasi serie di osservazioni, indi -
pendentemente dall a forma. Essa ci consente
di affermare che p er qualsiasi numero k mag-
giore o u gu ale a 1, almeno [1-(1/k)2] dell e mi -
surazioni in una serie di dati all'interno di k
deviazioni standard dalla media (7) . Ad esem-
pio, dat o k = 2, almeno:
1 - Gr = 1 - ~ )
3
-
4
dei valori rientrano all'interno di due devia-
zioni standard dalla media. Allo stesso modo,
possiamo dire che l'intervall o x 25 com-
prende almeno il 75% dell e osservazioni.
Questa affermazione valida indipendente-
mente dai valori di x e s. Allo stesso modo, se
k = 3, almeno:
1 - Gr = 1 - ~ )
8
-
9
delle osservazioni rientrano all ' interno di tre
deviazioni standard dall a media; pertanto,
x 35 contiene almeno 1'88,9% delle osserva-
zIOnI.
La di suguaglianza di Chebychev un'affer-
mazione conservati va, pi conservativa della
regola empiri ca. Essa si appli ca alla medi a ed
alla deviazione standard di q ualsiasi di stribu-
zione, indipendentemente dall a forma di
quest'ultima. Ad esempio, ritornando ai dati
del volume espiratorio forzato in u n secondo
in Tabella 3.1, possiamo dire che l'intervallo :
2,95 (2 x 0,62)
o
(1,71, 4,19)
comprende almeno il 75 % delle osservazioni,
mentre l'intervallo:
2,95 (3 x 0,62)
o
(1,09,4,81)
44
ne comprende almeno 1' 88,9%. In realt, en-
trambi gli intervalli contengono tutte le 13
misurazioni. All o stesso modo, per i dati rela-
tivi al livello di colesterolo sierico in Tabella
3.4, possiamo affermare che l' intervall o:
198,8 (2 x 43,9)
o
(111,0,286,6)
comprende almeno il 75% delle osservazioni,
mentre l' intervall o:
198,8 (3 x 43,9)
o
(67, 1, 330,5)
comprende almeno 1'88,9%. Cos, sebbene
sia conservativa, la disuguaglianza di Cheby-
chev ci consente di utilizzare la medi a e la de-
viazione standard di qualsiasi serie di dati -
solo due numeri - per descrivere l' intero
gruppo.
3.5 ULTERIORI APPLICAZIONI
In uno studi o che esamina le cause di mort e
in soggetti affetti da as ma grave, sono stati
raccolti dati su di eci pazienti arrivati in ospe-
dale con arres to respiratorio; la respirazione
era assente ed i soggetti erano in stato di in-
coscienza. La Tabell a 3.5 riporta la frequenza
cardi aca dei di eci pazienti al momento
dell'ammissione in ospedale (8). Come pos-
siamo caratterizzare questa seri e di osserva-
zioni ?
Prima di tutto, possiamo essere interessati a
trovare una frequenza cardiaca tipica per i
di eci soggetti. La misura di tendenza centrale
pi comunemente utili zzata la medi a. Per
trovare la media di ques ti dati, sommiamo
semplicemente tutte le osservazioni e divi-
diamo per n = lO. Quindi, per i dati in Ta-
bell a 3.5:
1 n
x= -)' Xi

MISURE DJ SINTESI N UMERICA
= + 150 + 125 + 120 + 150 + 150
+ 40 + 136 + 120 + 150)
1.308
lO
= 130,8 battiti al minuto.
La frequenza cardi aca medi a al momento
dell 'ammissione in o p,edale 130,8 battiti al
mllluto.
In questa seri e di dati, la frequenza cardiaca
del paziente 7 considerevolmente pi bassa
di quell a degli altri soggetti. Cosa accadrebbe
se q uesta osservazIone fosse eliminata? In
questo caso:
x = (! )(167 + 150 + 125 + 120 + 150 + 150
9 + 136 + 120 + 150)
1.268
9
= 140, 9 battiti al minuto.
La media aumentata di circa l O battiti al
minuto; questo risul tato dimostra quanto una
singola osservazione atipica possa influenzare
la media.
Una seconda mi sura di tendenza centrale
la medi ana o cinquantesimo percentil e di una
seri e di dati . Ordinando le misurazioni dalla
pi piccola alla pi grande, abbi amo:
40, 120,120,125,136, 150,150, 150, 150, 167.
Poich c' un numero pari di osservazioni,
la medi ana data dalla medi a dei due valori
centrali . In ques to caso, ques ti valori ono la
10/ 2 = quinta e la (10/2) + 1 = sesta osserva-
zione. Pertanto, la mediana di ques ti dati
(136 + 150)/2 = 143 battiti al minuto, un nu-
mero abbas tanza pi elevato dell a medi a.
Cinque osservazioni ono inferi ori alla me-
diana e cinque sono superiori.
Il calcolo della mediana considera l'ordine e
la relativa grandezza delle osservazioni. Se
eliminiamo di nuovo il paziente 7, l'ordine
dell e frequenze cardi ache sar:
120, 120, 125, 136, 150, 150, 150, 150, 167.
ULTERIORI APPLICAZION I
Tabella 3.5 Frequenza cardiaca JJ1 10 pazIentI
asmatICI con arresto respIratorIo
Paziente Frequenza cardiaca
(battiti al minuto)
167
2 150
3 125
4 120
5 150
6 150
7 40
8 136
9 120
10 150
Ci sono nove osservazioni nella lista; la me-
diana la [(9 + 1)/2] = quinta osservazione, o
150 battiti al minuto. Sebbene la mediana sia
un po' aumentata, non ha subito la stessa va-
riazione della media.
La moda di una serie di dati l'osserva-
zione che si verifica pi frequentemente. Per
le misurazioni in Tabella 3.5, la moda 150
battiti al minuto; questo l'unico valore che
si verifica quattro volne_
Dopo aver trovato il centro di una serie di
dati, spesso vogliamo anche stimare l'entit
della variabilit delle osservazioni; ci ci con-
sente di quantizzare la capacit della misura
di sintesi di rappresentare l'intero gruppo.
Una misura di di spersione che possiamo uti -
li zzare il range. Il range di una serie di dati
la differenza tra la misurazione pi grande e
quella pi piccola. Per le osservazioni in Ta-
Figura 3.5 Frequenza cardi aca in 10 pa-
zienti as mati ci con arresto respiratori o
167
150
143
120
40
45
bella 3.5, il range 167-40 = 127 battiti al mi-
nuto. Poich il range considera solo i due va-
lori pi estremi in una serie di dati, molto
sensibile ai valori atipici. Se eliminassimo
l'osservazione relativa al paziente 7, il range
dei dati sarebbe solo 167-120 = 47 battiti al
mlI1uto.
Il range interquartile di una serie di dati
definito come il settantacinquesimo percen-
tile meno il venticinquesimo percentile. Se
volessimo costruire un diagramma a scatola
usando i dati riportati in Tabella 3.5, il range
interquartile sarebbe rappresentato dall'al-
tezza della scatola centrale in Figura 3.5. (Si
noti che per questa serie di misurazioni il va-
lore adiacente pi piccolo uguale al venti-
cinquesimo percentile). Per trovare il venti-
cinquesimo percentile dei dati, notiamo che
nk/ l00 = 10(25)/ 100 = 2,5 non un numero
intero. Pertanto, il venticinquesimo percen-
tile la 2 + 1 = terza misurazione, o 120 bat-
titi al minuto. Allo stesso modo, 10(75)/ 100 =
7,5 non un numero intero e il settantacin-
quesimo percentile la 7 + 1 = ottava misura-
zione, o 150 battiti al minuto. Sottraendo
questi due valori, i l range interquartile per
questi dati 150-120 = 30 battiti al minuto;
questo il range del 50% delle osservazioni
centrali . Il range interquartile spesso utili z-
zato con la mediana per descrivere una distri-
buzione di valori.
Le misure di dispersione pi frequente-
mente utilizzate per una serie di dati sono la
varianza e la deviazione standard. La varianza
o
46
quantizza l'entit della variabilit dei dati ri-
spetto alla media; essa calcolata sottraendo
la media da ciascuna misurazione, elevando al
quadrato queste deviazioni, sommandole, e
dividendo poi per il numero totale di osserva-
zioni meno 1. La varianza della frequenza
cardiaca in Tabella 3.5 :
1 IO
52 =-- )' (x -1308)2
(10-1)f;1 l ,
= (!) [(36,2)2 + (19,2)2 + (-5,8)2 + (-10,8)2
9 + (19,2)2 + (19,2)2 + (-90,8)2 + (5,2?
+ (-10,8)2 + (19,2)2J
11.323,6
9
= 1.258,2 (battiti al minuto)2.
La deviazione standard la radice quadrata
della varianza; essa utilizzata pi spesso
nelle applicazioni pratiche poich ha la stessa
unit di misura della media. Per le dieci mi-
sure della frequenza cardiaca, la deviazione
standard :
5 = h .258,2 (battiti alminuto)2
= 35,5 battiti al minuto.
La deviazione standard 111 genere usata
con la media per descrivere una serie di va-
lori.
Avendo ormai acquisito una certa familia-
rit con le misure di sintesi numerica, si con-
sideri ora la distribuzione di frequenza del
peso alla nascita in Tabella 3.6; questi dati
erano stati gi presentati in Tabella 2.10 (9).
Possiamo riassumerli ulteriormente fornendo
una descrizione sintetica della loro distribu-
zione? Sebbene non conosciamo i reali valori
delle 3.751.275 misurazioni del peso alla na-
scita, conosciamo invece il numero di osser-
vazioni che rientra in ciascun intervallo. Pos-
siamo, pertanto, applicare le tecniche per i
dati raggruppati per ottenere le misure di sin-
tesi numerica per queste osservazioni.
Per trovare la media raggruppata, assumia-
mo prima di tutto che tutte le osservazioni
MISURE DI SINTESI NUMERICA
in un determinato intervallo siano uguali al
punto medio di quell'intervallo. Ad esempio,
assumiamo che le 4.843 misurazioni nel pri-
mo intervallo siano uguali a 249,5 grammi e
che le 17.487 misurazioni nel secondo inter-
vallo siano tutte uguali a 749,5 grammi. Mol-
tiplichiamo, poi, ciascun punto medio per
la corrispondente frequenza dell'intervallo,
sommiamo questi prodotti e dividiamo per il
numero totale di osservazioni. Per i dati in
Tabella 3.6:
=( 1 ) [(249,5) (4.843)
3.751.275 + (749,5) (17.487)
=
+ (1.249,5) (23.139)
+ (1.749,5) (49.112)
+ (2.249,5) (160.919)
+ (2.749,5) (597.738)
+ (3.249,5) (1.376.008)
+ (3.749,5) (1.106.634)
+ (4.249,5) (344.390)
+ (4.749,5) (62.769)
+ (5.249,5) (8.236)J
12.560.121.114,5
3.751.275
= 3.348,2 grammi.
Tabella 3.6 Frequenze assolute dei pesi alla na-
scita negli Stati Uniti, 1986
Peso alla nascita
Numero di neonati
(grammi)
0-499 4.843
500-999 17.487
1.000-1.499 23.139
1.500- 1.999 49.112
2.000-2.499 160.919
2.500-2.999 597.738
3.000-3.499 1.376.008
3.500-3.999 1.106.634
4.000-4.499 344.390
4.500-4.999 62.769
5.000-5.499 8.236
Totale 3.751.275
ULTERIORI A PPLICA ZION I 47
Tabella 3.7 Risultati dello Stata che illustrano le misure di sintesi numerica
Percentiles
1% 40
5% 40
10% 80
25% 120
50% 143
75% 150
90% 158.5
95% 167
99% 167
La media raggruppata una media ponde-
rata dei punti medi dell 'intervallo.
Oltre a calcolare una misura di tendenza
centrale, possiamo calcolare una misura di di -
spersione per la distribuzione di frequenza.
La varianza raggruppata dei dati in Tabella
3.6 :
2 I ; ~ l (mi - 3.348,2)2 li
5 =--------
[ I ~ l 1i] - 1
1 [(-3.098,7)2 (4.843)
(3.751.275 -1) + (-2.598,7)2 (17.487)
+ (-2.098,7? (23.139)
+ (-1.598,7)2 (49.112)
+ (-1.098,7)2 (160.919)
+ (-598,7)2 (597.738)
+ (-98,7)2 (1.376.008)
+ (401,3)2 (1.106.634)
+ (901,3)2 (344.390)
+ (1.401,3)2 (62.769)
+ (1.901,3)2 (8.236)J
1.423.951.273.348,3
3.751.274
= 379.591,4 grammi
2
.
hrtrate
Smallest
40
120
120 Obs 10
125 Sum of Wgt. 10
Mean 130.8
Largest Std. Dev. 35.4708
150
150 Variance 1258.178
150 Skewness -1.772591
167 Kurtosis 5.479789
La deviazione standard, che la radice qua-
drata della varianza, :
5 = j 379.591,4 gra mmj2
= 616,1 grammi.
Invece di calcolare manualmente tutte que-
ste misure di sintesi numerica, avremmo po-
tuto utilizzare un computer. La Tabella 3.7
mostra i principali risultati ottenuti con lo
Stata per i dati relativi alla frequenza cardiaca
in Tabella 3.5. A sinistra della tabella sono ri-
portati alcuni percentili dei dati. Utilizzando
questi valori, possiamo determinare la me-
diana ed il range interquartile. La colonna
centrale contiene le quattro misurazioni pi
piccole e le quattro pi grandi; queste ci con-
sentono di calcolare il range. Le informazioni
a destra della tabella includono il numero di
osservazioni, la media dei dati, la deviazione
standard e la varianza.
La Tabella 3.8 mostra gli stessi risultati ot-
tenuti con Minitab, che fornisce il numero di
osservazioni, la media, la mediana e la devia-
zione standard delle misurazioni. Per calco-
lare il range possibile usare il valore mas-
Tabella 3.8 Risultati di Minitab che illustrano le misure di sintesi numerica
HRTRATE
HRTRATE
N
10
MIN
40.0
MEAN
130.8
MAX
167 . 0
MEDIAN
143 .0
Q1
120.0
TRMEAN
137.6
Q3
150.0
STDEV
35.5
SEMEAN
11.2
48
simo ed il valore minimo, mentre per calco-
lare il range interquartil e si usano i valori in-
dicati con Ql e Q3, cio il venticinquesimo
ed il settantacinquesimo percentile o quartili.
La sezione chiamata TRMEAN conti ene la
media troncata dei dati al 5%. Per calcolare
tale medi a, si ordinano le osservazioni. Il 5 %
dei valori pi piccoli ed il 5% dei valori pi
grandi sono esclusi, mentre si calcola la medi a
del rimanente 90%. Per i dati relati vi alla fre-
quenza cardiaca, le osservazioni sono l O, ed il
5% di lO pari a 0,5. Arrotondando tale va-
lore a 1, si eliminano i due valori estremi e si
calcola, poi, la media per le otto misurazioni
residue. Poich in questo modo i possibili
valori atipici sono eliminati, questo tipo di
media non influenzata, come la media non
troncata, da valori eccezionalmente grandi o
eccezionalmente piccoli.
3.6 ESERCIZI
1. Definire e confrontare media, mediana e
moda.
2. In quali casi preferibile l'utilizzo della
medi a? Della mediana? Della moda?
3. Definire e confrontare tre misure di di-
spersione utilizzate comunemente: il range, il
range interquartile e la deviazione standard.
4. possibile calcolare misure di sintesi nu-
merica per le osservazioni di una dis tribu-
zione di frequenza, nella quale le misurazioni
ori ginali non sono pi disponibili? Spiegare
brevemente. Perch le informazioni di carat-
tere personal e - come il reddito annuo - sono
di solito presentate in ques to modo?
5. Qual l' utilit della disuguaglianza di
Chebychev per descrivere una serie di osser-
vazioni ? In quali casi invece possibile utili z-
zare la regola empirica?
6. stato condotto uno studio per esami-
nare la prognosi a lungo termine di bambini
che hanno contratto una meningite batterica
acuta, un processo infiammatorio delle mem-
Mi SURE Di SINTESi NUMERiCA
brane che avvolgono il cervello ed il midollo
spinale. Di seguito sono riportati i tempi di
insorgenza di paralisi in 13 bambi ni che
hanno partecipato allo studio (lO). Le misu-
. . ..
raZlOl11 espresse 111 mesI sono:
0, 100,25 0,50 4 12 12 24 24 31 3642 55 96.
a. Calcolare le seguenti misure di sintes i nu-
merica dei dati :
l. medi a
Il. mediana
lIl. moda
IV, range
v. range interquartile
VI. deviazione standard.
b. Dimostrare che Ll:l (Xi-X) uguale a O.
7. Nel Massachusetts, otto soggetti riporta-
rono un episodi o inspiegato di intossicazione
da vitamina D che richiese il ricovero in ospe-
dale; si pens che questo evento insolito po-
tesse essere il risultato di un'eccessiva ag-
giunta di vitamina D al latte fresco (11). La
tabell a di seguito riportata illustra i li velli
emati ci di calci o e albumina - un tipo di pro-
teina - per ogni soggetto al momento del ri-
covero in ospedale.
Calcio (mmol/I) Albumina (gli)
2,92 43
3,84 42
2,37 42
2,99 40
2,67 42
3,17 38
3,74 34
3,44 42
a. Calcolare la medi a, la medi ana, la devia-
zione standard e il range dei li velli di cal-
ClO.
b. Calcolare la media, la medi ana, la devia-
zione standard e il range dei livelli di albu-
Inlna.
c. Nei soggetti sani il range dei valori di cal-
cio 2,12 e 2,74 mmol/l, mentre il range
dei livelli di albumina 32 e 55 gl I. Rite-
nete che i pazienti colpiti da intossicazione
da vitamina D avessero livelli ematici nor-
mali di calci o e di albumina?
ESERCIZI
8. stato condotto uno studio per con-
frontare adolescenti di sesso fe mminile affette
da bulimia con adolescenti sane con simile
struttura corporea e simile abitudine all' atti-
vit fisica. Di segui to sono riportati i valori
relativi all'assunzione calorica giornali era, in
ki localorie/ kg, per campioni di adolescenti di
ciascuno dei due gruppi (12).
Ass unzione calorica giornaliera (Kcal/Kg)
Adolescenti bulimiche Adolescenti sane
15,9 18,9 25, 1 20, 7 30,6
16,0 19,6 25,2 22,4 33,2
16,5 21,5 25,6 23,1 33,7
17,0 21,6 28,0 23,8 36,6
17,6 22,9 28,7 24,5 37,1
18,1 23,6 29,2 25,3 37,4
18,4 24,1 30,9 25,7 40,8
18,9 24,5 30,6
Africa
100
80
60
40
20
~
~
~
O
'"
O 50
-5
100 150 200
'"
"E
'" Europa N
c:
~ 1
c-
"
d:;
80
60
40
20
o
o 50
49
a. Calcolare l' assunzione calori ca giornaliera
mediana per il gruppo di adolescenti buli-
miche e per quelle sane.
b. Calcolare il range interquartil e di ciascun
gruppo.
c. Il valore tipico di assunzione calorica gior-
naliera maggiore nell e adolescenti affette
da bulimia o nelle adolescenti sane? Quale
gruppo presenta una maggiore variabilit
nelle mi surazioni?
9. Le Figure 3.6 e 3.7 illustrano il tasso di
mortalit infa ntil e per 111 Paesi in tre conti-
nenti: Africa, Asia ed Europa (13). Il tasso di
mortalit infantile di un paese il numero di
decessi in bambini di et inferiore a 12 mesi in
un anno diviso per il numero totale di nati
vivi in quell'anno. La Figura 3.6 presenta de-
gli istogrammi che illustrano la di stribuzione
Asia
100
80
60
40
20
o
o 50 100 200
Decessi per 1.000 nascite
Figura 3.6 Istogrammi dei tassi di mortalit infantil e in Africa, Asia ed Europa, 1992
50
4
4
4
f-{C]--------<
Ilf III/ Il
1111
Africa, decessi per 1.000 nascite
l' ~
Asia, decessi per 1.000 nascite
Europa, decessi per 1.000 nascite
dei tassi di mortalit infantile per ciascun
conti nente. La Figura 3.7 illustra gli stessi
dati utilizzando diagrammi di dispersione a
una dimensione e diagrammi a scatola.
a. Senza eseguire alcun calcolo, quale conti-
nente pensate presenti la media pi bassa?
Quale la mediana pi elevata? Quale la de-
viazione standard pi piccola? Spiegare.
b. Per l'Africa, vi aspettate che la media e la
mediana del tasso di mortalit infantile sia-
no uguali? E in Asia? Perch o perch no?
10. Di seguito sono riportate le distribu-
zioni di frequenza dei livelli di cotinina si e-
rica in un gruppo di fumatori ed in un gruppo
di non fumatori (14). Queste misurazioni
sono state raccolte in uno studio che ha valu-
tato diversi fattori di rischio per le malattie
cardiovascolari.
Livell o di cotinina
Fumatori
Non
(ng/ml) fumatori
0-13 78 3.300
14-49 133 72
50-99 142 23
100- 149 206 15
150- 199 197 7
200-249 220 8
250-299 151 9
2: 300 412 Il
Totale 1.539 3.445
a. Calcolare la media e la deviazione standard
raggruppata per le misurazioni dei livelli di
cotinina sierica nei due gruppi. Per l'ul-
timo intervallo - 2: 300 ng/ ml - si assuma
MISURE DI SINTESI NUMERI CA
191
191
Figura 3.7 Diagrammi di dispersione a
una dimensione e diagrammi a scatola
191 dei tassi di mortalit infanti le in Africa,
Asia ed Europa, 1992
che il punto medio dell'intervallo sia 340
ng/ ml.
b. In quale intervallo si riduce il livello di co-
tinina sierica mediano nei fumatori? E nei
non fumatori?
c. Confrontare le distribuzioni dei livelli di
cotinina sierica nei fumatori e nei non fu-
maton.
11. I dati rel ativi allivello di zinco sierico in
462 maschi di et compresa tra 15 e 17 sono
registrati nel CD allegato al libro in un file
chiamato serzinc (Appendice B, Tabella B.l);
le misurazioni di zinco sierico in microgram-
mi per decilitro sono registrate nella variabile
zinc (15).
a. Calcolare la media, la mediana, la devia-
zione standard, il range ed il range inter-
quartil e dei dati.
b. Utilizzare la disuguaglianza di Chebychev
per descrivere la distribuzione dei valori.
c. Quale percentuale di valori ritenete che
rientri in 2 deviazioni standard dalla me-
dia? E in 3 deviazioni standard dalla me-
dia? Quale percentuale delle 462 misura-
zioni rientra in questi range?
d. Ritenete che la regola empirica sia pi effi-
cace della disuguaglianza di Chebychev
per sintetizzare questi dati? Spiegare.
12. Le percentuali di neonati con basso
peso all a nascita - peso inferiore a 2.500
grammi - in diversi Paesi sono registrate, nel
CD allegato allibro, nella variabile lowbwt in
un file chiamato unicef (13) (Appendice B,
Tabella B.2).
BiBLIOGRAFi A
a. Calcolare la media e la mediana di queste
osservaZlODI.
b. Calcolare la medi a troncata aI5%.
c. Per questa serie di dati, quale di questi nu-
meri preferite come misura di tendenza
centrale? Spi egare.
13. La concentrazione di nicotina in milli-
grammi dichiarata da 35 marche di sigarette
canadesi registrata, nel CD allegato allibro,
nella variabile nicotine in un file chiamato ci-
garett (16) (Appendice B, Tabella B.4).
a. Calcolare la media e la mediana delle con-
centrazioni di nicotina.
b. Disegnare un istogramma delle misura-
zioni di nicotina. Descrivere la forma della
distribuzione dei valori.
c. Quale numero ritenete fornisca la migliore
misura di tendenza centrale per queste
concentrazioni, la media o la mediana?
Spiegare.
14. Di seguito illustrata una distribuzione
di frequenza che sintetizza i valori di pres-
sione sistolica a riposo in un campione di 35
pazienti con ischemia cardiaca, cio assenza
di flusso ematico al cuore (17).
Pressione sistolica Numero
(mm Hg) di pazienti
115-124 4
125-134 5
135-144 5
145- 154 7
155-164 5
165-174 4
175-184 5
Totale 35
a. Calcolare la media e la deviazione standard
raggruppata dei dati.
b. Le 35 misurazioni della pressione sistolica
sono registrate nel CD allegato al libro in
un fi le chiamato ischemic (Appendice B,
Tabella B.6); i valori sono registrati nella
variabile sbp. Calcolare la media e la devia-
zione standard non raggruppata di questi
dati.
51
c. Le misure di sintesi numerica raggruppate
e non raggruppate sono uguali? Perch o
perch no?
15. Il file chiamato lowbwt, nel CD allegato
allibro, contiene le informazioni per un cam-
pione di 100 neonati con basso peso alla na-
scita - cio con peso inferiore a 1.500 grammi
- in due ospedali di Boston, Massachusetts
(18) (Appendice B, Tabella B.7). Le misura-
zioni relative all a pressione sistolica sono re-
gistrate nella variabile sbp. La variabile dico-
tomica casuale sex indica il sesso di ciascun
bambino, definendo con 1 un maschio e con O
una femmina.
a. Disegnare una coppia di diagrammi a sca-
tola - uno per i maschi e uno per le fem-
mine - per le misurazioni di pressione si-
stolica. Confrontare le due distribuzioni di
valori.
b. Calcolare la media e la deviazione standard
delle misurazioni di pressione sistolica nei
maschi e nelle femmine. Quale gruppo ha
la media maggiore e quale la maggiore de-
viazione standard?
c. Calcolare il coefficiente di variazione cor-
rispondente ai due sessi. Vi qualche evi-
denza che la ampiezza della variabilit in
questi dati sia diversa nei due sessi?
Bibliografia
1. KOENIG J.Q., COVERT D.s., H ANLEY Q.S., VAN
BELLE G., PIERSON W.E.: Prior exposure to
ozone potentiates subsequent response to sul-
fur dioxide in adolescent asthmatic subjects.
American Review 01 Respiratory Disease, 141 :
377-380, 1990.
2. PRIAL F.J.: Wine talk. The New York Times,
December 25:29, 1991.
3. UNITED N ATIONS ENVIRONMENT PROGRAMME,
WORLD H EALTH ORGANIZATION: Urban air
quality on average. Global pollution and
health: results 01 health-related environmental
monitoring, 1987.
4. MARTIN J.L.: The impact of AIDS on gay male
sexual behavior patterns in New York City.
American Journal 01 Public Health, 77:578-
581, 1987.
52
5. WANG W.e., KOVNAR E.H., TONKIN LL.,
MULHERN R.K., LANGSTON J.W., DAY S.W.,
SCHELL M.]., WILIMAS J.A.: High risk of recur-
rent stroke after discontinuance of five ta
twelve years of transfusion therapy in patients
with sickle celi disease. Journal oj Pediatrics,
118:377-382,1991.
6. N ATIONAL CENTER FOR HEALTH STATISTICS,
FULWOOD R., KALSBEEK W., RIFKIND B., Rus-
SELL-BR1EFEL R., MUESING R., LARoSA l, LIP-
PEL K.: Total serum cholesterollevels of adu!ts
20- 74 years of age: United State, 1976-]980.
Vital and Health Statistics, Seri es Il, Number
236, May 1986.
7. PARZEN E.: Modern probability theory and its
applications. Wiley, New York, 1960.
8. MOLFINO N.A., N ANNINI L.l, MARTELLI A.N.,
SLUTSKY A.S. : Respiratary arrest in near-fatal
asthma. The New England Journal oj Medi-
cine, 324:285-288, 1991.
9. N ATIONAL CENTER FOR H EALTH STAT1ST1CS:
Advance reports, 1986. Supplements to the
Monthly VitalStatistics, Series 24, March 1990.
lO. POMEROY S.L., H OLMES S.l, DODGE P.R., FEI-
G1N R.D.: Seizures and other neurologic seque-
lae of bacterial meningitis in children. The
New England Journal oj Medicine, 323:1651-
1656, 1990.
11. JACOBUS e.H., H OLICK M.F., SHAO Q., CHEN
T. e. , H OLM LA., KOLODNY J.M., FULEIHAN
G.E.H., SEELY E.W.: Hypervitaminosis D asso-
ciated with drinking milk. The New England
Journal oj Medicine, 326:1173- 1177,1992.
12. GWTRTSMAN H.E., KAYE W.H., OBARZANEK E.,
GEORGE D.T., J1MERSON D.e., EBERT M.H.:
Mi SURE DJ SINTESI NUMERI CA
Decreased calorie intake in normal -weight pa-
tients with bulimia: comparison with female
volunteers. American Journal oj Clinica l Nu-
trition, 49:86-92, 1989.
13. UNITED N ATIONS CHILDREN'S FUND: The state
oj the world's children 1994. Oxford Univer-
sity Press, N ew York.
14. WAGENKNECHT L.E., BURKE G.L., PERKINS
L.L., H ALEY N .J., FRl EOMAN G.D.: Misclassifi-
cation of smoking status in the CARDIA
Study: a comparison of self- report with serum
cotinine levels. American Journal oj Public
Health, 82:33-36, 1992.
15. N ATIONAL CENTER FOR H EALTH STATlSTlCS,
FULWOOD R., JOHNSON e.L., BRYNER J.D.,
GUNTER E.W., MCGRATH e.R.: Hematal ogical
and nutritional biochemistry reference data for
persons 6 months- 74 years of age: United Sta-
tes, 1976- 1980. Vita l and H ealth Statistics, Se-
ries Il, Number 232, December 1982.
16. KAISERMAN M.]. , RICKERT W.S.: Carcinogens
in tabacco smoke: benzo[a]pyrene from Cana-
dian cigarettes and cigarette tobacco. American
Journal oj Public Health, 82:1023-1026, 1992.
17. MILLER P.F., SHEPS D.5., BRAGDON E.E.,
H ERBST M.e., DAL TON J.L., HI NDERLlTER A.L.,
KOCH G.G. , MAIXNER W., EKELUND L.G.:
Aging and pain p erception in ischemic heart
disease. American Heart Journal, 120:22-30,
1990.
18. LEVJTON A., FENTON T. , KUBAN K.e.K., PA-
GANO M. : Labor and delivery characteri stics
and the risk of germinaI matrix hemorrhage
in low birth weight infants. Journal oj Child
Neurology, 6:35-40, 1991.
Tassi e standardizzazione
Le stati stiche demografiche e le statisti che
di vita sono rappresentate da numeri utiliz-
zati per caratteri zzare o descri vere una popo-
lazione. Le statistiche demografiche inclu-
dono informazioni quali la dimensione dell a
popolazione e la sua composizione per sesso,
razza ed et. Le statistiche di vita descrivono
la vita dell a popolazione: nascite, morti, ma-
trimoni, divorzi e frequenza di malattie. I ri -
cercatori e gli operatori di sanit pubblica uti -
lizzano questi due tipi di dati per descrivere
lo stato di salute di una popolazione, indivi-
duare tendenze e fare previsioni, pianificare
servizi necessari quali gli all oggi e l' assistenza
sanI tana.
Le stati sti che di vita sono utili zzate, inoltre,
per effettuare confronti tra gruppi. Potremmo
voler confrontare, ad esempi o, il numero di
decessi negli Stati Uniti nel 1991 con quelli
nel 1992. Se consideriamo solo il numero
grezzo di decessi per ciascun anno - 2.169.51 8
nel 1991 e 2.1 75.613 nel 1992 - sarebbe diffi -
cile interpretare l'aumento osservato (1).
possibile che il minor numero di decessi nel
1991 sia sempli cememe dovuto alla popola-
zione totale che era minore in quell' anno.
D'altro canto, anche possibile che nel 1992
si sia veri ficata un'epidemi a che ha causato
numerosi morti. In che modo possibile sta-
bilire che cosa sia accaduto realmente?
4.1 TASSI
Per dare maggior ignificato ai confronti, i
tassi possono essere utilizzati al posto dei nu-
4
meri grezzi. Un tasso definito come il nu-
mero di casi di un parti colare evento che si
verifi ca in un determinato periodo di tempo
diviso per la popolazione totale durante quel
periodo. Potremmo essere interessati , ad
esempi o, al numero di infezioni auri colari in
un gruppo di studenti di scuola elementare
durante un periodo di due mesi. Sebbene ven-
gano uti lizzati con lo stesso significato, i ter-
mini ' tasso' e ' proporzione' non sono sino-
nimi. Una proporzione un rapporto in cui
tutti i soggetti inclusi nel numeratore devono
essere inclusi anche nel denominatore, come
la frazione di donne oltre i 60 anni che ha
avuto un attacco cardiaco. Essa non ha unit
di misura. Un tasso ha un' unit di misura ed
intrinsecamente dipendente da una misura
di tempo.
Invece di confrontare il numero totale di
decessi nel 1991 e nel 1992, possiamo con-
frontare il tasso di mortalit in quegli anni.
Un tasso di mortalit il numero di decessi
che si verifica in un determinato periodo di
tempo, ad esempio un anno solare, diviso per
la popolazione total e a rischio durante quel
periodo. Questo tasso spesso espresso in
termini di decessi per 1.000 o per 100.000 abi-
tanti; il moltiplicatore di un tasso - sia esso
1.000, 10.000 o 100.000 - di solito scel to per
ridurre il numero di decimali. Se avessimo
calcolato il tasso di mortalit per gli Stati
Uniti, avremmo trovato che il tasso di morta-
lit nel 1991 era di 860,3 per 100. 000 abitanti,
e nel 1992 di 852,9 per 100. 000 abitanti (1).
Sebbene nel 1992 si sia verificato un numero
54
maggiore di decessi, il tasso di mortalit in
realt leggermente diminuito.
Un esempio di tasso di mortalit comune-
mente utilizzato il tasso di mortalit infan-
tile. Questa quantit definita come il nu-
mero di decessi durante un anno solare di
neonati al di sotto di un anno di vita diviso
per il numero totale di nati vivi durante
quello tesso anno. Il tasso di mortalit infan-
tile uno dei pi importanti indicatori dello
stato di salute di una popolazione; nono-
stante il numero di nascite vari considerevol-
mente da Paese a Paese, utile confrontare i
tassi di mortalit infantile. I tassi di mortalit
infantile per alcuni Paesi sono illustrati in Ta-
bella 4.1 (2).
I tassi di mortalit considerati fino a questo
momento sono tassi grezzi. Un tasso grezzo
un singolo numero calcolato come misura
sintetica per un'intera popolazione; esso non
considera le differenze dovute all'et, al sesso,
alla razza e ad altre caratteristi che. La Figura
4.1 mostra l'andamento dei tassi grezzi di ma-
trimonio e divorzio negli Stati Uniti negli
anni 1950-1994 (3); il tasso grezzo espresso
come numero di eventi per 1.000 abitanti .
Fattori come l' et, il sesso e la razza pos-
sono avere un effetto significat ivo sui tassi
che descrivono le statistiche di vita. Conside-
riamo i tassi di mortalit negli Stati Uniti ri-
portati in Tabella 4.2 (1): oltre al tasso grezzo
di mortalit nell'anno 1992, la tabella illustra
il tasso di mortalit nei vari sottogruppi di
soggetti negli Stati Uniti. Le donne tendono a
TASS I E STANDARDI ZZAZIONE
Tabella 4.1 Tassi di mortalit infantile in alcuni
Paesi, 1992
Paese
Tasso di mortalit
per 1.000 nati vivi
Arabia Saudita 35
Argentina 22
Australia 7
Brasile 54
Canada 7
Cina 35
Egitto 43
Etiopia 123
Federazione Russa 28
Filippine 46
Finlandia 6
Francia 7
Giappone 4
Grecia 8
India 83
Israele 9
Ital ia 8
Messico 28
Polonia 14
Regno Unito 7
Spagna 8
Stati Uniti 9
Svezia 6
Venezuela 20
presentare tassi di mortalit inferiori rispetto
agli uomini (perch?), gli asiatici e gli abitanti
delle isole del Pacifico tassi di mortalit infe-
riori a quelli di altre razze e, dopo i 5 anni, il
tasso di mortalit aumenta con l' et. I tassi
1.5 ....------------------------,
Divorzi '" '" '" '"
..... _ .... ___ - .... -tt'
1960 1970
---
1980 1990
Figura 4.1 Andamento dci tassi
grezzi relativi a matrimoni c divorzi,
2000 Stati Uniti, 1950-1994
TASSf 55
Tabella 4.2 Numero totale di decessi e tassi di mortalit per et, razza e sesso, Stati Uniti, 1992
T li tte le razze Razza bi anca
Entrambi Entrambi
Et I seSSI Maschi Femmine i sessi Maschi Femmine
Numero
Tutte le et ...... 2.175.613 1.122.336 1.053.277 1.873.781 956.957 916.824
< l anno .......... 34.628 19.545 15.083 22.164 12.625 9.539
1-4 anni ........... 6.764 3.809 2.955 4.685 2.690 1.995
5-9 anni ........... 3.739 2.231 1.508 2.690 1.605 1.085
10-14 ann i ....... 4.454 2.849 1.605 3.299 2.093 1.206
15-19 anni ....... 14.411 10.747 3.664 10.308 7.440 2.888
20-24 anni ...... . 20.137 15.460 4.677 14.033 10.696 3.337
25-29 anni ....... 24.314 18.032 6.282 17.051 12.825 4.226
30-34 anni ....... 34.167 24.863 9.304 24.450 18.210 6.240
35-39 anni ....... 42.089 29.641 12.448 30.127 21.690 8.437
40-44 anni ....... 49.201 33.354 15.847 35.886 24.726 11.160
45-49 anni ....... 56.533 36.622 19.911 43.451 28.343 15.108
50-54 anni ....... 68.497 42.649 25.848 53.689 33.681 20.008
55-59 anni ....... 94.582 58.083 36.499 75.750 47.042 28.708
60-64 anni ....... 146.409 88.797 57.612 122.213 74.994 47.219
65-69 anni ....... 211.071 124.228 86.843 180.788 107.427 73.361
70-74 ann i ....... 266.845 149.937 11 6.908 234.117 132.273 101.844
75-79 anni ....... 301.736 158.257 143.479 270.238 142.422 127.816
80-84 anni ....... 308.116 141.640 166.476 279.507 128.484 151.023
~ 85 an ni .......... 487.446 161.236 326.210 448.984 147.419 301.565
Non riportata. 474 356 118 351 272 79
T asso di mortalit
Tutte le et ...... 852,9 901,6 806,5 880,0 917,2 844,3
< 1 anno .......... 865,7 956,6 770,8 701,8 780,9 618,7
1-4 anni ........... 43,6 48,0 39,0 38,1 42,6 33,3
5-9 anni ........... 20,4 23,7 16,8 18,3 21,3 15,2
10-14 anni ....... 24,6 30,7 18,2 22,8 28,2 17,2
15-19 anni ....... 84,3 122,4 44,0 75,6 106,0 43,3
20-24 anni ....... 105,7 159,4 50,1 91,0 135,4 44,3
25-29 ann i ....... 120,5 178,0 62,5 103,2 153,3 51,9
30-34 anni .. ..... 153,5 224,0 83,3 132,4 195,8 68,1
35-39 anni .......
1 ~ 9 5 282,8 117,2 171,2 245,5 96,3
40-44 anni ....... 261,6 359,1 166,5 226,3 312,2 140,6
45-49 anni ....... 368,0 485,7 254,6 328,6 432,5 226,5
50-54 anni ....... 568,2 728,1 417,1 518,6 663,4 379,3
55-59 anni ....... 902,1 1.156,5 668,2 835,1 1.071,5 613,4
60-64 anni ....... 1.402,2 1.815,2 1.038,2 1.334,9 1.729,7 979,7
65-69 anni ....... 2.114,8 2.775,4 1.577,7 2.042,6 2.688,5 1.511,0
70-74 anni ....... 3.146,8 4.109,3 2.419,9 3.073,0 4.012,4 2.356,4
75-79 ann i ....... 4.705,9 6.202,4 3.716,8 4.662,2 6. 148,8 3.672,7
80-84 anni ...... . 7.429, 1 9.726,0 6.1 86,1 7.391,0 9.700,5 6.146,1
~ 85 anni ......... 14.972,9 17.740,4 13.901,0 15.104,2 17.956,2 14.015,9
(continua)
56
Tabell a 4.2 (Continua)
Razza nera
Entrambi
Et i sessi Maschi Femmine
Tutte le et.. 269.219 146.630
< 1 anno ..... .
1-4 anni ...... .
5-9 anni ...... .
10-14 anni ...
15- 19 anni .. .
20-24 anni .. .
25-29 anni .. .
30-34 anni .. .
35-39 anni .. .
40-44 anni .. .
45-49 anni .. .
50-54 anni .. .
55-59 anni .. .
II.348
1.799
894
982
3. 583
5.399
6.559
8.836
10.965
12.213
Il.753
13.252
16.727
6.298
965
529
633
2.923
4.246
4.695
6.083
7.308
7.949
7.493
8.021
9.824
60-64 anni ... 21.669 12.380
65-69 anni... 27.011 14.946
70-74 anni .. ,
75-79 anni .. .
80-84 anni .. .
2: 85 anni .... ..
on nportata
29.124 15.580
27.875 13.782
25.260 11.253
33.856 I I. 646
114 76
122.589
5.050
834
365
349
660
1.153
1.864
2.753
3.657
4.264
4.260
5.231
6.903
9.289
12.065
13.544
14.093
14.007
22.210
38
TASSI E STANDARDIZZAZI ONE
Indiani ameri cani Asiatici o abito isole del Pacifico
------------------
Entrambi Entrambi
i sessi Maschi Femmine i sessi Maschi Femmine
Numero
8.953 5.181
393 221
127 67
54 33
61 48
206 155
279 212
293 228
378 253
403 272
366 246
431 280
487 308
668 392
719 408
818 454
849
799
721
900
457
422
354
370
3.772
172
60
21
13
51
67
65
125
131
120
151
179
276
311
364
392
377
367
530
23.660 13.568
723 401
153 87
101 64
112 75
314 229
426 306
411 284
503 317
594 371
736 433
898 506
1.069 639
1.437 825
1. 808 1.015
2.454 1.401
2.755
2.824
2.628
3.706
8
1.627
1.631
1.549
1.801
7
10.092
322
66
37
37
85
120
127
186
223
303
392
430
612
793
1.053
1.128
1.193
1.079
1.905
Tasso di mortalit
Tutte le et .. 850,5 977,5
< 1 anno ...... 1.786,0 1.957,9
1-4 anni ....... 73,2 77,6
5-9 anni ....... 32,1 37,5
10-14 anni .. , 35,3 44,9
15-19 anni.. . 135,5 218,4
20-24 anni .. , 200,7 321,0
25-29 anni... 241,3 361,7
30-34 anni ... 316,0 464,4
35-39 anni ... 427,0 609,6
40-44 anni ... 570,7 803,2
45-49 anni ... 762,4 1.065,7
50-54 anni... 1.054,9 1.419,3
55-59 anni... 1.579,0 2.1 03,6
60-64 anni ... 2.204,1 2.924,3
65-69 anni ... 3.075,9 4.029, 1
70-74 anni... 4.278,6 5.724,9
75-79 anni.. . 5.596,3 7.502,0
80-84 anni.. . 8.400,8 10.969,8
2: 85 anni ...... 14.278,616.717,1
736,2
1.609,7
68,7
26,6
25,4
50,5
84,3
131,3
185,2
267,1
370,7
508,0
757,0
1.165,4
1.659,5
2.378,8
3.315,3
4.482,7
7.070,5
13.264,1
41 7,7 487,7
939,2 1.057,5
72,0 74,7
25,1 30,1
28,3 44,0
110,8 163,7
149,7 218,0
160,2 245,2
203,2 275,3
240,8 334,0
257,3 355,9
391,5 522,4
577,6 759,7
997,2 1.229,3
1.303,7 1.574,4
1.819,9 2.219,3
2.541,5 3.145,9
3.434,9 4.410,5
5.133,1 6.753,1
7.726,0 9.381,3
348,9
821,2
69,3
19,8
::.
55,9
75,2
72,4
132,8
152,4
164,1
267,3
408,9
786,3
1.063,8
1.486,3
2.076,5
2.753,2
4.168,6
6.878, 7
283,1 332,7
439,8 477,7
26,9 29,9
15,4 19,1
16,9 22,2
49,7 70,6
57,4 80,8
53,8 75,4
61,4 79,9
77,6 101,5
110,4 139,6
184,9 219,6
295,2 366,5
500,4 620,6
729,6 948,4
1.189,4 1.576,7
1.872,3 2.486,2
3.001,3 3.882,7
5.156,3 6.461,7
10.841,3 12.628,8
235,8
400,2
23,8
II,5
Il,3
27,6
33,1
32,8
44,1
55,8
85,0
153,5
229,0
396,8
563,3
896,4
1.380,5
2.290,5
3.997,0
9.561,8
STANDARDIZZAZIONE DEI TASSI
calcolati in gruppi relativamente piccoli, ben
definiti, sono chiamati tassi specifici. I tassi di
mortalit calcolati per singole fasce di et, ad
esempio, sono noti come tassi di mortalit
specifici per et.
4.2 STANDARDIZZAZIONE DEI TASSI
La National Health Interview Survey
un'indagine condotta sulla popolazione gene-
rale, non istituzionalizzata, degli Stati Uniti.
Essa ha fornito i dati di seguito riportati, che
mostrano i casi di alterazione delle capacit
uditive dovuti ad infortuni riportati da sog-
getti di et maggiore o uguale a 17 anni negli
anni 1980-1981 (4).
Posizione lavorativa Popolazione
Impiegati 98.917
Disoccupati 7.462
Non nella for za lavoro 56.778
Totale 163.157
Le categorie della posi zione lavorativa sono
cos definite dal National Center for Health
Statistics: ' impiegati' sono soggetti che lavo-
ravano durante le due settimane dello studio;
'disoccupati ' sono soggetti alla ricerca di un
lavoro o licenziati; soggetti classificati come
' non nella forza lavoro' includono le casalin-
ghe, i volontari ed i pensionati.
In base ai dati grezzi, il tasso di alterazione
delle capacit uditive dovu to ad infortuni
sembra variare in relazic;me alla posizione la-
vorativa, Il tasso tra gli impiegati 5,58 per
Impiegati
57
1.000 soggjll:ti, mentre il tasso tra coloro che
non fanno garte della forza lavoro 6,48 per
1.000 soggeUti. Tra questi due gruppi, i sog-
getti che n@li fanno parte della forza lavoro
sembrano dssere a maggior rischi o di altera-
zione delle' capacit uditive dovuta ad infor-
tuni rispeno a quelli impiegati, una conclu-
sione valida?
Un problema che spesso sorge nel con-
fronto di tassi grezzi che le popolazioni
possono differire in relazione ad importanti
caratteristiche come l' et ed il sesso, Se consi-
deriamo, ad esempio, due popolazioni di di-
verse aree geografiche - una composta intera-
mente da maschi e l'altra interamente da fem-
mine - non saremo mai sicuri se una diffe-
renza nei relativi tassi di mortalit sia dovuta
Alterazioni capacit uditive T asso per 1.000
552 5,58
27 3,62
368 6,48
947 5,80
alla posizione geografica o ad un qualche ef-
fetto legato al sesso. In questa situazione, il
sesso definito come variabile di confondi-
mento. Poich esso associato sia all 'area
geografica che al tasso di mortalit, nasconde
la reale relazione tra questi fattori.
Per rispondere alla domanda relativa ai dati
sulla alterazione delle capacit uditive, biso-
gnerebbe verificare se le due popolazioni in
esame hanno strutture simili, Dividiamo, per-
tanto, ciascuna popolazione per gruppi di et
(tabella di seguito riportata).
Non nella forza lavoro
Et Popolazione Percentuale Popolazione Percentuale
17-44 67.987 68,7 20.760 36,6
45-64 27.592 27,9 15.108 26,6
2: 65 3.338 3,4 20.910 36,8
Totale 98.91 7 100,0 56.778 100,0
58
Come possiamo vedere dalle frequenze re-
lative, i due gruppi differiscono nella compo-
sizione per et; i soggetti che non fanno parte
della forza lavoro sono considerevolmente
pi anziani di quelli impiegati.
Consideriamo adesso i tassi di alterazione
delle capacit uditive specifici per et nella
popolazione considerata nel suo insieme.
Et Popolazione
A1terazioru Tasso
capacit uditive per 1.000
17-44 94.930 441 4,65
45-64 43.857 308 7,02
65 24.370 198 8,12
Totale 163.157 947 5,80
Si noti che il tasso grezzo di alterazione delle
capacit uditive dovuto ad infortuni nell'in-
tera popolazione in realt una media ponde-
rata dei tassi specifici per et; in particolare:
(94.930)(4,65) + (43.857)(7,02) + (24.370)(8,12)
5,80 = .
163.157
I tassi specifici per et dipendono dal nu-
mero di soggetti in ciascun gruppo. Si noti
anche che i tassi di alterazione aumentano
con l'et. L'et una variabile di confondi-
mento nella relazione tra alterazione delle ca-
pacit uditive e posizione lavorativa; essa
associata in modo indipendente con entram-
be queste quantit. Pertanto, non possiamo
essere sicuri se il tasso pi elevato di altera-
zione delle capacit uditive tra i soggetti che
non fanno parte della forza lavoro sia il risul-
tato di una caratteristica intrinseca di questo
gruppo o se sia semplicemente effetto dell' et.
Per effettuare un confronto pi accurato tra
i due gruppi, dobbiamo considerare i rispet-
tivi tassi di alterazione delle capacit uditive
specifici per et piuttosto che i tassi grezzI
globali (tabella di seguito riportata).
Impiegati
Et
Popolazione
Alterazioni Tasso
capacit uditive per 1.000
17-44 67.987 346 5,09
45-64 27.592 179 6,49
65 3.338 27 8,09
Totale 98.917 552 5,58
TASSi E STANDARDiZZAZiONE
per difficile giungere ad una conclu-
sione definitiva in base a queste due serie di
tassi. Trai soggetti oltre i 45 anni, il tasso di
alterazione delle capacit uditive dovuto ad
infortuni pi elevato per coloro che non
fanno parte della forza lavoro che per gli im-
piegati; tra i soggetti di et compresa tra 17 e
44 anni, per, il tasso molto pi basso per
coloro che non fanno parte della forza lavoro.
I! confronto tra i tassi , grezzi di alterazione
delle capacit uditive dei due gruppi fornisce
un quadro incompleto della situazione reale.
Sebbene il calcolo dei tassi specifici dei
gruppi fornisca un confronto pi accurato tra
le popolazioni rispetto al calcolo dei tassi
grezzi, possiamo, in presenza di numerosi
gruppi, trovarci di fronte ad un numero ec-
cessivamente elevato di tassi da confrontare.
Sarebbe conveniente poter sintetizzare un'in-
tera situazione con un unico numero calco-
lato per ciascun gruppo, un numero che cor-
regga per le differenze nell a composizione.
Nelle applicazioni pratiche, ci sono due modi
per farlo. Il primo noto come metodo di-
retto di standardizzazione; il secondo chia-
mato metodo indiretto di standardizzazione.
Entrambi i metodi si concentrano sulle due
componenti che rientrano nel calcolo di un
tasso grezzo - la composizione della popola-
zione ed i suoi tassi gruppo-specifici - e ten-
tano di superare il problema delle variabili di
confondimento mantenendo costante una di
queste componenti nelle popolazioni. Indici,
come l'indice dei prezzi al consumo, hannc
un obiettivo simile.
4.2.1 Metodo di retto di st andardizzazione
Il metodo diretto per standardizzare le dif-
ferenze tra le popolazioni implica il calcolo
dei tassi complessivi che risulterebbero se, in-
Non nell a forza lavoro
Popolazione
Alterazioni Tasso
capacit uditive per 1.000
20.760 80 3,85
15.108 117 7,74
20.910 171 8,18
56.778 368 6,48
STANDARDI ZZAZIONE DEI TASSI
vece di avere distribuzioni diverse, tutte le
popolazioni a confronto avessero la stessa
composizione standard. Il primo passo nel-
l'applicazione di questa tecnica la scelta della
distribuzione standard. Per l'esempio della
alterazione delle capacit uditive, utili zziamo
i dati relativi all a popolazione totale intervi-
stata nella National Health Interview Survey.
Calcoliamo, poi, i casi di alterazione dell e ca-
pacit uditive che si sarebbero verificati nei
due gruppi con diversa posizione lavorativa
- gli impiegati e i soggetti che non fanno par-
te della forza lavoro - assumendo che ciascun
gruppo abbia la stessa distribuzione standard
di popolazione pur conservando i propri tassi
di alterazione delle capacit uditi ve specifici
per et (tabella di segui to riportata).
59
Questi tassi standardizzati per et sono i
tassi di alterazione delle capacit uditive che
si verificherebbero se il gruppo di impiegati e
quello dei soggetti non nella forza lavoro
avessero la stessa distribuzione per et della
popolazione totale esaminata. Dopo aver
controllato l'effetto dell' et, il tasso standar-
dizzato di alterazione delle capacit uditive
pi alto per gli impiegati rispetto a quello di
coloro che non fanno parte dell a forza lavoro.
Questo risultato l' opposto di quello otte-
nuto in precedenza, quando cio abbiamo
esaminato i dati grezzi; ci implica che i tassi
grezzi sono influenzati dall' et.
Si noti che la scelta di una differente distri-
buzione standard di et - la colonna (1) nella
tabella precedente - porterebbe a tassi stan-
Totale Impiegati Non nella forza lavoro
(1) (2)
Et Popolazione T asso per 1.000
17-44 94.930 5,09
45-64 43.857 6,49
65 24.370 8,09
Totale 163.157
Il numero atteso di alterazioni dell e capa-
cit uditive per gli impiegati calcolato mol-
tiplicando la colonna (1) per la colonna (2) e
dividendo per 1.000; il numero atteso di alte-
razioni delle capacit uditive per coloro che
non fanno parte dell a forza lavoro ottenuto
moltiplicando la colonna (1) per la colonna
(4) e dividendo per 1.000.
Il tasso di alterazione delle capacit uditive
standardizzato per et per ciascun gruppo ,
quindi, calcolato dividendo il numero atteso
di alterazioni dell e capaci t uditi ve dovute ad
infortuni per la popolazione standard totale:
Impiegati:
965,0
= 5,91 per 1.000
163.157
Non nella for za lavoro:
904,3
= 5,54 per 1.000
163.157
(3) (4) (5)
Alterazioni T asso per 1.000 Alterazioni
attese attese
483,2 3,85 365,5
284,6 7,74 339,5
197,2 8,18 199,3
965,0 904,3
dardizzati di alterazione delle capacit uditive
diversi . Tuttavia ci non importante poich
un tasso standardizzato non ha significato di
per s. Esso semplicemente un artificio cal-
colato in base ad un'ipotetica distribuzione
standard e non riflette, a differenza del tasso
grezzo o specifico, il tasso reale di alcuna po-
polazione. I tassi standardizzati, pertanto,
hanno significato solo nel confronto tra due o
pi gruppi, ed stato dimostrato che le ten-
denze all'interno dei gruppi non sono in ge-
nere influenzate dall a scel ta di un determi-
nato standard (5). In generale, la composi-
zione dell a popolazione standard non do-
vrebbe essere molto diversa da quella dei
gruppi che si vogliono confrontare. Se sce-
gliessimo una distribuzione standard di et
diversa, ma ragionevole - ad esempio la po-
polazione degli Stati Uniti nel 1980 - l'am-
piezza della differenza tra i tassi standardiz-
zati di alterazione dell e capacit uditive degli
60
impiegati e di coloro che non fanno parte
della forza lavoro non dovrebbe variare di
molto anche se i singoli tassi fossero diversi;
gli impiegati dovrebbero avere ancora un
tasso standardizzato di alterazione delle ca-
pacit uditive leggermente pi elevato.
4.2.2 Metodo indiretto di standardizzazione
Il metodo indiretto per standardizzare le
differenze nella composizione richiede l' uti-
lizzo di una serie di tassi standard di altera-
zione delle capacit uditive specifici per et e
la reale composizione per et di ciascun
gruppo. Utilizziamo nuovamente la popola-
zione totale esaminata come standard. Questa
volta, per, calcoliamo il numero di casi di al-
terazione delle capacit uditive che si sarebbe
verificato nei due gruppi se ciascuno avesse
assunto i tassi di alterazione delle capacit
uditive specifici per et della popolazione to-
tale, pur conservando la propria distribu-
zione per et (tabella di seguito riportata).
Totale Impi egati
(1) (2)
TASSI E STA NDARDIZZAZIONE
Impiegati:
552
--- = 1,03
536,9
= 103%
Non nella forza lavoro:
368
--=0,99
372,4
= 99%
Questi rapporti standardizzati di morbo-
sit indicano che il gruppo di impiegati ha un
tasso di alterazione delle capacit uditive su-
periore del 3% rispetto alla popolazione
complessiva, mentre il gruppo di coloro che
non fanno parte della forza lavoro ha un tasso
di alterazione delle capacit uditive inferiore
dell'l % rispetto al tasso della popolazione
totale. Si ricordi che la popolazione totale
esaminata include anche il gruppo di disoccu-
patI.
Non nella forza lavoro
(3) (4) (5)
Et T asso per 1.000 Popolazione Alterazioni Popolazione Alterazioni
17-44 4,65 67.987
45-64 7,02 27.592
65 8 12 3.338
Totale 5,80 98.917
Il numero atteso di alterazioni delle capa-
cit uditive per gli impiegati calcolato mol-
tiplicando la colonna (1) per la colonna (2) e
dividendo per 1.000; il numero atteso di alte-
razioni delle capacit uditive per coloro che
non fanno parte della forza lavoro ottenuto
moltiplicando la colonna (1) per la colonna
(4) e dividendo per 1.000.
Dividiamo poi il numero totale osservato di
alterazioni delle capacit uditive in ciascun
gruppo per il numero totale atteso di altera-
zioni. Il risultato noto come rapporto stan-
dardizzato di morbosit. Se i dati si riferi-
scono ai decessi piuttosto che alle alterazioni,
la divisione del numero di decessi osservato
per il numero atteso ci dar il rapporto stan-
dardizzato di mortalit.
attese attese
316,1 20.760 96,5
193,7 15.108 106,1
271 20.910 1698
536,9 56.778 372,4
L'applicazione del metodo indiretto spesso
si conclude con un confronto dei rapporti
standardizzati. Possiamo, per, continuare e
calcolare i tassi reali di alterazione delle capa-
cit uditive standardizzati per et di ciascun
gruppo. Questi tassi sono ottenuti moltipli-
cando il tasso grezzo di alterazione delle capa-
cit uditive della popolazione totale esaminata
per gli appropriati rapporti standardizzati.
Impiegati:
5,80
--x 1,03 = 5,97 per 1.000
1.000
Non nella forza lavoro:
5,80
-- x 0,99 = 5,74 per 1.000
1.000
STANDARDIZZAZIONE DEI TASSI
Eliminando l'effetto dell'et, il gruppo di
impiegati mostra ancora un tasso standardiz-
zato di alterazione delle capacit udi tive leg-
germente pi elevato rispetto a quello di co-
loro che non fanno parte della forza lavoro.
Sebbene i tassi siano diversi, la conclusione
la stessa di quando abbiamo applicato il me-
todo diretto di standardi zzazione.
4.2.3 Utilizzo dei tassi standardizzati
I tassi standardizzati, in particolare i tassi
standardi zzati per et, si incontrano di fre-
quente nello studi o delle statistiche di vita.
Un esempi o interessante riguarda i dati di tre
diversi studi che esaminano la relazione tra
tasso di mortalit e fumo (6). Ogni tudi o
confronta tre gruppi di maschi: non fumatori,
fumatori di sigarette e fumatori di sigari e
pipa. I tassi grezzi di mortalit per 1.000 per-
sone-anni sono di seguito riportati. Questi
61
o pipa dovrebbero smettere di fumare o, al-
meno, fumare le sigarette. Si ricordi, comun-
que, che questi sono studi osservazionali . In
uno studio osservazionale, l' esaminatore non
esercita alcun controllo sull ' assegnazione di
una terapia o dell'esposizione ad un determi-
nato agente (gruppo dei fumatori, nell'esem-
pio ci tato). Sono, invece, gli stessi soggetti
dello studio a determinare il proprio stato di
esposizione e l'esaminatore sempli cemente
osserva i risultati. pos ibil e che i gruppi di f-
feriscano notevolmente in altre caratteristi-
che.
Se consideriamo le composizioni per et dei
di versi gruppi di soggetti, rileviamo che esse
differiscono considerevolmente. Sono ripor-
tate nella tabell a a pi di pagina le et medie
dei tre gruppi in ciascuno dei t re studi .
In generale, i fumatori di sigari e pipa ten-
dono ad essere pi anziani dei non fumatori e
dei fumatori di sigarette.
GI'UPPO
Tasso di mortalit per 1.000 persone-anni
Canada
Non fumatori 20,2
Fumatori di sigarette 20,5
Fumatori di sigari /pipa 35,5
taSSI sono tati calcolati dividendo il numero
totale di decessi in ciascun gruppo per le cor-
rispondenti persone-anni di esposizione e poi
moltipli cando per 1.000. Una persona-anno
l' unit di tempo definita come un soggetto
seguito per il periodo di un anno. Se doves-
simo segui re 10 oggetti diversi per un anno
ciascuno, avremmo un totale di 10 persone-
anni; se seguissimo cir:que soggetti per due
anni ciascuno, avremmo 10 persone-anni .
Gli studi condotti in Canada, Gran Breta-
gna e Stati Uniti embrano tutti forni re lo
stesso messaggio: i soggetti che fumano sigari
Gmppo
Canada
N on fu matori 54,9
Fumatori di sigarette 50,5
Fumatori di sigari/pipa 65,9
GI'an Bretagna Stati Uniti
11 ,3 13,5
14,1 13,5
20,7 17,4
A causa delle differenze di et, i tassi di
mortalit sono stati standardizzati dividendo
i soggetti in tre diverse classi; le categori e di
et sono state scelte in modo che ciascuna
classe comprenda approssimativamente lo
stesso numero di soggetti. Se il gruppo di non
fumatori scelto come distribuzione stan-
dard di et, i corrispondenti tassi standardi z-
zati di mortalit calcolati utili zzando il me-
todo diretto di standardi zzazione sono ripor-
tati nella tabell a a pagi na 62. (Si noti che le
informazioni forni te non permettono di cal-
colare direttamente questi tassi).
Et media (a nni)
Gran Bretagna Stati Uniti
49,1 57,0
49,8 53,2
55,7 59,7
62 TASSI E STANDARDIZZAZIONE
Gruppo
Tasso di mortalit per 1.000 persone-anni
Canada
Non fumatori 20,2
Fumatori di sigarette 28,3
Fumatori di sigari /pipa 21,2
I tassi standardizzati dei non fumatori sono
uguali ai tassi grezzi; ci era da prevedere
poich questo gruppo stato uti li zzato come
distribuzione standard. Si noti che il fumo di
sigaretta sembra essere molto pi pericoloso
che in precedenza. Inoltre, i tassi standardiz-
zati di mortalit dei fumatori di sigari e pipa
Gran Bretagna Stati Uniti
11,3 13,5
12,8 17,7
12,0 14,2
sono considerevolmente pi bassi dei tassi
grezzi. Quindi, dopo aver standardizzato per
le differenze di et, siamo pervenuti ad un'in-
terpretazione molto div'ersa dei dati.
Come ulteriore esempio dei tassi standar-
di zzati che si presentano nello studio delle
statistiche di vita, la Figura 4.2 illustra l' anda-
Revisioni della Classificazione Internazionale dell e Malattie
Ci
rJ
:B
'" o
o
o
o
o
-....
<lJ
o.
g
'" f-<
400
300
200
100.0
90.0
80.0
70.0
60.0
50.0
40.0
30.0
20.0
10.0
9.0
8.0
7.0
6.0
5.0
4.0
3.0
2.0
1.0
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0. 1
1950
Sesta Settima Ottava Nona
2
....... ....... .
--_0
----...
CD .-
----.. ...,."
CD
.. / .. '\.
' ''''; '\.,,,
J
. .
'-
1955 1960 1965

..................... .. .......... . .. ............................. . - ........ .
----,
.-...... ... - ... ",
-_-.:..
1970 1975

'--...,-::- ----
........... ...
-....
1980 1985 1990
CD Malatt ie ca rdi ache
CD Neoplas ie mali gne,
comprese le Ilcoplasie
dci tessuti linfati ci
ed ematopoieti ci
(}) Malanie
cerebrovascolari
0
Pncum?patic croni che
ostruttl ve
Ci)
Incidenti
0
Polmonite ed influenza
(2)
Diabete melli to

Infezione da virus
dell 'i 111111UI1odcficicnza
ul'nana
CV
Suicidi o
@ Omicidio e pena capitale
@ croni ca
e CirrOSI
@
Nefrite, sindrome
nefrosica e neffosi
@ Scniccmi a
@ Ateroscl erosi
1995
Figura 4.2 Tassi di mortalit standardi zzati per et per 14 delle 15 principali cause di morte, Stati Uniti, 1950-1992
STANDARDI ZZA ZIONE DEI TA SSI
mento dei tassi di mortalit standardi zzati
per et di 14 dell e 15 principali cause di morte
negli Stati Uniti (1). Le barre verti cali rappre-
sentano le variazioni nella classificazione
delle malattie. I tassi standardi zzati sono stati
calcolati con il metodo diretto, utili zzando la
popolazione degli Stati Uniti nel 1940 come
60
55
........
........... --.--. ......- ............ --.
50
45
c
rl
40
:.o
'" o
35
o
o
o
30 o
- ------.---.
......
...
<U
25 Cl.
.
20
<U
U
"
.. . , ................. _ ~ .. ..
.- ._ .............. .
" Q
15
IO
5
O
63
distribuzione standard. Sebbene la magglOr
parte dei tassi standardi zzati siano diminuiti,
vi sono casi in cui essi tendono ad aumentare,
come quell o drammatico relativo all'infe-
zione con il virus dell'i mmunodeficienza
umana. Le Figure 4.3 (a) e (b) illustrano l'au-
mento del tasso di mortali t dovuto all 'HIV
-'-'.
' .
-------
1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992
t:
rl
:.o
'" o
o
o
o
o
'"
'"
"
u
"
Q
30
25
20
15
IO
5
Anno
(a) Uomini
.....
.......... . ................... ...... .... .. ... ... ..... ...... . .
._------ -- ---------- .... .---.
- .--.--'
1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992
Anno
(b) Donne
Figura 4.3 Tassi di mortalit per le principali cause di morte per uomini e donne di et compresa tra 25 e 44 anni,
Stati Uniti, 1982- 1992
64 TASSI E STANDARDIZZAZIONE
Tabell a 4.3 Numero totale di decessi, tassi di mortalit grezzi e standardizzati per et disaggregati per
razza e sesso, Stati Uniti, 1940, 1950, 1960, 1970 e 1975-1992
Tutte le razze Razza bianca
Entrambi Entrambi
Anno i sessi Maschi Femmine i sessi Maschi Femmine
Numero
1992 .. ........... ... 2.175.613 1.122.336 1.053.277 1.873.781 956.957 916.824
1991 ................ 2.169.518 1.121.665 1.047.853 1.868.904 956.497 912.407
1990 ............... . 2.148.463 1.113.417 1.035.046 1.853.254 950.812 902.442
1989 .............. .. 2.150.466 1.114.190 1.036.276 1.853.841 950.852 902.989
1988 ......... .... ... 2.167.999 1.125.540 1.042.459 1.876.906 965.419 911.487
1987 .......... .. ... . 2.123.323 1.1 07.958 1.015.365 1.843.067 953.382 889.685
1986 .. ..... ......... 2.105.361 1.104.005 1.001.356 1.831.083 952.554 878.529
1985 .......... ...... 2.086.440 1.097.758 988.682 1.819.054 950.455 868.599
1984 .... ... ... ...... 2.039.369 1.076.514 962.855 1.781.897 934.529 847.368
1983 ...... ... ....... 2.019.201 1.071.923 947.278 1.765.582 931.779 833.803
1982 ... ............ . 1.974.797 1.056.440 918.357 1.729.085 919.239 809.846
1981 ..... ..... ..... . 1.977.981 1.063.772 914.209 1.731.233 925.490 805.743
1980 ................ 1.989.841 1.075.078 914.763 1.738.607 933.878 804.729
1979 ............ .. .. 1.913.841 1.044.959 868.882 1.676.145 910.137 766.008
1978 ...... ......... . 1.927.788 1.055.290 872.498 1.689.722 920.123 769.599
1977 .......... ...... 1.899.597 1.046.243 853.354 1.664.100 912.670 751.430
1976 .. .... ........ .. 1.909.440 1.051.983 857.457 1.674.989 918.589 756.400
1975 ............ .. .. 1.892.879 1.050.819 842.060 1.660.366 917.804 742.562
1970 ............ .. .. 1.921.031 1.078.478 842.553 1.682.096 942.437 739.659
1960 ........ ...... .. 1.711.982 975.648 736.334 1.505.335 860.857 644.478
1950 .... .... ........ 1.452.454 827.749 624.705 1.276.085 731.366 544.719
1940 ............. ... 1.417.269 791.003 626.266 1.231.223 690.901 540.322
T asso di mortalit
1992 ..... .......... . 852,9 901,6 806,5 880,0 917,2 844,3
1991 ............... . 860,3 912,1 811,0 886,2 926,2 847,7
1990 ............. ... 863,8 918,4 812,0 888,0 930,9 846,9
1989 .......... ... ... 871,3 926,3 818,9 893,2 936,5 851,8
1988 .. .......... .... 886,7 945,1 831,2 910,5 957,9 865,3
1987 ...... .... ... ... 876,4 939,3 816,7 900,1 952,7 849,6
1986 .... .......... .. 876,7 944,7 812,3 900,1 958,6 844,3
1985 ... ....... ...... 876,9 948,6 809,1 900,4 963,6 840,1
1984 ........... ..... 864,8 938,8 794,7 887,8 954,1 824,6
1983 ............... . 863,7 943,2 788,4 885,4 957,7 816,4
1982 .. .............. 852,4 938,4 771,2 873,1 951,8 798,2
1981 .............. .. 862,0 954,0 775,0 880,4 965,2 799,8
1980 .. .... ..... ... .. 878,3 976,9 785,3 892,5 983,3 806,1
1979 ........ ..... ... 852,2 957,5 752,7 865,2 963,3 771,8
1978 .... .... ........ 868,0 977,5 764,5 880,2 982,7 782,7
1977 ...... .. ..... ... 864,4 978,9 756,0 874,6 983,0 771,3
1976 .. ......... ..... 877,6 993,8 767,6 887,7 997,3 783,1
1975 .. ... .. ... .. .... 878,5 1.002,0 761,4 886,9 1.004,1 775,1
1970 .... ... ......... 945,3 1.090,3 807,8 946,3 1.086,7 812,6
1960 ........ ........ 954,7 1.104,5 809,2 947,8 1.098,5 800,9
1950 ......... .... ... 963,8 1.106,1 823,5 945,7 1.089,5 803,3
1940 .. ...... ... ..... 1.076,4 1.197,4 954,6 1.041,5 1.162,2 919,4
(continua)
STANDARDIZZAZIONE DE! TASSI 65
Tabell a 4.3 ( ontinua)
Razza ner a Indi a ni americani Asiatici o abito isole del Pacifico
Entrambi Entrambi Entrambi
Anno i sess i Maschi Femmi ne i sessi Maschi Femmine I seSSI Maschi Femmine
Numero
1992 ............. 269.219 146.630 122.589 8.953 5. 181 3.772 23.660 13.568 10.092
1991 ..... ........ 269.525 147.331 122.194 8.621 4.948 3.673 22.173 12.727 9.446
1990 .. .... .. ..... 265.498 145.359 120.139 8.316 4.877 3.439 21.1 27 12.211 8.916
1989 .. ..... ...... 267.642 146.393 121.249 8.614 5.066 3.548 20.042 11.688 8.354
1988 ....... ...... 264.019 144.228 119.791 7.917 4.61 7 3.300 18.963 11.155 7.808
1987 .... ......... 254.814 139.551 115.263 7.602 4.432 3.170 17.689 10.496 7. 193
1986 ............. 250.326 137.214 113.1 12 7.301 4.365 2.936 16.514 9.795 6.719
1985 .... .. ....... 244.207 133.610 110.597 7.154 4.1 81 2.973 15. 887 9.441 6.446
1984 ..... ........ 235.884 129.147 106.737 6.949 4.11 7 2.832 14.483 8.627 5.856
1983 ............. 233.124 127.911 105.213 6.839 4.064 2.775 13.554 8.126 5.428
1982 ............. 226.513 125.610 100.903 6.679 3.974 2.705 12.430 7.564 4.866
1981 ............. 228.560 127.296 101.264 6.608 4.016 2.592 11.475 6.908 4.567
1980 ..... ..... .. . 233 .135 130.138 102.997 6.923 4.193 2.730 II .071 6.809 4.262
1979 ............. 220.818 124.433 96.385 6.728 4.171 2.557
1978 ....... ...... 221.340 124.663 96.677 6.959 4.343 2.616
1977 ......... .... 220.076 123.894 96.182 6.454 4.019 2.435
1976 ............. 219.442 123.977 95.465 6.300 3.883 2.417
1975 ....... ...... 217.932 123.770 94.162 6.166 3.838 2.328
1970 ........... .. 225.647 127.540 98.1 07 5.675 3.391 2.284
1960 ...... ....... 196.010 107.701 88.309 4.528 2.658 1. 870
1950 ............. 169.606 92.004 77.602 4.440 2.497 1.943
1940 ............. 178.743 95.517 83.226 4.791 2.527 2.264
T asso di mortalit
1992 ............. 850,5 977,5 736,2 417,7 487,7 348,9 283,1 332,7 235,8
1991 ............. 864,9 998,7 744,5 407,2 471,2 343,9 277,3 325,6 231,1
1990 ............. 871,0 1.008,0 747,9 402,8 476,4 330,4 283,3 334,3 234,3
1989 ... ....... ... 887,9 1.026,7 763,2 430,5 510,7 351,3 280,9 334,5 229,4
1988 ............. 888,3 1.026,1 764,6 41 1,7 485,0 339,9 282,0 339,0 227,4
1987 ............. 868,9 1.006,2 745,7 410,7 483,8 339,0 278,9 338,3 222,0
1986 ............. 864,9 1.002,6 741,5 409,5 494,9 325,9 276,2 335,1 219,9
1985 ............. 854,8 989,3 734,2 416,4 492,5 342,5 283,4 344,6 224,9
1984 ....... .... .. 836,1 968,5 717, 4 419,6 502,7 338,4 275,9 336,5 218,1
1983 ..... ... ... .. 836,6 971,2 715,9 428,5 515,1 343,9 276,1 339,1 216,1
1982 ............. 823,4 966,2 695,5 434,5 522,9 348,1 271,3 338,3 207,4
1981 ......... .... 842,4 992,6 707,7 445,6 547,9 345,6 272,3 336,2 211,5
1980 ............. 875,4 1.034, 1 733,3 487,4 597,1 380,1 296,9 375,3 222,5
1979 .......... .. . 839,3 999,6 695,3
1978 ... ... ....... 855,1 1.016,8 709,5
1977 ..... .. ..... . 864,0 1.026,0 718,0
1976 .......... ... 875,0 1.041,6 724,5
1975 ............. 882,5 1.055,4 726,1
1970 ..... ........ 999,3 1.186,6 829,2
1960 ............. 1.038,6 1.181,7 905,0
1950 .... .. ...... .
1940 .... ... ......
(continua)
66 TASSI E STANDARDIZZAZ IONE
Tabella 4.3 (Continua)
Tutte le razze Razza bianca
Entrambi Entrambi
Anno i sessi Maschi Femmine I sessI Maschi Femmine
T asso di mortalit standardizzato per et
1992 ........... ..... 504,5 656,0
1991 .. ..... .. .... ... 513,7 669,9
199O ..... ...... .... . 520,2 680,2
1989 ................ 528,0 689,3
1988 ....... .... .. ... 539,9 706,1
1987 .. ......... .. ... 539,2 706,8
1986 ...... ... .... ... 544,8 716,2
1985 ................ 548,9 723,0
1984 ................ 548,1 721,6
1983 ................ 552,5 729,4
1982 ....... ......... 554,7 734,2
1981 ................ 568,6 753,8
198O ................ 585,8 777,2
1979 ....... .. .... ... 577,0 768,6
1978 .......... ...... 595,0 791,4
1977 ................ 602,1 801,3
1976 ............ .. .. 618,5 820,9
1975 ..... .... ... .... 630,4 837,2
197O ................ 714,3 931,6
196O ............ .... 760,9 949,3
195O ...... ... ....... 841,5 1.001,6
194O ............ .. .. 1.076,1 1.213,0
ed all' AIDS rispetto ai tassi di mortalit per
altre cause di morte in uomini e donne di et
compresa tra 25 e 44 anni (7). La Tabella 4.3
riporta i tassi complessivi di mortalit stan-
dardi zzati per et negli Stati Uniti disaggre-
gati per razza e sesso (1). Anche in questo
caso, 'i tassi sono stati calcolati con il metodo
diretto di standardizzazione. In generale, i
tassi standardizzati sono diminuiti nel tempo;
si noti, per, che per tutti gli anni le donne
presentano tassi di mortalit inferiori agli uo-
mini e gli asiatic{ e gli abitanti delle isole del
Pacifico presentano tassi di mortalit inferiori
rispetto ad altre razze.
Nelle applicazioni pratiche necessario sa-
pere quando utilizzare un tasso standardiz-
zato piuttosto che un tasso grezzo o un tasso
gruppo-specifico. In generale, se non sono
presenti variabili di confondimento come
380,3 477,5 620,9 359,9
386,6 486,8 634,4 366,3
390,6 492,8 644,3 369,9
397,3 499,6 652,2 376,0
406,1 512,8 671,3 385,3
404,6 513,7 674,2 384,8
407,6 520,1 684,9 388,1
410,3 524,9 693,3 391,0
410,5 525,2 693,6 391,7
41 2,5 529,4 701,6 393,3
411,9 532,3 706,8 393,6
420,8 544,8 724,8 401,5
432,6 559,4 745,3 411,1
423,1 551,9 738,4 402,5
437,4 569,5 761,1 416,4
441 ,8 575,7 770,6 419,6
455,0 591,3 789,3 432,5
462,5 602,2 804,3 439,0
532,5 679,6 893,4 501,7
590,6 727,0 917,7 555,0
688,4 800,4 963,1 645,0
938,9 1.017,2 1.155,1 879,0
(continua)
l'et o il sesso e se non richiesto un con-
fronto tra gruppi diversi, i tassi grezzi sono
appropriati e presentano il vantaggio di for-
nire utili informazioni sulle reali condizioni
di una determinata popolazione. Quando
sono presenti una o pi variabili di confondi-
mento, i tassi gruppo-specifici sono sempre
idonei per il confronto, poich forniscono
informazioni es tremamente dettagliate. I tassi
standardi zzati - numeri singoli che riassu-
mono la situazione in ciascuna popolazione
considerata - devono essere utili zzati solo se
sono presenti una o pi vari abili di confondi -
mento e se si desidera operare un confronto
fra gruppi. importante ricordare che i tassi
standardi zzati non hanno alcun significato
intrinseco.
Quando si applica il metodo diretto di
standardizzazione, i tassi gruppo-specifici
STANDARDIZZAZIONE DEI TASSI
Tabella 4.3 (Continua)
Razza nera
Entrambi
67
Indiani americani Asiatici o abito isole del Pacifico
-E-n-t-ra-m-b-i------ Entrambi
Anno i sessi Maschi Femmi ne i sessi Maschi Femmi ne i sessi Maschi Femmine
Tasso di mortalit standardizzato per et
1992 ............. 767,5 1.026,9 568,4 453,1 579,6 343,1 285,8 364,1 220,5
1991 ............. 780,7 1.048,8 575,1 441,8 562,6 335,9 283,2 360,2 218,3
199O .... .. ...... . 789,2 1.061,3 581,6 445,1 573,1 335,1 297,6 377,8 228,9
1989 .. ..... ... ... 805,9 1.082,8 594,3 475,7 622,8 353,4 295,8 378,9 225,2
1988 ............. 809,7 1.083,0 601,0 456,3 585,7 343,2 300,2 385,4 226,5
1987 ... ........ .. 796,4 1.063,6 592,4 456,7 580,8 351,3 297,0 386,2 221,3
1986 ............. 796,8 1.061,9 594,1 451,4 591 ,6 328,4 296,7 385,3 220,3
1985 ............. 793,6 1.053,4 594,8 468,2 602,6 353,3 305,7 396,9 228,5
1984 ............. 783,3 1.035,9 590,1 476,9 614,2 347,3 299,4 386,0 223,0
1983 ............. 787,4 1.037,5 595,3 485,9 634,0 360,1 298,9 388,6 218,0
1982 ............. 782,1 1.035,4 585,9 494,3 634,6 371,6 293,6 389,2 212,8
1981 ... ...... ... . 807,0 1.068,8 602,( 514,0 676,7 368,5 293,2 382,3 213,9
198O .. ....... .. .. 842,5 1.112,8 631,1 564,1 732,5 414,1 315,6 416,6 224,6
1979 ... ... ....... 812,1 1.073,3 605,0
1978 .... ...... ... 83 1,8 1. 093,9 622,7
1977 ........ ..... 849,3 1.112,1 639,6
1976 ............. 870,5 1.138,3 654,5
1975 ... .......... 890,8 1.163,0 670,6
197O ... ...... ... . 1.044,0 1.318,6 814,4
196O ............. 1. 073,3 1.246,1 916,9
195O .... .... ... ..
194O ..... ........
devono presentare lo stesso andamento gene-
rale in tutti i gruppi da confrontare e nell a
popolazione standard. Cio, se dovessimo
rappresentare graficamente i tassi gruppo-
specifici per due gruppi diversi, gli andamenti
dovrebbero essere idealmente paralleli, come
in Figura 4.4 (a). Una situazione meno ideale
si verifica quando gli andamenti non sono pa-
ralleli, ma simili, come in Figura 4.4 (b).
Quando i tassi gruppo-specifici hanno anda-
menti molto diversi nelle due popolazioni,
come in Figura 4.4 (c), la standardi zzazione
diretta non deve essere applicata. In questo
caso, un numero ingoIo non in grado di
cogli ere il compl esso comportamento dei
tassi; modificando lo standard, essi possono
mostrare qualsiasi risultato riteniamo oppor-
tuno. Pertanto, invece di sintetizzare i dati,
dobbiamo limitarci a riportare i tassi gruppo-
specifici.
In Figura 4.5 sono illustrati i tassi di altera-
zione delle capacit uditive specifici per et
per il gruppo di impiegati e per coloro che
non fanno parte della forza lavoro. Il grafico
molto simil e alla Figura 4.4 (b); gli anda-
menti sono simili, ma non paralleli. Conclu-
di amo che appropriato utilizzare il metodo
diretto per standardi zzare per et.
Nelle applicazioni pratiche, il metodo di -
retto di standardizzazione utilizzato pi
spesso del metodo indiretto. La maggior
parte dei tassi standardizzati riportati dal Na-
tional Center for Health Statistics negli Stati
Uniti applicano il metodo diretto ed utiliz-
zano la popolazione americana nel 1940 come
distribuzione standard (5). Tuttavia, il me-
todo diretto richiede la disponibilit dei tassi
gruppo-specifici per tutte le popolazioni a
confronto; in molte situazioni ci non pos-
sibile e deve essere utili zzato il metodo indi-
68
o Popolazione 1
Popolazione 2
o Popolazione 1
Popolazione 2
Grul?Po
(a)
Grul?Po
(c)
retto. Se i tassi gruppo-specifici sono disponi-
bili, ma sono stati calcolati su numeri molto
piccoli - e sono pertanto soggetti ad una no-
o Impiegat i
10
on nell a f o ~ z lavoro
8
6
4
2
o
25 45 65
Et (anni )
TASSI E STANDARDIZZAZIONE
o Popolazione 1
Popolazione 2
Grul?Po
(b)
Figura 4.4 Andamento dei tassi gruppo-specifici per due
popolazioni
tevole fluttuazione - preferibil e utili zzare il
metodo indiretto. In ogni caso, l'applicazione
di uno o dell' altro dei due metodi deve por-
85
Figura 4.5 Tassi di alterazione delle ca-
pacit uditi ve specifici per et in impie-
gati cd in coloro che non fanno parte
della forza lavoro, 1980- J 981
ULTERIORI APPLICAZION I
tare alla stessa conclusione. Se 1 conclusioni
sono diverse, la situazione deve es ere stu-
diata ulteriormente.
4.3 ULTERIORI APPLICAZIONI
Supponiamo di voler confrontare i tassi di
mortalit infantile in due Stati, Colorado e
Louisiana. Come dobbiamo procedere? Pri-
ma di tutto, si con iderino i seguenti dati che
riportano il nu mero dei nati vivi e di decessi
di neonati al di sotto di 1 anno verifi catisi in
ciascuno Stato nel 1987 (8,9) .
Stato Nati vivi Neonati morti T asso per 1.000
Colorado 53.808 527 9,8
Louisi ana 73.967 872 Il,8
I dati grezzi mostrano che il tasso di morta-
lit infantile nel Colorado 9,8 per 1.000 nati
vivi, mentre il tasso in Louisiana Il,8 per
1.000 nati vivi. Pertanto, sembra che i neonati
in Louisiana abbiano maggiori probabilit di
morire prima del compimento del primo
anno rispetto a quelli nati in Colorado.
Possiamo sospettare che la r azza sia una va-
riabile di confondim nto nella relazione tra
Stato e tasso di mortalit infantile; esami-
niamo, pertanto, le distribuzioni per razza
nelle due popolazioni.
Razza
Colorado Louisiana
Nati vivi Percentuale Nati vivi Percentuale
Nera 3.166 5,9 29.670 40,1
Bianca 48.805 90,7 42.749 57,8
Altre 1.837 3,4 1.548 2,1
Totale 53.808 100,0 73.967 100,0
Razza
Colorado
69
Le frequenze relative indicano che gli Stati
differiscono realmente nella composizione
razziale. In Colorado la maggior parte dei
neonati di razza bianca; in Louisiana una
percentuale molto maggiore dei neonati di
razza nera.
Esaminiamo, poi, i tassi di mortalit infan-
tile specifici per r azza negli Stati Uniti nel
1987.
Razza Nati vivi Neonati morti T asso per 1.000
era 641.567 11.461 17,9
Bianca 2.992.488 25.810 8,6
Altre 175.339 1.137 6,5
Totale 3.809.394 38.408 10,1
Il tasso gr ezzo di mortalit infantile negli
Stati Uniti una media ponderata dei tassi
specifici per razza:
(641.567)(17,9) + (2.992.488)(8,6) + (175.339)(6,5)
)0,1 = .
3.809.394
possibile notare dall a tabell a che il tasso
di mortalit infantile molto pi elevato tra i
bambini di razza nera rispetto ai bambini di
razza bianca. Poich la razza associata sia
all o Stato che al tasso di mortalit infantile,
essa una variabi le di confondimento nella
relazione tra queste due quantit. Forse il pi
elevato tasso grezzo di mortalit infantile in
Louisiana una conseguenza della maggiore
proporzione fra i nati di bambini di razza
nera.
possibile effettuare un confronto pi ac-
curato tra gli Stati osservando i tassi di mor-
talit infantile specifici per et piuttosto che i
tassi grezzi (tabella di seguito riportata).
Louisiana
Nati vivi Neonati morti T asso per 1.000 Nati vivi Neonati morti T asso per 1.000
Nera 3.166 52 16,4 29.670 525 17,7
Bianca 48.805 469 9,6 42.749 344 8,0
Altre 1.837 6 3,3 1.548 3 1,9
Totale 53.808 527 9,8 73.967 872 11,8
70
I! tasso di mortalit infantile tra i bambini
neri pi elevato in Louisiana che in Colo-
rado; tra i bambini bianchi ed i bambini di al-
tre razze, per, il tasso di mortalit infantile
pi elevato in Colorado. Sebbene i tassi speci-
fici per razza forniscano informazioni estre-
mamente dettagliate su queste due popola-
zioni, sarebbe opportuno sintetizzare l'intera
distribuzione con una coppia di numeri - uno
per ciascuno Stato - in grado di standardiz-
zare le differenze dovute alla compOSlZlOne
razziale.
4.3.1 Metodo diretto di standardizzazione
Per applicare il metodo diretto di standar-
dizzazione, selezioniamo prima di tutto una
distribuzione standard di razza; in questo
esempio, consideriamo tutti i nati vivi negli
Stati Uniti nel 1987. Calcoliamo, poi, il nu-
mero di neonati morti che si sarebbero verifi-
cati nei due Stati, assumendo che ciascuno
presenti questa composizione standard di
razza pur conservando i propri tassi di mor-
talit specifici per razza (tabell a di seguito ri-
portata).
TASSI E STANDARDfZZAZIONE
35.628,7
Louisiana: = 9,4 per 1.000
3.809.394
Questi tassi standardizzati per razza sono i
tassi di mortalit infantile che si verifichereb-
bero se le nascite in Colorado ed in Louisiana
avessero la stessa distribuzione razziale di
tutti gli Stati Uniti. Sebbene il tasso grezzo di
mortalit infantile in Louisiana sia pi elevato
del tasso grezzo in Colorado, dopo aver con-
trollato per l'effetto della razza, il tasso di
mortalit infantile standardizzato pi ele-
vato in Colorado.
In questo esempio, stato appropriato cal-
colare con il metodo diretto i tassi di morta-
lit infantile standardizzati per razza per que-
ste due popolazioni? Per cercare d i rispon-
dere a questa domanda, consideriamo il dia-
gramma dei tassi di mortalit specifici per
razza per il Colorado e la Louisiana illustrato
in Figura 4.6. Poich la razza non una mi-
sura continua, non possiamo collegare i punti
con linee rette. Si osservi, per, che le due se-
rie di tassi seguono lo stesso andamento; per
entrambi gli Stati, i bambini di razza nera
presentano il tasso di mortalit infantile pi
Stati Uniti Colorado Louisiana
Razza Nati vivi Tasso per 1.000
Nera 641.567 16,4
Bianca 2.992.488 9,6
Altre 175.339 3,3
Totale 3.809.394
I! numero atteso di neonati morti calco-
lato moltiplicando il numero totale di nati
vivi negli Stati Uniti in un particolare gruppo
razziale per i tassi specifici per razza in cia-
scuno Stato diviso 1.000.
I! tasso di mortalit infantile standardizzato
per razza per ciascuno Stato calcolato divi-
dendo il numero atteso di neonati morti per il
numero totale di nati vivi nella popolazione
standard:
39.828,2
Colorado: = 10,5 per 1.000
3.809.394
Decessi attesi T asso per 1.000 Decessi attesi
10.521,7 17,7 11.355,7
28.727,9 8,0 23.939,9
578,6 1,9 333,1
39.828,2 35.628,7
elevato, seguiti dai bambini di razza bianca e
poi dai bambini appartenenti ad altre razze.
Possiamo, pertanto, concludere che appro-
priato utilizzare il metodo diretto per la stan-
dardizzazione per razza.
Per ottenere i tassi standardizzati per razza
della mortalit infantile avremmo potuto an-
che utilizzare lo Stata, i cui risultati sono ri-
portati in Tabella 4.4. In alto a sinistra, le co-
lonne definite 'Pop.' e 'Cases' contengono il
numero di nati vivi e di neonati morti per cia-
scuna razza nello Stato del Colorado; le fre-
quenze relative associate a tali dati sono illu-
ULTERIORI APPLICAZION I
Figura 406 Tassi di mortalit infantil e
specifi ci per razza nel Colorado e
nella Louisiana, 1987
0;;
0;;
'"
c:;
o
o
Cl
....
v
Cl.

'" f--<
20
16
12
8
4
o
Il Colorado
Luisiana
o
Nera
o
Bianca
71
o
Altre
Tabella 4.4 Ri sultati dell o Stata che illustrano il metodo diretto di standardizzazione
state = Colorado
Stratum
Black
Other
White
Totals:
state
Stratum
Black
Other
White
Totals:
Pop.
3166
1837
48805
53808
Louisiana
Pop.
29670
1548
42749
73967
-Unadjusted- Std.
Pop. Stratum Pop.
Cases Dist. Rate[s] Dst[P]
52 0.059 0.0164 0.168
6 0.034 0.0033 0.046
469 0.907 0.0096 0.786
527 Adjusted Cases:
Crude Rate:
Adjusted Rate:
95% Conf. Interval: [0.01045,
-Unadjusted- Std.
Pop. Stratum Pop.
Cases Dist. Rate[s] Dst[P]
525
3
344
872
0.401
0.021
0.578
0.0177
0.0019
0.0080
0.168
0.046
0.786
Adjusted Cases:
Crude Rate:
Adjusted Rate:
95% Conf. Interval: [0.00939,
s*P
0.0028
0.0002
0.0075
563 . 1
0.00979
0.01047
0.01048]
s*P
0.0030
0.0001
0 . 0063
694.6
0.01179
0.00939
0.00940]
Summary of Study Populations:
state N
Colorado 53808
Louisiana 73967
Crude
0.009794
0.011789
Adj. Rate
0.010465
0.009391
Confidence Interval
[0.010451, 0.010479]
[0.009386, 0.009395]
72
strate a destra di tali colonne. La colonna
chi amata ' Std.Pop.Dst [P]' contiene le fre-
q uenze relative corrispondenti ai nati vivi ne-
gli Stati Uniti nel 1987, ed immediatamente
sotto sono riportati i tassi di mortalit infan-
tile grezzi e standardizzati per razza. Si noti
che il tasso standardi zzato per lo Stato del
Colorado, 0,01047, esattamente 10,5 per
1.000 nati vivi. La parte centrale della tabella
conti ene gli stessi dati relativi all a Louisiana,
mentre la parte conclusiva sintetizza le infor-
mazioni pi importanti per ciascuno Stato.
4.3.2 Metodo indiretto di standardizza-
zione
Per applicare il metodo indiretto di stan-
dardi zzazione, selezioniamo una serie di tassi
standard di mortali t infantile specifici per
razza e li applichiamo al numero reale di nati
vivi in ciascuno Stato. Come standard, sce-
gliamo ancora i nati vivi negli Stati Uniti nel
1987. Calcoliamo, poi, il numero di neonati
morti che si sarebbero verificati in ciascuno
Stato se esso avesse assunto i tassi di mortalit
infantil e specifici per razza degli Stati Uniti
pur conservando le proprie specifiche di-
stribuzioni di razza (tabella di seguito ripor-
tata).
TASSI E STANDARDi ZZAZiONE
. . 872
Loulslana: -- = 0,96
908,8
= 96%
Questi rapporti standardi zzati di mortalit
indicano che il olorado presenta un tasso di
mortalit infantile pi elevato dell'8% ri-
spetto agli Stati Uniti, mentre la Loui siana
presenta un tasso di mortalit infantil e infe-
riore del 4%.
Calcoli amo ora il tasso di mortalit infan-
tile standardi zzato per razza per ciascuno
Stato moltiplicando il rapporto standardiz-
zato di mortali t per il tasso grezzo di morta-
lit infantile nell a popolazione standard, 10,1
per 1.000 nati vivi:
10,1
Colorado: --x 1,08 = 10,9 per 1.000
1.000
. . 10,1
Loulslana: --x 0,96 = 9,7 per 1.000
1.000
Dopo aver controllato per l'effetto dell a
razza, il Colorado presenta ancora un tasso
standardi zzato d i mortalit infantil e pi ele-
vato di quello dell a Louisiana. Sebbene i va-
lori dei tassi siano diversi , questa la stessa
concl usione a cui siamo pervenuti utili z-
zando il metodo diretto di standardi zzazione.
Stati Uniti Colorado Louisiana
Razza Tasso per 1.000 Nati vivi
Nera 17,9 3. 166
Bi anca 8,6 48.805
Altre 6,5 1.837
Totale 10,1 53.808
Il numero atteso di neonati morti calco-
lato moltiplicando i tassi specifici per razza
negli Stati Uniti per il numero di nati vivi in
ciascuno Stato diviso 1.000.
Il rapporto standardizzato di mortalit per
ciascuno Stato ottenuto dividendo il nu-
mero osservato di neonati morti per il nu-
mero atteso di decessi:
527
Colorado: -- = 1,08
4883
, = 108%
Decessi attesi Nati vivi Decessi attesi
56, 7 29.670 531,1
419,7 42.749 367,6
11,9 1.548 10,1
488,3 73.967 908,8
4.4 ESERCIZI
1. Che cosa sono i dati demografici e le sta-
tisti che di vita? Come possono essere utili z-
zati per descrivere lo stato di salute di una
popolazione?
2. Qual la differenza tra un tasso ed una
proporzione?
3. Che cos' una variabile di confo ndi -
mento?
ESERCIZI
4. Qual la differenza tra metodo diretto
ed indiretto di standardizzazione? In quali
casi preferibile usare il primo? In quali il se-
condo?
5. La scelta di una distribuzione di popola-
zione tandard come pu influenzare i risul-
tati del processo di standardizzazione?
6. In quali ca i necessario utili zzare i tassi
grezzi, i tassi specifici ed i tassi standardiz-
zati?
7. Di seguito riportato il numero totale di
decessi negli Stati Uniti in diversi anni (1).
Anno Numem di decessi
1990 2.148.463
1980 1.989.841
1970 1.921.031
1960 1.711.982
1950 1.452.454
1940 1.417.269
Si afferma che, poich il numero di decessi
aumentato negli anni, le condizioni di salute
della popolazione stanno peggiorando. Si ete
d'accordo con ques ta affermazione? Per ch o
perch no?
8. I dati di seguito riportati sono relativi all o
Stato del Massachusetts nel 1992 (10).
Popolazione
Nati vivi
Decessi
totali
< 1 anno
Numero
6.060.943
87.202
53.804
569
73
Calcolare i seguenti tassi:
a. tasso grezzo di nascita
b. tasso grezzo di mortalit
c. tasso di mortalit infantile.
9. I dati di seguito riportati sono relativi al
numero di nati vivi e di neonati morti negli
Stati Uniti nel 1983, categorizzati per peso
alla nascita (11).
Peso alla nascita ati Neonati
(grammi) VIVI morti
~ 2.500 3.385.912 15.349
1.500-2.499 204.534 6.136
750-1.499 31.246 7.283
500-749 7.594 5.815
< 500 4.444 3.937
Sconosciuto 5.383 1.163
Totale 3.639.113 39.683
a. Calcolare il tasso di mortalit infantil e per
ciascun gruppo di peso alla nascita.
b. Quali conclusioni si possono trarre sulla
relazione tra mortalit infantile e peso alla
nascita?
c. Pensate che sia probabile che i neonati dei
quali non si conosce il peso alla nascita pe-
sino meno di 1.500 grammi? Perch o per -
ch no?
10. In un' indagine che ha studiato i fattori
che influenzano la durata della vita umana,
sono state prese in considerazione le princi-
pali cause di morte. Di seguito riportato il
numero di decessi negli Stati Uniti per
100.000 abitanti per le cinque principali cause
di morte in quattro fasce di et: 15-24 anni,
25-44 anni, 45-64 anni e ~ 65 anni (12).
Causa di o r t ~
Decessi per 100.000 abitanti per fascia di et (anni)
15-24 25-44 45-64 2: 65
AIDS - 20,3 -
-
Ictus - - 32,5 408,8
Incidenti 45,8 35,4 32,4 -
Malattie cardiache 2,6 19,0 241,5 1.949,2
eoplas ie 5,1 26,2 290,0 1.085,1
Omicidio 16,9 - - -
Patologie respiratorie croniche - - 28,0 225,8
Polmonite ed influenza
- - -
217,5
Suicidio 13,3 14, 8
- -
74
a. Disegnare, per il gruppo di soggetti fra 15
e 24 anni, un diagramma a barre che illustri
il tasso di mortalit specifico per et per
ciascuna delle cinque principali cause di
morte. (Invece del numero o della percen-
tuale di decessi, l'altezza di ogni barra deve
illustrare il tasso di mortalit corri spon-
dente ad una determinata causa). Dise-
gnare un diagramma a barre per ciascuna
dell e alt re fasce di et.
b. Descrivere come i fattori che influenzano
la mortalit possano variare nell'arco della
vita di un soggetto. Quali cause di morte
sono rilevanti in tutte le fasce di et? Quali
hanno invece un impatto significati vo solo
su una o due fasce?
11. Nel 1954 stato intrapreso uno studio
per testare l'efficacia del vaccino anti-polio-
mieli te sviluppato dal Dr. Jonas Salk. La po-
liomielite una malattia infettiva causata da
un poliovirus, la cui gravit pu oscillare da
una leggera forma infettiva ad una malattia
paralitica letale. Il clinical tri al prevedeva due
parti distinte, ed in una di esse bambini
iscritti al primo, al secondo ed al terzo anno
di scuol a negli Stati Uniti e nel Canada veni-
vano suddivisi casualmente in due gruppi . Ai
membri del primo gruppo era somministrato
il vaccino di Salk, mentre al secondo gruppo
era somministrato placebo, una sostanza iner-
te non distinguibile organoletticamente dal
vaccino. Per questa parte dello studio erano
elegibili 749.236 bambini, ed a 401.974 di essi
fu somministrato il vaccino o il placebo (13).
Di seguito sono riportati i casi di malattia per
entrambi i gruppi, suddivisi in casi di polio-
mielite e casi di errata diagnosi; i primi sono
poi ulteriormente suddivisi in base all a pre-
senza di paralisi.
Gruppo
Numero
di bambini Casi Totale
Vaccino 200.745 82 57
Placebo 201.229 162 142
TASSI E STANDARDl ZZAZIONE
a. Calcolare, per entrambi i gruppi, i tassi per
100.000 bambini per i casi complessivi, per
i casi di poliomielite, per le diagnosi errate
e per i casi con e senza paralisi.
b. In base ai risultati di questa parte dello stu-
di o, si pu concludere che il vaccino di
Salk sia efficace per la prevenzione della
malattia?
12. Tra il 1984 ed il 1987, il tasso grezzo
di mortalit delle donile negli Stati Uniti
aumentato costantemente. Allo stesso tempo,
il tasso di mortalit standardizzato per et
diminuito. I dati sono di seguito riporta-
ti (1).
Tasso grezzo Tasso di mortalit
Anno
di mortalit standardizzato per et
per 100.000 per 100.000
abitanti abitanti
1987 816,7 404,6
1986 812,3 407,6
1985 809,1 410,3
1984 794,7 410,5
Spiegare in che modo il tasso standardiz-
zato per et pu diminuire, mentre il tasso
grezzo in aumento.
13. La Figura 4.7 illustra i tassi di mortalit
grezzi e standardizzati per et negli Stati
Uniti dal 1940 al 1993 (1). I tassi di mortalit
standardizzati per et sono stati calcolati con
il metodo diretto di standardizzazione e
come standard stata utili zzata la popola-
zione degli Stati Uniti nel 1940. Sebbene en-
trambi i tassi diminui scono nel tempo, il tasso
standardizzato diminuisce con maggiore ra-
pidit rispetto al tasso grezzo. Come si pu
spiegare .tale fenomeno?
Poliomieli te Non
Paralisi presente Paralisi assente Poliomielite
33 24 25
115 27 20
ESERC1Z!
1.300
1.200
c;
1.100
~
:.o 1.000
'"
o
900 o
o
o
800
o
-...
<l)
700 o..
"',
..
..
........
....
....
.. ..
,., ' ..... ..... "'-, "
.. ...
... _-
..
..
75
~
600
'" E-<
Tasso di mOl1alit standardizzato per et ' ............. ,
500
'-----......
-.. .
Figura 4.7 Tassi di morta-
lit grezzi e standardi zzati
per et negli Stati Uniti ,
1940-1993
0 1 ~ __ ~ 1 __ __ ~ __ __ ~ __ __ J
1940 1950
14. Di seguito riportato il numero di na-
scite negli Stati Uniti per ciascun giorno della
settimana nel 1991, unitamente agli 'indici di
incidenza' per parti naturali e per parti cesa-
rei (14). L'indice di incidenza per un determi-
nato giorno - ad esempio il Luned - il nu-
mero medio di nascite verificatesi di Luned
diviso il numero medio di nascite verificatesi
in tutti i giorni della settimana. I calcoli sono
stati effettuati separatamente per i parti natu-
rali ed i parti cesarei. L'indice di incidenza
pu essere inteso come il numero medio di
nascite in un dato giorno diviso il numero
medio atteso di nascite, assumendo che tutti i
giorni siano identici, e pu essere interpretato
come il rapporto standardizzato di morbosit.
Giorno Numero Indice di incidenza
della di
Parto Parto
settimana nascite naturale cesareo
Domenica 466.706 85,9 58,7
Luned 601.244 101,2 108,0
Marted 651.952 106,8 117,5
Mercoled 626.733 105,2 113,2
Gioved 628.656 105,3 114,0
Venerd 635.814 104,9 120,8
Sabato 499.802 90,6 67,5
a. Considerando il numero totale di nascite
per ciascun giorno della settimana come
una serie di sette osservazioni, calcolare il
numero medio totale di nascite per un dato
giorno. Ritenete che la media sia un'idonea
misura di tendenza centrale per questo
tipo di dati? Perch o perch no?
1960 1970 1980 1990
b. Disegnare un diagramma lineare che illu-
stri l'indice di incidenza nei diversi giorni
della settimana in relazione al tipo di par-
to. (Tracciare linee distinte per i parti natu-
rali ed i parti cesarei). Emerge un anda-
mento specifico per giorno? Quali fattori
ritenete responsabili di questo andamento?
c. Il parto naturale ed il parto cesareo mo-
strano andamenti diversi?
d. Qual il significato di un indice di inci-
denza (o rapporto standardizzato di mor-
bosit) maggiore del 100% ? E il significato
di un indice inferiore al 100% ?
15. Considerare i seguenti dati relativi alla
mortalit per neoplasie negli Stati Uniti nel
1940 e nel 1986 (15, 16).
1940 1986
Et Popolazione
Decessi
Popolazione
Decessi
(migliaia) (migliaia)
0-4 10.541 494 18.152 666
5-14 22.431 667 33.860 1.165
15-24 23.922 1.287 39.021 2.115
25-34 21.339 3.696 42.779 5.604
35-44 18.333 11.198 33.070 14.991
45-54 15.512 26.180 22.815 37.800
55-64 10.572 39.071 22.232 98.805
65-74 6.377 44.328 17.332 146.803
~ 75 2.643 31.279 11.836 161.381
Totale 131.670 158.200 241.097 469.330
76
a. Calcolare e confrontare i tassi grezzi di
mortalit per neoplasie negli anni 1940 e
1986.
b. Calcolare la proporzione dell a popola-
zione totale per ciascuna fascia di et nel
1940 e nel 1986. Descri vere in che modo le
due popolazioni differi scono in relazione
alla composizione per et.
c. Calcolare i tassi di mortalit per neopl asie
specifici per et per ciascuna popolazione.
Esiste una rel azione tra et e tasso di mor-
talit?
d. necessario controllare per l'effetto del-
l'et per confrontare i tassi di mortali t per
neoplasie nelle due popolazioni? Perch o
perch no ?
e. Utilizzando la popolazione degli Stati
Uniti nel 1940 come di stribuzione stan-
dard, appli care il metodo diretto di stan-
dardizzazione. Quali sono i tassi di morta-
lit per neoplasie standardizzati per et nel
1940 e nel 1986?
f. Il tasso di mortali t standardi zzato per et
differi sce dal tasso grezzo in ciascuna di
q ues te popolazioni? Spi egare.
g. Utili zzando una scala appropriata sugli
assi, tracciare i tassi di mortalit per neo-
plasie specifici per et in funzione dell' et
per il 1940 ed il 1986. Commentare se
stato appropriato standardi zzare per et
utili zzando il metodo diretto.
h. Utilizzando come standard i tassi di mor-
talit per neoplasie specifici per et per il
1940, applicare il metodo indiretto per cal-
colare i rapporti standardi zzati di morta-
lit per il 1940 ed il 1986.
l. Il tasso di mortalit per neoplasie dell a po-
polazione nel 1986 diverso da quello del
1940?
J. Calcolare i tassi di mortalit per neopl asie
standardi zzati per et per gli anni 1940 e
1986. I risultati ottenuti utili zzando il me-
todo indiretto corri spondono a quelli otte-
nuti con il metodo diretto?
16. N el 1940 una stati stica del Bureau of
the Census (Anagrafe) confront il tasso di
TASSI E STANDARDIZZAZI ON E
mortalit nel Maine con il tasso di mortalit
nell a Carolina del Sud. Di segui to sono ripor-
tati alcuni dati significativi del 1930 (17).
Maine Caroljna del Sud
Et Popolazione Decessi Popolazione Decessi
0-4 75. 037 1.543 205.076 4.905
5-9 79.727 148 240.750 446
10-14 74. 061 104 222.808 41 0
15-19 68.683 153 211.345 901
20-24 60. 575 224 166.354 1.073
25-34 105. 723 413 219.327 1.910
35-44 101.192 552 191.349 2.377
45-54 90. 346 980 143.509 2.862
55-64 72.478 1.476 80.491 2.667
65-74 46.614 2.433 40.441 2.486
75 22.396 3.056 16.793 2.364
Totale 796.832 11.082 1.738. 173 22.401
Le dimensi oni specifiche per et dell a po-
polazione ed il numero di decessi per cia-
scuno Stato sono registrati nelle variabili
popn e deaths in un fil e chi amato dthrate nel
CD all egato al li bro (Appendice B, Tabella
B. 8). Lo Stato e la fascia di et sono registrati ,
rispettivamente, nelle vari abili state e age.
a. Quali sono i tassi grezzi di mortalit nel
Maine e nella arolina del Sud nel 1930?
b. Ques ti Stati differi scono nell a composi-
zione di et? Spi egare.
c. Calcolare i tassi di mortalit specifici per
et per ciascuno dei due Stati.
d. Ritenete che s.ia necessari o controll are per
l'effetto dell' et nel confronto dei tassi di
mortalit per ques ti due Stati ? Perch o
perch no?
e. Di seguito sono riportate le frequenze re-
lati ve per fasce di et per l' intera popola-
zione degli Stati Uniti nel 1940. Queste
percentuali sono registrate nell a variabile
popn nel fil e chi amato us1940 nel CD all e-
gato al libro (Appendi ce B, Tabell a B.8b).
BIBLIOGRAFIA
Et Percentuale
0-4 8,01
5-9 8,11
10-14 8,92
15-19 9,37
20-24 8,80
25-34 16,21
35-44 13,92
45-54 11,78
55-64 8,03
65-74 4,84
75 2,01
Totale 100,00
Uti lizzando la popolazione americana co-
me standard, applicare il metodo diretto di
standardizzazione. Quali ono i tassi di
mortalit standardi zzati per et nel Maine
e nella Carolina del Sud?
f. Tracciare i tassi di mortalit specifici per
et in funzione dell'et per ciascuno dei
due Stati. In base a questo grafico, si ri -
velato opportuno standardi zzare per et
usando il metodo diretto?
Bibliografia
1. ATIO AL CENTER FOR H EALTH STATISTICS,
KOCHANEK K.D., H UOSON B.L.: Advance re-
port of final morrality statisti cs, 1992. Monthly
Vital Statistics Report, Volume 43, Number 6,
March 22, 1995.
2. UNITED ATI O S CHILDREN'S FUNO: The state
o[ the world's children 1994. Oxford Univer-
sity Press, N ew York.
3. NATIONAL CENTER FOR H EALTH STATISTICS,
SINGH G.K., MATHEWS T.J., CLARKE S.c., YA -
ICOS T., SMITH B.L.: ' Annual summary of
births, marriages, divorces, and deaths, United
States, 1994. Monthly Vital tatistics Report,
Volume 43, NlImber 13, Ocrober 23, 1995.
4. NATIONAL CENTER FOR H EALTH STATISTICS,
COLLI S lG.: Types of injuries and impair-
ments due ro injllries, United States. Vital and
Health Statistics, Series lO, umber 159, 0-
vember 1986.
77
5. CENTERS FOR D ISEASE CONTROL, CURTI N L.R.,
KLEIN R.J.: Direct standardi zation (age-adju-
sted death rates). Healthy People 2000 Statisti-
cal Notes, Number 6-Revised, March 1995.
6. COCHRAN W.G.: The effecti veness of adj ust-
ment by sll bclassification in r emoving bias in
observati onal studi es. Biometrics, 24:295-313,
1968.
7. CENTERS FOR DISEASE CONTRO L: Update: mor-
tality attriburable ro HIV infection among
persons aged 25-44 years - United States,
1991 - 1992. Morbidity and Mortality Weekly
Report, Vo lume 42, umber 45, ovember
19, 1993.
8. ATIO AL CE TER FOR H EALTH STATISTICS: Vi-
tal statistics o[ the United States, 1987. Volume
I - Natality, 1989.
9. N ATIONAL CENTER FOR H EALTH STATISTICS: Vi-
tal statistics o[ the United tates, 1987. Vol ume
II - Mortality, Pan A, 1990.
lO, MASSACHUSETTS DEPARTMENT OF P UBLIC
H EALTH: 1992 Annual report, vital statistics o[
Massachusetts. Public D ocument 1, D ecember
1994.
11. O VERPECK M. D ., H OFFMA H.J., PRAGER K.:
The lowest birth-weight infants and the U.S.
mortality rate: NCHS 1983 linked birthlinfant
death dat a. American f ournal o[ Public Health,
82:441-444,1992.
12. FOREMAN l : Making age obsolete: scientists see
falling barriers ro human longevity. The Bo-
ston Globe, September 27:1, 28-29, 1992.
13. MEIER P.: Polio trial: an early efficienr c1inical
trial. Statistics in Medicine, 9:13-16, 1990.
14. NATI ONAL CENTER FOR H EALTH STATISTICS:
Advance report of maternal and infant health
data from birth certificates, 1991. M onthly Vi-
tal Statistics Report, Volume 42, Number
11 (5), May Il, 1994.
15. N ATlONAL CENTER FOR H EALTH STATISTI S: Vi-
tal statistics o[ the United States, 1986. Vol ume
II - Mortality, Part B, 1988.
16. U NITED STATES D EPARTMENT OF COMMERCE:
Vital statistics o[ the United States, 1940. Part
II - Natality and mortality data tabul ated by
pIace of residence, 1943.
17. N ATIONAL CENTER FOR H EALTI-I STATISTI S: Vi-
tal statistics rates in the United States, 1900-
1940. Chapters I -IV, r ep rinted 1972.
Tavole di sopravvivenza
quasi sempre impossibile predire la durata
della vita di un determinato soggetto, cos
come la durata della vita di ogni soggetto in
una popolazione di milioni di abitanti. Tutta-
via, gli operatori di Sanit Pubblica devono
poter valutare e descrivere lo stato di salute di
un Paese. Per molti anni, le tavole di sopravvi-
venza sono state utilizzate per riassumere lo
stato di salute di un gruppo di soggetti. Come
le tecniche che abbiamo studiato nei capitoli
precedenti, esse hanno una natura descrittiva.
Le tavole di sopravvivenza individuano i tassi
di mortalit di una popolazione in un deter-
minato periodo di tempo. Esse hanno molte
applicazioni pratiche: sono utilizzate per ana-
lizzare la mortalit di una popolazione, per
fare confronti internazionali, per calcolare i
premi assicurativi e le rendite annuali e per
predire la sopravvivenza. Esse sono state an-
che utilizzate, con scarso successo, in un dibat-
tito sull'esistenza di un limite biologico alla
vita umana (1).
Seguendo una ipotetica coorte di soggetti -
di solito un gruppo di 100.000 soggetti - dalla
nascita fino alla morte dell'ultimo soggetto,
una tavola di sopravvivenza descrive la mor-
talit in un determinato periodo di tempo. La
Tabella 5.1 mostra, ad esempio, la tavola di
sopravvivenza degli Stati Uniti del 1992 (2).
Si assume di osservare 100.000 soggetti dalla
nascita alla morte e che, ogni anno, i soggetti
muoiano secondo i tassi della popolazione
degli Stati Uniti nel 1992. Il numero 100.000
scelto per semplificare i calcoli; esso arbitra-
rio, ed i risultati sarebbero gli stessi indipen-
dentemente dal numero scelto.
5
5.1 CALCOLO DELLA TAVOLA DI
SOPRA VVIVENZA
5.1.1 Colonna 1
Prima di descrivere alcune sue applicazioni,
esaminiamo come si calcola la tavola di so-
pravvivenza. La prima colonna della tavola
riporta l'intervallo di et. Esso rappresenta il
periodo di vita tra l'et x e l'et x+n, dove n
l' ampiezza dell'intervallo stesso. Pertanto, a-
l rappresenta il periodo di un anno di vita
dalla nascita fino al primo compleanno di un
soggetto. L'intervallo 1-5 rappresenta il pe-
riodo di tempo dal primo al quinto com-
pleanno, un periodo di quattro anni. Tutti gli
altri intervalli di et comprendono 5 anni,
tranne l'ultimo. Questo un intervallo aperto
e rappresenta l'intero periodo di vita oltre
l' ottantacinquesimo compleanno.
Per convenienza, nelle applicazioni prati-
che sono utilizzate tavole di sopravvivenza
abbreviate, come la Tabella 5.1. Una tavola di
sopravvivenza abbreviata mostra intervalli di
5 anni di et. Una tavola di sopravvivenza
completa comprenderebbe una voce per cia-
scun anno; alla fine del capitolo inserita una
tavola di sopravvivenza completa della popo-
lazione degli Stati Uniti per gli anni 1979-
1981 (Tabella 5.8) (3). Negli Stati Uniti si co-
struiscono tavole di sopravvivenza complete
ogni 10 anni, usando dati forniti dall'ufficio
anagrafe; in pratica, le tavole abbreviate sono
spesso utilizzate solo a scopo pedagogico. Si
noti che, in Tabella 5.8, in ciascuno degli in-
tervalli di cinque anni tra 5 e 85 anni, la mor-
80 TAVOLE DI SOPRAVVIVENZA
Tabella 5.1 Tavola di sopravvivenza abbreviata per la popolazione totale, Stati Uniti, 1992
Intervallo Proporzione Periodo
di et di soggetti Dei 100.000 nati vivi Popolazione stazionaria medio di
che muoiono sopravvivenza
Periodo Proporzione Numero Numero Nell'intervallo In questo Numero
di vita di soggetti vivi di soggetti di soggetti di et ed in tutti medio di anni
tra due et all'inizio VIVI che muoiono gli intervalli che restano
precise dell'intervallo all'inizio
In anlll di et che muoiono dell'intervallo
durante lo stesso di et
intervallo di et
(1) (2) (3)
da x a x + n
nqx Ix
0-1 0,00851 100.000
1-5 0,00172 99.149
5-10 0,00102 98.978
10-15 0,00121 98.877
15-20 0,00418 98.757
20-25 0,00528 98.344
25-30 0,00601 97.825
30-35 0,007,65 97.237
35-40 0,01001 96.493
40-45 0,OU05 95.527
45-50 0,01822 94.280
50-55 0,02799 92.562
55-60 0,04421 89.971
60-65 0,06800 85.993
65-70 0,10084 80.145
70-75 0,14673 72.063
75-80 0,21189 61.489
80-85 0,31480 48.460
:2: 85 1,00000 33.205
talit relativamente costante. Pertanto, la
quantit di informazioni che si perde nella ta-
vola abbreviata relativamente piccola. Ci
non vero per i pi giovani; la mortalit nel
primo anno di vita molto diversa da quella
negli anni 2-4. La combinazione di tutti i sog-
getti oltre gli 85 anni in un singolo gruppo
in parte influenzata dalla tradizione. Nel pas-
sato, la speranza di vita era considerevol-
mente inferiore a 85 anni e solo una piccola
proporzione di soggetti viveva oltre tale et.
5.1.2 Colonna 2
La seconda colonna della tavola di soprav-
vivenza, rappresentata da nqx' elenca la pro-
durante di et da vivere
l'intervallo succeSSIvI all 'i ni zio
di et dell'intervallo
di et
(4) (5) (6) (7)
ndx nLx
T, ex
851 99.275 7.577.757 75,8
171 396.195 7.478.482 75,4
101 494.615 7.082.287 71,6
120 494.152 6.587.672 66,6
413 492.848 6.093.520 61,7
519 490.448 5.600.672 56,9
588 487.654 5.110.224 52,2
744 484.369 4.622.570 47,5
966 480.187 4.138.201 42,9
1.247 474.740 3.658.014 38,3
1.718 467.420 3.183.274 33,8
2.591 456.739 2.715.854 29,3
3.978 440.481 2.259.115 25,1
5.848 416.137 1.818.634 21,1
8.082 381.393 1.402.497 17,5
10.574 334.799 1.021.104 14,2
13.029 275.667 686.305 11,2
15.255 204.369 410.638 8,5
33.205 206.269 206.269 6,2
porzione di soggetti vivi all'inizio dell'inter-
vallo da x a x+n che muoiono in un detenni-
nato momento dell'intervallo stesso. Questa
quantit anche chiamata funzione di rischio
e pu essere calcolata dai tassi di mortalit
specifici per et per la popolazione degli Stati
Uniti nel 1992, come quelli illustrati in Ta-
bella 4.2. Ad esempio:
Iqo = proporzione di soggetti vivi alla na-
scita che muoiono prima del loro
primo compleanno
= 865,7 per 100.000 (dalla Tabella 4.2)
= 0,008657
= 0,00851.
I numeri nelle due tabelle non coincidono
CALCOLO DELLA TAVOLA DI SOPRA VVIVENZA
perfettamente poich la Tabella 4.2 elenca il
tasso stimato di mortalit specifico per un de-
terminato in tervallo di et, mentre la Tabella
5.1 riporta una media ponderata calcolata
scindendo l'intervallo in frazioni pi piccole.
(In effetti, il rischio pi correttamente defi-
nito come il tasso di mortalit in un intervallo
infinitamente piccolo). Si noti che:
ooqss = proporzione di soggetti vivi all' ot-
tantancinquesimo compleanno che
muoiono dopo il loro ottantacinque-
simo compleanno
= 1,0000,
poich la morte inevitabile.
Le altre proporzioni della colonna 2 sono
un po' pi diffi cili da calcolare. Se dovessi mo
rappresentare i reali tassi di mortalit specifici
per et - noti come funzione di rischio - dalla
nascita fino all'et di 90 anni per la popola-
zione degli Stati Uniti, il risultato sarebbe
quello riportato in Figura 5.1. Dal grafico,
possibile scegli ere un singolo tasso per sinte-
ti zzare ogni intervallo di et della colonna l.
Per una tavola abbreviata, questo valore uti -
lizzato per approssi mare la proporzione di
soggetti che muoiono nell'intervallo. Si con-
sideri, ad esempio, il gruppo di et 1-5. Dalla
Tabella 4.2, il tasso di mortalit specifico per
et approssimato per questo intervall o 43,6
Figura 5.1 Tassi di mo rt alit specifici
per et dalla nascita fino all 'et di 90
anni per la popolazione degli Stat i
Uniti,1979-1981
15.000
c
j 12.500
:.o
'"
o
o
d 10.000
o
...
7.500

""E
5 S.OOO
E
:.o
2. 500
'" E-<
o
81
per 100.000 abitanti, o 0,000436. Poich que-
sta la stima del tasso di mortalit per cia-
scun anno nel periodo di quattro anni, la pro-
porzione totale di soggetti che muoiono tra il
primo ed il quinto compleanno circa:
4qj = 4 x 0,000436
= 0,001744
"" 0,00172.
Ancora, i numeri nell e due tabelle non
coincidono perfettamente. Allo stesso modo:
sqs = 5 x 0,000204
= 0,001020
sqlQ = 5 X 0,000246
= 0,001230
"" 0,00121
e cos via. Le stime ottenute utilizzando i dati
della Tabella 4.2 sono accurate se i tassi di
mortalit specifici per et sono relativamente
costanti nell'intervallo. In teoria, dovremmo
calcolare la mortalit ogni anno e non limi-
tarci a moltiplicare per il numero degli anni;
nelle applicazioni pratiche, comunque, la ap-
prossimazione si rivela di solito adeguata.
5.1.3 Colonne 3 e 4
La terza colonna della tavola di sopravvi-
venza, Lx, illustra il numero di soggetti degli
lO 20 30 40 50 60 70 80 90
Et (anni )
82
originari 100.000 che sono ancora vivi alloro
x-esimo compleanno. Si noti che le intesta-
zioni della colonna con un singolo deponente
si riferiscono alle condizioni all'inizio dell'in-
tervallo di et; quelle con due deponenti spe-
cificano le condizioni all'interno dell'inter-
vallo. Pertanto, la quarta colonna, nd;o elenca,
tra gli lx soggetti vivi all'inizio dell 'intervallo
da x a x+n, il numero di morti in un determi-
nato momento dell'intervallo. I calcoli delle
colonne 3 e 4 sono interdipendenti e si ba-
sano anche sulla colonna 2. Per illustrare que-
sto punto, lo, il numero di soggetti nati nella
coorte, uguale a 100.000. Il numero di co-
loro che sono morti prima del loro primo
compleanno il numero totale dei nati vivi
moltiplicato per la proporzione di soggetti
morti durante l'intervallo di et 0-1, o:
ld
o
= 100.000 x lqO
= 100.000 x 0,00851
= 851.
Pertanto, il numero di soggetti degli origi-
nari 100.000 che vivono fino al loro primo
compleanno :
li = 100.000 -851
= 99.149.
Allo stesso modo:
e
4dl = 99.149 X 4ql
= 99.149 x 0,00172
= 171,
ls = 99.149 - 171
= 98.978,
sd
s
= 98.978 x sqs
= 98.978 x 0,00102
= 101
ll o = 98.978 -101
= 98.877.
In generale, il numero di soggetti vivi al-
l'inizio di un determinato intervallo uguale
al numero di soggetti vivi all'inizio dell'inter-
TA VOLE DJ SOPRA VVIVENZA
vallo precedente meno il numero di soggetti
morti durante quell'intervallo, o:
Se tracciamo lx in funzione dell'et x, come
in Figura 5.2, osserviamo che il numero di so-
pravvissuti diminuisce nel tempo. Il numero
di soggetti morti durante un intervallo di et
ottenuto moltiplicando il numero di sog-
getti vivi all'inizio dell'intervallo per la pro-
porzione di soggetti morti durante l'inter-
vallo stesso, o:
5.1.4 Colonna 5
La colonna 5 della tavola di sopravvivenza,
rappresentata da nLx' nota come la popola-
zione stazionaria in un intervallo. Questo
concetto, ritenuto utile dagli esperti di demo-
grafia, pu essere interpretato nel modo se-
guente. Supponiamo che una coorte di
100.000 soggetti nasca ogni anno. Inoltre, as-
sumiamo che in ciascuna coorte la propor-
zione di soggetti morti nell'intervallo di et
da x a x+n sia dato da nqx nella colonna 2.
Pertanto, i tassi di mortalit specifici per et
del 1992 si applicano ad ogni coorte. Se non si
verifica alcuna migrazione e trascorre un nu-
mero sufficiente di anni, otterremo una po-
polazione stazionaria: il numero di soggetti
vivi in ogni intervallo di et rimane costante.
Appena un soggetto lascia un intervallo -
perch muore o perch diventa pi vecchio
ed entra nell'intervallo successivo - il suo po-
sto sar preso da un altro soggetto della fascia
di et precedente. Pertanto, un censimento
effettuato in qualsi asi momento rilever la
stessa popolazione con la stessa distribuzione
nelle diverse fasce di et.
La popolazione stazionaria nLx ha anche
una seconda interpretazione. Essa pu essere
considerata come il tempo total e in anni vis-
suto durante l'intervallo di et da x a x+n da-
gli lx soggetti vivi all'inizio dell'intervallo. Si
consideri, ad esempio, l'intervallo di et 1-5.
CALCOLO DELLA TAVOLA DI SOPRAVVI VENZA 83
100,000
80,000
><
'n
Cl)
'"
60,000
'>
'>
:.;
e
40,000
...
E
"
Z
20,000
o
Figura 5.2 Numero di soggetti vivi
all 'et x dalla nascita fino a 85 anni per
la popolazione degli Stati Uniti, 1992

o
Ci sono li = 99.149 soggetti vivi all'inizio di
questo intervallo. Di questi 99.149, ls =
98.978 sono ancora vivi al loro quinto com-
pleanno. Poich ognuno di questi 98.978 sog-
getti vive per l'intero periodo di quattro anni,
essi contribuiscono per 98.978 x 4 = 395.912
persone-anni al tempo totale vissuto durante
l'intervallo. Ci sono anche 4dl = 171 persone
che muoiono durante l'intervallo. Ognuno di
questi soggetti contribuisce per una certa en-
tit di persone-tempo prima di morire, pi di
zero ma meno di quattro anni. Se sommiamo
il contributo di persone-anni di ogni soggetto
morto durante l'intervallo - informazione
che non fornita nella tavola abbreviata - e lo
aggiungiamo ai 395.912 persone-anni vissuti
dai soggetti che sono sopravvissuti per l'in-
tero periodo di quattro anni, abbiamo un to-
tale di 4L I = 396.195 anni vissuti durante l' in-
tervallo di et 1-5.
Si noti che la procedu;a seguita per ottenere
questo totale uguale alla tecnica per som-
mare una serie di osservazioni presentata nel
Capitolo 3. Prima di tutto raggruppiamo i
soggetti in relazione al numero di anni che
hanno vissuto nell'intervallo. Per ciascun
gruppo, moltiplichiamo poi il numero di sog-
getti per il relativo numero di anni. Infine,
sommiamo queste quantit per ottenere il
tempo totale vissuto durante l'intervallo. An-
cora una volta, tutti i calcoli sono basati sulla
IO 20 30 40 50 60 70 80 90
Et x (anni)
assunzlOne che i tassi di mortalit specifici
per et del 1992 siano costanti durante l'in-
tero periodo di vita della coorte.
5.1.5 Colonna 6
La sesta colonna della tavola di sopravvi-
velna, T
x
' illustra la popolazione totale sta-
zionaria nell'intervallo di et da x a x+n ed in
tutti gli intervalli successivi. In altre parole,
il numero totale di persone-anni vissuti oltre
l'x-esimo compleanno dagli lx soggetti vivi a
quella data. Essa ottenuta sommando la co-
lonna 5 dal basso verso l'alto; ad esempio:
T
6S
= SL6S + SL70 + SL7S + sLso + oo Lss
= 381.393 + 334.799 + 275.667 + 204.369
+ 206.269
= 1.402.497.
5.1.6 Colon na 7
Infine,Ja colonna 7 della tavola di sopravvi-
venza, ex, il numero medio di anni che re-
stano da vivere ad un soggetto che vivo
all' et x. Essa calcolata dividendo il numero
totale di persone-anni vissuti oltre l'x-esimo
compleanno, Yx, per il numero di soggetti che
sopravvivono all'et x o oltre; dividendo per
Ix si elimina la dipendenza dalle dimensioni
della coorte originaria. Ad esempio:
84
eo = numero medio di anm che res tano da
vivere dopo la nascita
T
o
lo
7.577.757
100.000
75,8,
el = numero medio di anni che restano da
vivere dopo il primo compleanno
TI
li
7.478.482
99.149
75,4.
Se el maggiore di eo - come nel caso degli
Stati Uniti nel 1976 - ci riflette un elevato
tasso di mortalit infantile. Questo implica
che se un neonato abbastanza forte da vi-
vere fino al primo anno di vita, il periodo me-
dio di sopravvivenza successivo al primo com-
pleanno maggiore di quanto era alla nascita.
5.2 APPLICAZIONI DELLA TAVOLA
DI SOPRAVVIVENZA
Le tavole di sopravvivenza hanno diverse
applicazioni pratiche. Ci consentono di pre-
dire, ad esempio, la probabilit che ha un sog-
getto di vivere fino ad una determinata et x.
Supponiamo di voler conoscere la probabilit
che un soggetto viva dalla nascita fino al ses-
santacinquesimo anno di et o la proporzione
di soggetti che sopravvivono fi no a questa
et. Dei 100.000 soggetti nati nella coorte del
1992, 80.145 sono ancora vivi al loro sessan-
tacinquesimo compleanno. Pertanto, la pro-
porzione di soggetti che sopravvivono fino
all' et di 65 anni :
_ l65 _ 80.145
lo 100.000
0,80145
TAVOLE DJ SOPRA VVIVENZA
o circa 1'80,1 %. La probabilit che u n sog-
getto di 50 anni arrivi al sessantacinquesimo
compleanno il numero di soggetti vivi in
quell a data divi so il numero di soggetti vivi al
cinquantesimo compleanno, o:
_ l 65 _ 80.145
l50 92.562
0,86585
o circa 1'86,6%. Si noti che la probabilit di
sopravvivere fino all' et di 65 anni aumenta
se un soggetto ha gi superato il cinquante-
simo anno. Que to aumento di probabilit
- da 80,1 % a 86,6% - importante per calco-
lare i tassi di assicurazione. I! concetto di pro-
babilit sar discusso successivamente nel
Capitolo 6; adesso, consideriamo la 'probabi-
lit' come sinonimo di 'proporzione'.
Un'altra applicazione dell a tavola di so-
pravvivenza il periodo medio di opravvi-
venza, eo in particolare, spesso utili zzato per
descrivere lo stato di salute di una popolazio-
ne (4). La speranza di vita media all a nascita
negli Stati Uniti disaggregata per razza e per
sesso illustrata in Tabella 5.2 (2). Per la sua
applicazione come misura di sintesi della po-
polazione, il periodo medio di sopravvivenza
spesso utilizzato per fare confronti tra Pae-
si. In Tabella 5.3 sono illustrate le speranze di
vi ta media all a nascita in alcuni Paesi (5). In
tutti i Paesi esaminati le donne hanno una
speranza di vita pi lunga rispetto agli uomini;
solo in pochi Paesi si verifica il contrario.
I! periodo medio di sopravvivenza utiliz-
zato anche come base per il calcolo dei premi
assicurati vi sulla vita. Si ricordi, per, che la
formula ex = TJ( calcolata in base all a po-
polazione stazionaria delle colonne 5 e 6.
Tutti i calcoli dipendono dalla assunzione che
i tassi di mortalit specifici per et del 1992
restano costanti durante l'intera vita della
coorte nata in quell 'anno. In realt, i membri
della coorte sarebbero soggetti a Iqo per il
1992 durante il primo anno di vita, a Iql per il
1993 durante il secondo anno di vita, a Iq2 per
il 1994 durante il terzo anno di vita, e cos via.
Poich non sono noti i tassi di mortalit spe-
Tabell a 5.2 Speranza di vita alla nascita per razza e sesso, Stati Uniti, 1940, 1950, 1960, 1970-1992
Tutte le razze Razza bi anca Totale
Anno Entrambi Entrambi Entrambi
i sessi Maschi Femmine i sessi Maschi Femmine i sessi Maschi
1992 75,8 72,3 79,1 76,5 73,2 79,8 71,8 67,7
1991 75,5 72,0 . 78,9 76,3 72,9 79,6 71,5 67,3
1990 75,4 71,8 78,8 76,1 72,7 79,4 71,2 67,0
1989 75,1 71,7 78,5 75,9 72,5 79,2 70,9 66,7
1988 74,9 71,4 78,3 75,6 72,2 78,9 70,8 66,7
1987 74,9 71,4 78,3 75,6 72,1 78,9 71,0 66,9
1986 74,7 71,2 78,2 75,4 71,9 78,8 70,9 66,8
1985 74,7 71,1 78,2 75,3 71,8 78,7 71,0 67,0
1984 74,7 71,1 78,2 75,3 71,8 78,7 71,1 67,2
1983 74,6 71,0 78,1 75,2 71,6 78,7 70,9 67,0
1982 74,5 70,8 78,1 75,1 71,5 78,7 70,9 66,8
1981 74,1 70,4 77,8 74,8 71,1 78,4 70,3 66,2
1980 73,7 70,0 77,4 74,4 70,7 78, 1 69, 5 65,3
1979 73,9 70,0 77,8 74,6 70,8 78,4 69,8 65,4
1978 73,5 69,6 77,3 74,1 70,4 78,0 69,3 65,0
1977 73,3 69,5 77,2 74,0 70,2 77,9 68,9 64,7
1976 72,9 69,1 76,8 73,6 69,9 77,5 68,4 64,2
1975 72,6 68,8 76,6 73,4 69, 5 77,3 68,0 63,7
1974 72,0 68,2 75,9 72,8 69,0 76,7 67,1 62,9
1973 71,4 67,6 75,3 72,2 68,5 76,1 66,1 62,0
1972 71,2 67,4 75,1 72,0 68,3 75,9 65,7 61,5
1971 71,1 67,4 75,0 72,0 68,3 75,8 65,6 61,6
1970 70,8 67, 1 74,7 71,7 68,0 75,6 65,3 61,3
1960 69,7 66,6 73, 1 70,6 67,4 74,1 63,6 61,1
1950 68,2 65,6 71,1 69, 1 66,5 72,2 60,8 59, 1
1940 62,9 60,8 65,2 64,2 62,1 66,6 53,1 51,5
---- ----
Tutte le alt re r azze
Entrambi
Femmine I sessI
75,7 69,6
75,5 69,3
75,2 69,1
74,9 68,8
74,8 68,9
75,0 69,1
74,9 69,1
74,8 69,3
74,9 69,5
74,7 69,4
74,9 69,4
74, 4 68,9
73,6 68, 1
74,1 68,5
73,5 68, 1
73,2 67,7
72,7 67,2
72,4 66,8
71,3 66,0
70,3 65,0
70, 1 64,7
69,8 64,6
69,4 64, 1
66,3 ...
62,9 ...
54,9 ...
Razza ner a
Maschi
65,0
64,6
64, 5
64,3
64,4
64,7
64,8
65,0
65,3
65,2
65,1
64, 5
63,8
64,0
63,7
63,4
62,9
62,4
61,7
60,9
60,4
60, 5
60,0
. ..
...
. ..
Femmine
73,9
73,8
73,6
73,3
73,2
73,4
73,4
73,4
73,6
73,5
73,6
73,2
72,5
72,9
72,4
72,0
71,6
71,3
70,3
69,3
69,1
68,9
68,3
...
. ..
...


......
Q
t:!
O
<:
-.
O
f>1
r-
:

<:;
O
:
O
-.
'"
O
""

<:;
<:;
-.
;;;
<:

00
\J1
86
Tabella 5.3 Speranza di vita media alla nascjta in
alcuni Paesi, 1992
Percentuale
Paese
f\o
delle donne
. rispetto agli uomini
Arabla Saudita 69 104
Argentina 71 11
Australia 77 109
Brasile 66 109
Canada 77 105
Cina 71 109
Egitto
6t 104
Etiopia 47 107
Federazione Russa 69
Filippine 65 106
Finlandia 76 111
Francia 77 111
Giappone 79 108
Grecia 77 107
India 60 lOl
Israele 76 lqs
Italia 77 l9
Messico 70 110
Polonia
72 113
Regno Unito 76 107
Spagna 77 108
Stati Uniti 76 109
Svezia 78 108
Venezuela 70 109
cifici per et per gli anni successivi, nella ta-
vola di sopravvivenza essi Sono stimati in
base ai tassi di mortalit dei 1992. Come illu-
strato in Figura 5.3, per, i tass'i di mortalit
in tutte le fasce di et sono dim{nuiti negli ul-
timi anni (2). Se questo andamento dovesse
continuare, il periodo medio di sopravvi-
venza calcolato I)ella colonna 7 sarebbe in
realt una sottostima ~ l reale numero medio
di anni che restano da vivere. Pertanto, se i
soggetti vivono pi a lungo di quanto atteso e
continuano a pagare dei premi durante la loro
vita, le compagnie di assicurazioni, che utiliz-
zano ex per predire la sopravvivenza, finiran-
no con l'aumentare i loro profitti. Al contra-
rio, le agenzie governative e di Sanit Pubbli-
ca che utilizzano ex per pianificare i servizi sa-
nitari potrebbero incorrere in seri problemi.
TAVOLE DJ SOPRAVVIVENZA
5.3 ANNI DI VITA POTENZIALE PER-
DUTI
Le tavole di sopravvivenza possono essere
anche utilizzate per quantizzare la mortali t
prematura. Il miglioramento nella sopravvi-
venza durante l'ultimo secolo in Inghilterra e
Galles illustrato in Figura 5.4 (6). Sono illu-
strati i tassi di mortalit specifici per et e per
sesso negli anni 1851 e 1951. L'esperienza ne-
gli Stati Uniti stata siinile; in particolare, le
riduzioni pi significative nella mortalit si
sono verificate nelle fasce di et pi giovani. I
gruppi pi anziani non mostrano un marcato
miglioramento. Ci riflette in gran parte i
progressi ottenuti grazie alla eradicazione di
molte malattie infettive 'dell'infanzia', ed ai
notevoli miglioramenti registrati nei settori
della alimentazione, delle condizioni abitative
e delle condizioni igienico-sanitarie ambien-
tali. In altre parole, la riduzione della morta-
lit il risultato dei progressi nella preven-
zione delle malattie. Si noti che la differenza
nella sopravvivenza tra i due sessi un feno-
meno relativamente recente.
Gli operatori di Sanit Pubblica devono po-
ter determinare l'importanza relativa delle di-
verse cause di morte. La Tabella 5.4 illustra le
et medie alla morte per le sette principali
cause di morte negli Stati Uniti negli anni
1930-1945 (7). Possiamo notare che, per le
cause che tendono a colpire i giovani - come
incidenti e tubercolosi -l'et media alla morte
Tabella 5.4 Et media alla morte in anni per le
sette principali cause di morte, Stati
Uniti, 1930-1945
Causa di morte 1930 1935 1940 1945
Cerebrovascolari ". 67,5 67,7 68,5 69,1
Malattie cardiache 64,5 65,9 67,1 67,6
Nefrite 64,0 65,5 66,7 66,8
Neoplasie 61,4 62,1 62,5 63,0
Polmonitelinfluenza 40,1 43,7 47,2 46,2
Incidenti 41,3 43,8 45,5 45,8
Tubercolosi 37,4 39,9 41,7 43,7
Tutte le altre cause 35,1 38,5 42,0 43,5
Tutte le cause 48,8 52,2 55,8 57,4
. .
':. LeSIOnI mtracranlche d, ongme vascolare
ANNI DI VITA POTENZIALE PERDUTI
40,000
20,000
C
S
:..o
'"
o
o
o
o
o
....
<U
10-/ 000
~ O O O
6000
4000
2000
1000
800
600
400
o..
~ 200
'" t--<
100
80
60
40
20
Uomini
~ 85 anni
75-84 anni
.......... ... ... ... ... ....
...........
65-74 anni
..... _---------
--
-----
- .. _ .. _ .. - ~ ...
55-64 anni ' ':::::-: o-oo_oo
45-54 anni '-,--
... _------------ ...
"---,
35-44 anni
25-3,:1}.nni
,-
........... :-.,,:: ",."_.--. . .:. .-. ..... "
'-'-'15-24 anni , ...... ,. .........
1-4 anni
----...,..
5-14an;:;i ' - ... .
----
1 ~ L U ~ ~ ~ L U ~ ~ ~ L U ~ ~ ~ L U ~
195019551960196519701975198019851990
40,000
20,000
10-/000
~ O O O
6000
1000
800
600
400
200
100
80
60
40
20
Donne
~ 85 anni
..' o o o o. o 0.75-84 anni
............ ..
45-54 anni
'0
......... .
87
1 ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~
1950 1955 1960 1965 1970 1975 1980 1985 1990
Figura 5.3 Tassi di mortali t per et e sesso, Stati Uniti, 1950-1992
aumenta marcatamente nei 15 anDl ID studio
rispetto a quanto accade per le cause che col-
piscono i soggetti anziani, come ad esempio il
cancro. Questa importante differenza non
Figura 5.4 Tassi di mortalit specifici
per et e sesso per 1.000 abitanti, Inghil -
terra e Gall es, 1851 e 1951
c
S
:..o
'"
o
o
Cl
....
'" o..
~ ~
~
o
E
'ii
~
'" t--<
400
200
100
60
40
20
10
6
4
2
1
0.6
0.4
0.2
o
considerata, tuttavia, nel calcolo dei tassi di
mortalit globale per quegli anni, poich a
tutti i decessi attribuito lo stesso valore. La
maggior parte dei decessi si verifica negli an-
10 20 30 40 50 60 70 80 90
Et (anni )
88
ziani; pertanto, i dati relativi all a mortalit
sono fortemente condizionati dall e patologie
che colpiscono questi ultimi.
Si noti che gli studi sulla mortalit di soli to
si basano su informazioni fornite dai certi fi-
cati di morte. Questi dati devono essere trat-
tati con cautel a. I certificati di morte sono do-
cumenti legali , non medici. Inoltre, le proce-
dure per r edigere i certificati di morte variano
con il tempo e differiscono tra culture diverse
e spesso contengono errori nel caso di decessi
di soggetti anziani.
L'et media al momento dell a morte pu
rappresentare una importante informazione
quando utilizzata per un gruppo relativa-
mente stabile per un breve periodo di tempo.
Come altre misure grezze di sintesi, per,
essa pu essere influenzata da numerosi fat-
tori di confondimento. Come generica mi -
sura descrittiva della sopravvivenza, essa non
pi utili zzata ed stata sostituita dall e ta-
vole di sopravvivenza. Un concetto correl ato,
gli anni di vita potenziale perduti, stato in-
trodotto all' ini zio di questo secolo (8). Gli
anni di vi ta potenziale perduti non conside-
rano gli anni di vita vissuti da un soggetto, ma
gli anni di vita perduti per una morte prema-
tura, dando, quindi, pi importanza all e vite
perdute dei soggetti giovani.
Ci sono diversi modi per definire gli anni di
vita potenziale perduti. Il pi utili zzato, ri-
portato dai Centers for Disease Control and
Prevention, non considera i decessi che si ve-
rificano oltre i 65 anni (9). Ai soggetti alla na-
scita sono attribuiti 65 anni di vita potenziale.
Gli anni di vita potenziale perduti da un sog-
getto sono il numero di anni in meno ri spetto
a 65 che la persona non vive. Se un uomo di
50 anni muore per una malattia cardiaca, ad
esempio, ha perso 15 anni di vita potenziale.
Gli anni di vita potenziale perduti per una
popolazione si ottengono sommando i con-
tributi di ciascun soggetto.
Gli anni di vi ta potenziale perduti possono
essere confrontati con il tasso grezzo di mor-
talit discusso nel capitolo precedente. Si ri-
cordi che il tasso grezzo di mortalit assegna
lo stesso peso a ciascun decesso e considera
TAVOLE DI SOPRAVVIVENZA
tutti i soggetti. Gli anni di vita potenziale per-
duti, invece, assegnano maggior valore ai de-
cessi dei soggetti giovani; infatti, non si consi-
derano i decessi che si verificano oltre una
certa et.
Un secondo metodo per calcolare gLi anni
di vita potenziale perduti basato sull 'assun-
zione che la vita potenziale perduta da un
soggetto uguale al periodo medio di soprav-
vivenza residua all 'et i.n cui si verifica il de-
cesso (9). In accordo con la tavola di soprav-
vivenza degli Stati Uniti per il 1992, un uomo
di 50 anni si aspetta di vivere una media di
29,3 anni. Se questo soggetto dovesse morire
per una malattia cardi aca, perderebbe 29,3
anni di vita potenziale e non 15. Inoltre, que-
sto metodo calcola la quantit di vita perduta,
ma non assegna arbitrari amente a ciascun
soggetto un massimo di 65 anni . Pertanto,
conti nua a considerare i soggetti che vivono
oltre questa et.
Al fine di confrontare i tre metodi descritti
- il tasso grezzo di mortalit, gli anni di vi ta
potenziale perduti basato sul peri odo medio
di sopravvivenza residua e gli anni di vi ta po-
tenziale perduti prima dell 'et di 65 anni - in
Tabella 5.5 sono elencate le di eci principali
cause di morte negli Stati Uniti nel 1984 (9).
In accordo con i tassi grezzi di mortalit, la
malattia cardiaca la principale causa di
morte negli Stati Uniti; per, se consideriamo
solo i decessi che si verificano prima dei 65
anni, la principale causa sono gli infortuni.
Entrambi i metodi indicano che la seconda
causa di morte rappresentata dalle neoplasie
mali gne. Si noti che, in generale, l'ordine ge-
nerato dal metodo degli anni di vi ta poten-
ziale perduti basato sulla vi ta attesa residua si
colloca in posizione intermedia rispetto agli
ordini prodotti con gli altri due metodi.
Come detto in precedenza, i Centers for
Disease Control and Prevention calcolano gli
anni di vita potenziale perduti in base all 'as-
segnazione di 65 anni di vita alla nascita,
senza considerare i decessi che si verificano
dopo tale et. La Tabella 5.6 illustra gli anni
di vita potenziale perduti dei soggetti dece-
duti negli Stati Uniti negli anni 1986 e 1987
ANNI DI VITA POTENZIALE PERDUTI 89
Tabell a 5.5 Ordine delle lO principali cause di morte in relazione al metodo di calcolo utilizzato, Stati
Uniti,1984
Rango T asso grezzo di mortalit
Almi di vita potenziale perduti Anni di vita potenziale perduti
(Vita attesa) (Et 65)
1 Malattie cardiache Malatti e cardiache Infortuni
2 Neoplasie mali gne Neoplasie maligne Neoplasie maligne
3 Malattie cerebrovascolari Infortuni Malattie cardiache
4 Infortuni Su icidio/ omicidio Suicidi%micidio
5 Malattie polmonari ostrutti ve Malatti e cerebrovascolari Anomalie congenite
6 Polmonite/ influenza Malattie polmonari ostrutti ve Prematurit
7 Suicidi%micidio Anomalie congenite Sindrome della morte
improvvisa del neonato
8 Diabete Polmonite/influenza Malattie cerebrovascolari
9 Cirrosi Cirrosi
lO Anomali e congenite Diabete
(lO). Gli anni di vita potenziale perduti sono
diminuiti da 5.016 anni p er 100.000 abitanti
nel 1986 a 4.949 anni per 100.000 abitanti nel
1987. Sono diminuiti gli anni di vita perduti
per quasi tutte le principali cause di morte. Si
sono verificat i li evi aumenti nel numero di
anni di vita potenziale perduti per neoplasie
mali gne e malattie cerebrovascolari . Il nu-
mero di anni di vita potenziale perduti per
l'infezione da HIV aumentato considerevol-
mente del 45 %.
Con qualche calcolo algebrico possiamo di-
mostrare che, per una particolare causa di
morte, l'et media all a morte e gli anni di vita
potenziale perduti prima dei 65 anni sono
strettamente collegati . Supponiamo che in una
determinata popolazione ci siano N
65
soggetti
che muoiono prima dei 65 anni per una deter-
minata causa. Si denoti con m65 l'et media
alla morte di questi soggetti. In questo caso:
Anni di vita potenziale p.erduti = N
65
(65 - m65).
Si noti che gli anni di vita potenziale per-
duti aumentano con il diminuire di m 6S' ad
indicare che i soggetti che muoiono per
quella particolare causa muoiono prima, op-
pure con l'aumento di N
65J
ad indicare che
pi soggetti muoiono per quella causa. Se di-
vidiamo gli anni di vi ta potenziale perduti per
N
65
per ottenere il numero medio di anni per-
duti da ciascun soggetto, si ottiene sempli ce-
mente:
Anni di vita
potenziale perduti
N
65
Cirrosi
Polmonite/infl uenza
= 65 - m 65
o 65 meno l' et medi a all a mo rte.
Quando confrontiamo gli anni di vita po-
tenziale perduti in differenti gruppi o popola-
zioni, sorgono gli stessi problemi incontrati
nel confronto tra tassi grezzi di mortalit o
et medi e all a morte; in particolare, pu va-
Tabella 5.6 Anni di vita potenziale perduti prima
dei 65 anni per causa di morte, Stati
Uniti, 1986 e 1987
Anni di vita
Causa di morte
potenziale perduti
1986 1987
Tutte le cause 12.093.486 12.045.778
Infortuni 2.358.426 2.295.710
Neoplasie maligne 1.832.210 1.837.742
Malattie cardiache 1.557.041 1.494.227
Suicidi%micidio ] .360. 508 1.289.223
Anomalie congenite 661.117 642.551
Prematurit 428.796 422.813
Infezione da HIV 246.823 357.536
Sindrome della morte
improvvisa del neonato 340.43 ] 286.733
Malattie cerebrovascolari 246.131 246.479
Epatopatie croniche 231.558 228.145
Polmonite/influenza 175.386 166.775
Pneumopatie 128.590 123.260
Diabete mellito 121.117 1 ]9.155
90
riare la dimensione delle popolazioni e la loro
struttura per et. Per correggere le differenze
nella dimensione delle popolazioni, possiamo
calcolare un tasso di anni di vita potenziale
perduti per 1.000 abitanti. Inoltre, stata pro-
posta una tecnica simile al metodo diretto di
standardizzazione in cui si utili zza una popo-
lazione standard per standardizzare gli anni
di vita potenziale perduti per le differenze
nella composizione per et (1 1). Sebbene que-
sti approcci siano rilevanti, non sembrano
aver incontrato un vasto consenso e sono ap-
plicati raramente.
TAVOLE Dr SOPRAVVIVENZA
5.4 ULTERIORI APPLICAZIONI
La Tabella 5.7 una tavola di sopravvi-
venza abbreviata per la popolazione degli
Stati Uniti per il 1990 (12). Supponiamo di
voler completare la tabella.
Si ricordi che la colonna 1 della tavola di
sopravvivenza contiene l'intervallo di et
compreso tra x e x + n, la colonna 2 elenca la
proporzione di soggetti vivi all'inizio dell'in-
tervallo che muoiono' durante l' intervallo
stesso e la colonna 3, Lx, elenca il numero di
soggetti della coorte originaria di 100.000 che
sono ancora vivi al loro x-esimo compleanno.
Tabella 5.7 Tavola di sopravvivenza abbreviata per la popolazione totale, Stati Uniti, 1990
Intervallo Proporzione Periodo
di et di soggetti Dei 100.000 nati vivi Popolazione stazionaria medio di
che muoiono sopravvivenza
Periodo Proporzione Numero Numero Nell'intervallo In questo Numero
di vita di soggetti vivi di soggetti di soggetti di et ed in tutti medio di anni
tra due et all'inizio VIVI che muoiono gli intervalli che restano
precise dell'intervallo all'inizio durante di et da vivere
di et che muoiono dell'intervallo l'intervallo successIvI all'inizio
durante lo stesso di et di et dell'intervallo
intervallo di et di et
(1) (2) (3) (4) (5) (6) (7)
da x a x + n
nqx ix ndx /lLx
T
x
ex
0-1 0,0093 100.000 927 99.210 7.535.219 75,4
1-5 0,0018 99.073 183 395.863 7.436.009 75,1
5-10 0,0011 98.890 118 494.150 7.040.146 71,2
10-15 0,0013 98.780 127 493.654 6.545.996 66,3
15-20 0,0044 98.653 430 492.290 6.052.342 61,3
20-25 0,0055 98.223 539 489.794 5.580.052 56,6
25-30 0,0062 97.684 607 486.901 5.070.258 51,9
30-35 0,0077 97.077 743 483.571 4.583.357 47,2
35-40 0,0099 96.334 952 479.425 4.099.786 42,6
40-45 0,0126 95.382 1.203 474.117 3.620.361 38,0
45-50 0,0187 94.179 1.759 466.820 3.146.244 33,4
50-55 0,0290 92.420 2.685 455.809 2.679.424 29,0
55-60 0,0457 89.735 4.101 439.012 2.223.615 24,8
60-65 0,0706 85.634 6.044 413.879 1.784.603 20,8
65-70 0,1029 79.590 8.186 378.369 1.370.724 17,2
70-75 0,1519 330.846
75-80 0,2211 270.129
80-85 0,3239 197.857
~ 85 1,0000
(
193.523
~
ULTERIORI APPLICAZIONI
La colonna 4, ndx, mostra il numero di lx vivi
all'inizio dell'intervallo da x a x+n che
muoiono durante tale intervallo. I calcoli
delle colonne 3 e 4 sono interdipendenti.
Cos l 70 - il numero di soggetti degli origi-
nari 100.000 che sono vivi all'et di 70 anni -
uguale al numero di soggetti che erano vivi
all'et di 65 anni meno il numero di coloro
che sono morti tra il sessantacinquesimo ed il
settantesimo compleanno; in particolare:
l 70 = l 65 - 5
d
65
= 79.590 - 8.186
= 71.404.
Il numero di soggetti morti durante l'inter-
vallo 70-75, 5d70, uguale al numero di sog-
getti vivi al settantesimo compleanno molti-
plicato per la proporzione di soggetti morti
durante l'intervallo; pertanto:
5
d
70 = l70 X 5q70
= 71.404 x 0,1519
= 10.846.
Allo stesso modo, possiamo completare le
colonne 3 e 4 calcolando:
e
l 75 = l 70 - 5
d
70
= 71.404 - 10.846
= 60.558,
5
d
75 = l 75 X 5q75
= 60.558 x 0,2211
= 13.389,
lso = l 75 - 5
d
75
= 60.558 - 13.389
= 47.169,
5
d
SO = lso x 5QSO
= 47.169 x 0,3239
= 15.278,
lS5 = lso - 5
d
SO
= 47.169 - 15.278
= 31.891
ood
S5
= l S5 X ooQ S5
= 31.891 x 1,0000
= 31.891.
La colonna 5 della tavola di sopravvivenza,
nLx, contiene la popolazione stazionaria, o il
91
numero totale di persone-anni vive durante
l'intervallo di et compreso tra x e x+n dagli
lx soggetti vivi all'inizio dell'intervallo. La co-
lonna 6, T
x
, specifica il numero totale di per-
sone-anni vissuti oltre l'x-esimo compleanno.
Esso calcolato sommando la colonna 5 dal
basso verso l'alto. Pertanto, abbiamo:
e
T
S5
= oo LS5
= 193.523,
TSO = 5
L
SO + oo
L
S5
= 5
L
SO + T
S5
= 197.857 + 193.523
= 391.380,
T
75
= 5
L
75 + T
80
= 270.129 + 391.380
= 661.509
T
70
= 5
L
70 + T
75
= 330.846 + 661.509
= 992.355.
La colonna 7 della tavola di sopravvivenza,
ex, mostra il numero medio di anni che re-
stano da vivere ad un soggetto che vivo
all'et x. Essa calcolata dividendo il numero
totale di persone-anni vissuti oltre l'x-esimo
compleanno per il numero di soggetti ancora
vivi a quella data; cos:
o _ T
70
e
7
0- -
l 70
992.355
71.404
13,9,
o T
75
e75=-
l75
661. 509
60.558
10,9,
o _ T
80
eso--
l so
391.380
47.169
8,3
92
e
o T
S5
eS5=-
l S5
193.523
31.891
= 6,1.
Un soggetto che raggiunge l'ottantacinque-
simo anno di et ha una media di 6, 1 anni di
vita residui.
Si noti che il periodo medio di sopravvi-
venza alla nascita, eo, non la stessa cosa
dell'et medi a della morte. Si considerino i
dati in tabella a pi di pagina che confrontano
l' Inghilterra con la Francia e la Svezia (13).
La tabella pu essere spiegata cos:
L'et media alla morte di 34 an ni in Francia,
31 anni in Svezia e 29 anni in Inghilterra; inoltre,
sappiamo che ' la speranza di vita' maggiore in
Inghilterra che in Svezia o in Francia. Una So-
ciet che garantisce dell e rendite annuali a bam-
bini dovrebbe effettuare in media 40 pagamenti
in Inghilterra e solo 38 in Svezia.
La durata media della vi ta calcolata utiliz-
zando la tavola di sopravvivenza. L'et media
alla morte, per, semplicemente l'et media
di tutti i soggetti morti in un determinato pe-
riodo di tempo; il suo valore dipende dalla
composizione in et della popolazione in
esame.
Ritornando all a tavola di sopravvivenza per
gli Stati Uniti nel 1990, supponiamo di voler
conoscere la probabilit che ha un neonato di
sopravvivere fino a 75 anni. Degli lo = 100.000
nati della coorte, l 75 = 60.558 sono ancora vivi
a 75 anni. Pertanto, la probabilit di sopravvi-
vere dalla nascita fino ai 75 anni :
Durata media
Paese
di vita
Inghilterra (1841 ) 41 anni
Francia (1817- 1831) 40 anni
Svezia (1801-1805) 39 anni
60.558
100.000
0,606
60,6%.
TAVOLE DI SOPRAVVI VENZA
Si noti che ques ta la proporzione di sog-
getti che sono vivi a 75 anni. Se un membro
della coorte ha gi raggiunto i 30 anni, la pro-
babilit di sopravvivere fino all'et di 75 anni
:
l 75
60.558
130
97.077
0,624
62,4%.
Se il soggetto ha 70 anni, la probabilit di
sopravvivere altri ci nque anni :
l75
60.558
l 70
71.404
0,848
84,8%.
Quanti pi anni un soggetto ha gi vissuto,
pi elevata la probabilit di sopravvIvere
fino all ' et di 75 anni.
5.5 ESERCIZI
1. Descrivere due applicazioni pratiche
della tavola di sopravvivenza.
2. Che cos' una funzione di rischio?
3. Spiegare il concetto di popolazione sta-
zionaria in un intervallo di una tavola di so-
pravvIvenza.
4. Perch le maggiori ri duzioni nell a morta-
lit nel secolo scorso si sono verificate nei
soggetti pi giovani?
Et media Un decesso
alla morte ogni
29 anni 46 vivi
34 anni 42 vivi
31 anni 41 vivi
ESERCI ZI 93
(1) (2) (3) (4) (5)
Et umero Persone-anni Tasso Persone-anni
di soggetti vivi di vita vissuta di istitu zionalizzazione in istituzioni
O
15
25
45
65
(6)
Persone-anni
al di fuori
delle istituzioni
1.472.411
969.985
1.891.111
1.689.014
982.595
] 00.000
98.004
96.408
92.509
72.274
(7)
Persone-anni totali
al di fuori delle
istituzioni
dall'et x in poi
1.475.419
972.823
1.896.306
] .699.064
1.037.206
(8)
umero medio
di anni che restano
da vivere al di fuori
delle istituzioni
5. Qual la differenza tra gli anni di vita
potenziale perduti ed i tassi grezzi di mor-
talit come mi ura descrittiva di sopravvi-
venza?
6. Uno studio che esamina la vita della po-
polazione maschile in Canada in diversi stati
di salute presenta un'interessante appli ca-
zione della tavola di sopravvivenza (14). Nel
costruire la tavola, riportata ad inizio pagina,
gli Autori hanno diviso le persone-anni vis-
suti durante un determinato intervallo di et,
nLx, in persone-anni vissuti in istituzioni e
persone-anni vissuti al di fuori delle istitu-
zioni. La tavola di sopravvivenza pu adesso
essere utilizzata per determinare il numero
medio di anni che restano da vivere al di fuori
delle istituzioni.
Le colonne 2 e 3 elencano i valori di Lx e nLx
della tavola di sopravvivenza del 1978 per la
popolazione maschile in Canada. I tassi di
istituzionalizzazione illustrati nella colonna 4
sono stati ottenuti dalla Canadian Health
Survey.
a. Spiegare come sono state calcolate le co-
lonne 5 e 6.
b. Completare le colonne 7 e 8 della tavola. Si
noti che la colonna 8 il numero medio di
0,0020387 3.008
0,0029]73 2.838
0,0027395 5.195
0,0059150 10.050
0,0526520 54.611
anni che restano da vivere al di fuori delle
istituzioni per tutti gli uomini inclusi nello
studio.
7. All'inizio della vita adulta, gli uomml
hanno un tasso di morte accidentale e vio-
lenta pi elevato rispetto all e donne.
a. Spiegare l'effetto che ci avrebbe su una
tavola di sopravvivenza degli uomini ri -
spetto all a corri pondente tavola per le
donne relativamente ai tassi di mortalit
specifici per et all'inizio della vita adulta.
b. In che modo ci potrebbe influenzare la
speranza di vita per gli uomini rispetto alle
donne in queste fasce di et?
8. Di seguito sono riportati i periodi medi
di sopravvivenza a diverse et per gli uomini
di due Paesi - il Malawi, che ha una delle pi
basse speranze di vita all a nascita, e l'Islanda,
che ha una delle pi elevate (15).
Periodo medio di sopravvivenza (anni)
Et Malawi Islanda

40,9 73,7
47,9 73,3
5 60,8 69,5
15 55,0 59,8
25 47,3 50,6
35 40,3 41,2
45 34,0 31,9
55 27,7 23,4
a. el Malawi, la speranza di vita all' et di 1
anno sette anni maggiore di quanto sia
alla nascita. Da quale fenomeno ci cau-
sato?
b. Sulla base del confronto dei periodi medi
di sopravvivenza all a nasci ta, potreste as-
sumere che i tassi di mortalit specifici per
94
et nel Malawi siano pi elevati di quelli
dell'Islanda per tutte le et. Non per
questo il caso. Spiegare come si perviene a
questa conclusione confrontando la spe-
ranza di vita alle et successive.
9. Di seguito riportata la speranza media
di vita in anni a tre differenti et per la popo-
lazione maschile e femminile in Svezia in un
periodo di due secoli (16).
Periodo
Sesso
Speranza media di vita
di tempo O 60 80
1755-1776 Maschile 33,20 12,24 4,27
Femminile 35,70 13,08 4,47
1856-1860 Maschile 40,48 13,12 3,12
Femminile 44,15 14,04 4,91
1936-1940 Maschile 64,30 16,35 5,25
Femminile 66,90 17,19 5,49
1971-1975 Maschile 72,07 17,65 6,08
Femminile 77,65 21,29 7,28
La tabella stata usata per provare che la
durata della vita sta aumentando. Commen-
tare i risultati della tabella, fornendo un'inter-
pretazione degli andamenti della speranza di
vita a diverse et e per la popolazione ma-
schile rispetto a quella femminile.
10. Di seguito sono elencati alcuni valori di
Lx, il numero di soggetti vivi all' et x, desunti
dalle tavole di sopravvivenza per le donne di
razza bianca della popolazione degli Stati
Uniti per gli anni 1909-1911 e 1969-1971.
Et

15
45
75
Numero di sopravvissuti
su 100.000 nati vivi
1909-1911 1969-1971
100.000 100.000
83.093 97.902
69.341 94.649
26.569 63.290
a. Calcolare le probabilit di sopravvivere
dalla nascita all'et di 15 anni, dall'et di 15
a 45 e dall' et di 45 a 75 per ciascuna
coorte.
b. Se la probabilit di sopravvivere da un' et
x all' et x+n PI negli anni 1909-1911 e P2
TA VaLE Dr SOPRA vvrVENZA
negli anni 1969-1971, la percentuale rela-
tiva di miglioramento nella sopravvivenza
(P2-PI)/PI- Quale gruppo di et ha la
maggiore percentuale relativa di migliora-
mento nella sopravvivenza?
11. Utilizzare la Tabella 5.1, la tavola di so-
pravvivenza del 1992 per gli Stati Uniti (2).
a. Qual la probabilit di sopravvivere dalla
nascita fino a 80 anni?
b. Se un soggetto raggiunge il cinquantesimo
compleanno, qual la probabilit che viva
fino a 80 anni?
c. Qual la probabilit di sopravvivere dalla
nascita fino a 10 anni? A 30 anni? A 50
anni?
d. Se un bambino raggiunge il primo com-
pleanno, qual la probabilit che soprav-
viva fino al decimo compleanno? AI tren-
tesimo? Al cinquantesimo?
e. Qual la probabilit che un soggetto di 25
anni sopravviva altri 10 anni? Un quaran-
tacinquenne? Un sessantacinquenne?
f. Qual la probabilit che un soggetto di 10
anni sopravviva altri 20 anni? Altri 40
anni? Altri 60 anni?
12. Il numero di decessi per neoplasie nel
1984 ed i corrispondenti anni di vita poten-
ziale perduti sono di seguito illustrati per uo-
mini e donne (17). In questo esempio, gli anni
di vita potenziale perduti per un soggetto
sono definiti come la speranza di vita all' et
in cui si verifica il decesso.
Uomini
Donne
Numero
di decessi
242.763
210.687
Anni di vita
potenziale perduti
3.284.558
3.596.723
Sebbene un maggior numero di uomini sia
morto per neoplasie, le donne hanno perduto
un numero pi elevato di anni di vita poten-
ziale. Spiegare come ci possa accadere.
13. Per calcolare la tavola di sopravvivenza
degli Stati Uniti per il 1940, assumiamo che i
tassi di mortalit specifici per et nel 1940 ri-
mangano costanti per tutta la durata della vita
ESERCIZI
di una coorte nata in quell'anno. Q uesti tassi
di mortalit sono elencati nella colonna 2
della tabella di seguito riportata. In teoria, co-
munque, pu essere utilizzata qualsiasi serie
di tassi di mortalit specifici per et. I reali
tassi di mortalit dell a coorte nata nel 1940
fino all'et di 49 anni sono riportati nell a co-
lonna 3 della tabella. Per le et maggiori o
uguali a 50 anni sono stati utilizzati i tassi del
1989. Si notino le differenze nelle due co-
lonne.
(1 ) (2) (3)
Intervallo Proporzione Proporzione
di et di soggett i che di soggetti
mUOIono che muoiono
(1940) (reale)
da x a x + n
nqx nqx
0- 1 0,0549 0,0549
1-5 0,0115 0,0101
5-10 0,0055 0,0038
10- 15 0,0050 0,0028
15-20 0,0085 0,0056
20-25 0,0119 0,0053
25-30 0,0139 0,0077
30-35 0,0169 0,0077
35-40 0,0218 0,0123
40-45 0,0301 0,0106
45-50 0,0427 0,0247
50-55 0,0624 0,0300
55-60 0,0896 0,0473
60-65 0,1270 0,0728
65-70 0,1812 0,1055
70-75 0,2704 0,1568
75-80 0,3946 0,2288
80-85 0,5941 0,3445
:2: 85 1,0000 1,0000
a. Senza eseguire alcun calcolo, predire quale
serie di tassi di mortalit determiner la pi
elevata speranza di vita alla nascita.
b. Completare le tavole di sopravvivenza cor-
rispondenti a ciascuna serie di tassi. Si as-
suma che tutti i decess i in un intervall o si
verifichino nel suo punto medio, tranne
l'ultimo intervallo, dove tutti i decessi si
verificano all'et di 91 anni. Si dimostri
cos che, anche con le semplificazioni e le
approssimazioni menzionate, la discre-
panza tra le due speranze di vita alla na-
scita superiore a cinque anni.
95
c. Quali potrebbero essere le implicazioni di
questa differenza nella speranza di vita?
14. La Tabella 5.2 mostra la speranza media
di vita alla nascita dal 1940 al 1992 in base al
sesso ed alla razza (2). I dati relativi ai maschi
ed alle femmine di ogni razza sono registrati
nel file chiamato lifeexp nel CD allegato alli-
bro (Appendice B, Tabella B.9). Le speranze
di vi ta per i maschi e per le femmine sono re-
gistrate, rispettivamente, nella variabile male
e nell a variabile female.
a. Utilizzando questi dati, disegnare un dia-
gramma lineare che illustri l'andamento
di eo nel tempo per i maschi verso le fem-
m1l1e.
b. Come cambia la speranza media di vita alla
nascita nel corso degli anni? Le differenze
tra maschi e femmine sono aumentate o di -
minuite?
15. Al fine di esaminare le potenziali diffe-
renze nella speranza di vita tra razze, la spe-
ranza media di vita all a nascita dal 1970 al
1989 di quattro gruppi selezionati dalla popo-
lazione americana stata registrata nel file
chiamato liferace nel CD allegato allibro (18)
(Appendice B, Tabella B.10). La speranza di
vita per i maschi di razza bianca registrata
nella variabile wmale, per i maschi di colore
nella variabi le bmale, per le femmine di razza
bianca nella variabile wfemale e per le fem-
mine di colore nella variabile bfemale.
a. Disegnare un diagramma lineare che illu-
stri la variazione in eo nel tempo per ognu-
no dei quattro gruppi .
b. Descrivere le differenze nella speranza me-
dia di vita tra maschi e femmine, tra sog-
getti di razza bianca e soggetti di colore.
c. Dal 1984 al 1989 la speranza media di vita
dell'intera popolazione americana au-
mentata dello 0,5 all 'anno. Che cosa cam-
biato nella speranza di vita dei maschi di
razza bianca in questo periodo di tempo?
I n quella dei maschi di colore? In quella
delle femmine di razza bianca? In quella
delle femmine di colore? Q uali fattori ri te-
nete possono causare questa differenza?
Tabella 5.8 Tavola di sopravvivenza completa per la popolazione totale, Stati Uniti, 1979-1981
Proporzione di soggetti
In tervallo di et che muoiono Dei 100.000 nati vivi Popolazione stazionaria
Proporzione
di soggetti vivi Numero Numero In questo
Periodo di vita all'inizio dell'intervallo di soggetti vivi di soggetti che Nell'intervallo ed in tutti
tra due et precise di et che muoiono all'inizio muoiono durante di et gli in tervalli
durante lo stesso dell'intervallo l' intervallo di et successivi
intervallo di et di et di et
(1) (2) (3) (4) (5) (6)
da x ax + n
nqx Ix ndx nLx
T
x
Giorni
0-1 .... . .......... 0,00463 100.000 463 273 7.387.758
1-7 ........... . ... 0,00246 99.537 245 1.635 7.387.485
7-28 .............. 0,00139 99.292 138 5.708 7.385.850
28-365 ........... 0,00418 99.154 414 91.357 7.380.142
Anni
0-1 ............... 0,01260 100.000 1.260 98.973 7.387.758
1-2 ... ........... . 0,00093 98.740 92 98.694 7.288.785
2-3.. ... . . . . ..... . 0,00065 98.648 64 98.617 7.190.091
3-4 . ... . . .... .. . . . 0,00050 98.584 49 98.560 7.091.474
4-5 ............... 0,00040 98.535 40 98.515 6.992.914
5-6 ............... 0,00037 98.495 36 98.477 6.894.399
6-7 ..... .... .. . .. . 0,00033 98.459 33 98.442 6.795.922
7-8 ............... 0,00030 98.426 30 98.412 6.697.480
8-9 .... . .......... 0,00027 98.396 26 98.383 6. 599.068
9-10 .. . .. . ........ 0,00023 98.370 23 98.358 6.500.685
10-11 ............ 0,00020 98.347 19 98.338 6.402.327
11-12 . ... . . ... . . . 0,00019 98.328 19 98.319 6.303.989
12-13 . ... ... . .. ... 0,00025 98.309 24 98.297 6.205.670
13-14 ............ 0,00037 98.285 37 98.266 6.107.373
14-15 ............ 0,00053 98.248 52 98.222 6.009.107
Periodo medio
di sopravvivenza
Numero medio
di anni
che restano
da vivere all'inizio
dell'intervallo di et
(7)
ex
73,88
74,22
74,38
74,43
73,88
73,82
72,89
71,93
70,97
70,00
69,02
68,05
67,07
66,08
65,10
64,11
63,12
62,14
61,16
-.D
O'

<::
O
r-
'"
b
......
v,
O

<::


:<:

15-16 ............... 0,00069 98.196 67
16-17 .. ............. 0,00083 98.129 82
17-18 . ......... . .. .. 0,00095 98.047 94
18-19 ... . ........... 0,00105 97.953 102
19-20 ...... .... . ... . 0,00112 97.851 110
20-21 ....... .. ... . .. 0,00120 97.741 11 8
21 -22 ... .. ... .. . ... . 0,00127 97.623 124
22-23 .. .. ... .. ..... . 0,00132 97.499 129
23-24 ... . . .... . ... .. 0,00134 97.370 130
24-25 ..... ... .. ..... 0,00133 97.240 130
25-26 ............. . . 0,00132 97.110 128
26-27 . ... . ... .. .. .. . 0,00131 96.982 126
27-28 ......... . ..... 0,00130 96.856 126
28-29 ............... 0,00130 96.730 126
29-30 .. . . ... ........ 0,00131 96.604 127
30-31 ............... 0,00133 96.477 127
31-32 ..... .. ........ 0,00134 96.350 130
32-33 .. ............. 0,00137 96.220 132
33-34 ............... 0,00142 96.088 137
34-35 ............... 0,00150 95.951 143
35-36 .. . ... ....... .. 0,00159 95.808 153
36-37 .. . ....... .... . 0,00170 95.655 163
37-38 ... ... ......... 0,00183 95.492 175
38-39 ............... 0,00197 95.317 188
39-40 ..... .. ... .. . . . 0,00213 95.129 203
40-41 ..... .. ... .. .. . 0,00232 94.926 220
41-42 .......... .. .. . 0,00254 94.706 241
42-43 ............. . . 0,00279 94.465 264
43-44 ............... 0,00306 94.201 288
44-45 . . .. . . . ... .. .. . 0,00335 93.913 314
45-46 . . .. .. ......... 0,00366 93.599 343
46-47 .. ... .......... 0,00401 93.256 374
47-48 . ........ . ..... 0,00442 92.882 410
48-49 ..... . .... . .... 0,00488 92.472 451
49-50 . . .. .. .. ....... 0,00538 92.021 495
98.163 5.910. 885
98.087 5.812.722
98.000 5.714.635
97.902 5.616.635
97.796 5.518.733
97.682 5.420.937
97.561 5.323.255
97.435 5.225.694
97.306 5.128.259
97.175 5.030.953
97.046 4.933.778
96.919 4.836.732
96.793 4.739.813
96.667 4.643.020
96.541 4.546.353
96.414 4.449.812
96.284 4.353.398
96.155 4.257.114
96.019 4.160.959
95.880 4.064.940
95.731 3.969.060
95.574 3.873.329
95.404 3.777.755
95.224 3.682.351
95.027 3.587.127
94.817 3.492.100
94.585 3.397.283
94.334 3.302.698
94.057 3.208.364
93.756 3.114.307
93.427 3.020.551
93.069 2.927.124
92.677 2.834.055
92.246 2.741.378
91.773 2.649.132
60,19
59,24
58,28
57,34
56,40
55,46
54,53
53,60
52,67
51,74
50,81
49,87
48,94
48,00
47,06
46,12
45,18
44,24
43,30
42,36
41,43
40,49
39,56
38,63
37,71
36,79
35,87
34,96
34,06
33,16
32,27
31,39
30,51
29,65
26,79
(continua)
Ci
r"
;;;,
C
--.
t::
>oD
'-l
Tabella 5.8 (continua)
Proporzione di soggetti
Intervallo di et che muoiono Dei 100.000 nati vivi
Proporzione
di soggetti vivi Numero Numero
Periodo di vita all'inizio dell'intervallo di soggetti vivi di soggetti che
tra due et precise di et che muoiono all'inizio muoiono durante
durante lo stesso dell'intervallo l'intervallo
intervallo di et di et di et
(1) (2) (3) (4)
da x a x + n
"qx
ix ,A,
50-51 ............... 0,00589 91.526 540
51-52 ............... 0,00642 90.986 584
52-53 ............... 0,00699 90.402 631
53-54 . . . ..... . ...... 0,00761 89.771 684
54-55 ............... 0,00830 89.087 739
55-56 ... ..... . . ..... 0,00902 88.348 797
56-57 .............. . 0,00978 87.551 856
57-58 ............... 0,01059 86.695 919
58-59 ... ............ 0,01151 85.776 987
59-60 ............... 0,01254 84.789 1.063
60-61 ....... .... .... 0,01368 83.726 1.145
61-62 ............... 0,01493 82.581 1.233
62-63 ............... 0,01628 81.348 1.324
63-64 ............... 0,01767 80.024 1.415
64-65 ............... 0,01911 78.609 1.502
65-66 ............... 0,02059 77.107 1.587
66-67 ............... 0,02216 75.520 1.674
67-68 ....... . ...... . 0,02389 73.846 1.764
68-69 ...... . ....... . 0,02585 72.082 1.864
69-70 ............... 0,02806 70.218 1.970
70-71 ............... 0,03052 68.248 2.083
71-72 ............... 0,03315 66.165 2.193
72-73 ............... 0,03593 63.972 2.299
73-74 ............... 0,03882 61.673 2.394
74-75 ............... 0,04184 59.279 2.180
Popolazione stazionaria
In questo
Nell'intervallo ed in tutti
di et gli intervalli
di et successivi
(5) (6)
"Lx
T
x
91.256 2.557.359
90.695 2.466.103
90.086 2.375.408
89.430 2.285.322
88.717 2.195.892
87.950 2.107.175
87.122 2.019.225
86.236 1.932.103
85.283 1.845.867
84.258 1.760.584
83.153 1.676.326
81.965 1.593.173
80.686 1.511.208
79.316 1.430.522
77.859 1.351.206
76.314 1.273.347
74.683 1.197.033
72.964 1.122.350
71.150 1.049.386
69.233 978.236
67.206 909.003
65.069 841.797
62.823 776.728
60.476 713.905
58.039 653.429
Periodo medio
di sopravvivenza
Numero medio
di anni
che restano
da vivere all'inizio
dell'intervallo di et
(7)
ex
27,94
27,10
26,28
25,46
24,65
23,85
23,06
22,29
21,52
20,76
20,02
19,29
18,58
17,88
17,19
16,51
15,85
15,20
14,56
13,93
13,32
12,72
12,14
11,58
Il,02
'-D
co

<::
o
t'-
'"
tJ
.....
v,
o

<::
:::
;;;
<::

75-76 ............... 0,04507 56.799 2.560
76-77 ............... 0,04867 54.239 2.640
77-78 ............... 0,05274 51.599 2.721
78-79 ............... 0,05742 48.878 2.807
79-80 ............... 0,06277 46.071 2.891
80-81 ....... . ....... 0,06882 43.180 2.972
81-82 ............... 0,07552 40.208 3.036
82-83 ............... 0,08278 37.172 3.077
83-84 ............... 0,09041 34.095 3.083
84-85 ............... 0,098"42 31.012 3.052
85-86 ............... 0,10725 27.960 2.999
86-87 ............... 0,11712 24.961 2.923
87-88 .. ... .......... 0,12717 22.038 2.803
88-89 .. .. . .......... 0,13708 19.235 2.637
89-90 ........ . ...... 0,14728 16.598 2.444
90-91 ............... 0,15868 14.154 2.246
91-92 ............... 0,17169 11.908 2.045
92-93 ............... 0,18570 9.863 1.831
93-94 ............... 0,20023 8.032 1.608
94-95 ............... 0,21495 6.424 1.381
95-96 ............... 0,22976 5.043 1.159
96-97 ............... 0,24338 3.884 945
97-98 . ......... . . ... 0,25637 2.939 754
98-99 ............... 0,26868 2.185 587
99-100 ........... .. . 0,28030 1.598 448
100-101 ............ 0,29120 1.150 335
101-102 ............ 0,30139 815 245
102-103 ....... . .... 0,31089 570 177
103-104 ............ 0,31970 393 126
104-105 ............ 0,32786 267 88
105-106 ............ 0,33539 179 60
106-107 ... . ........ 0,34233 119 41
107-108 ............ 0,34870 78 27
108-109 ............ 0,35453 51 18
109-110 ............ 0,35988 33 12
55.520
52.919
50.238
47.475
44.626
41.694
38.689
35.634
32.553
29.486
26.461
23.500
20.636
17.917
15.376
13.031
10.886
8.948
7.228
5.733
4.463
3.412
2.562
1.892
1.374
983
692
481
330
223
150
99
64
42
27
595.390
539.870
486.951
436.713
389.238
344.612
302.918
264.229
228.595
196.042
166.556
140.095
116.595
95.959
78.042
62.666
49.635
38.749
29.801
22.573
16.840
12.377
8.965
6.403
4.511
3.137
2.154
1.462
981
651
428
278
179
115
73
10,48
9,95
9,44
8,93
8,45
7,98
7,53
7,11
6,70
6,32
5,96
5,61
5,29
4,99
4,70
4,43
4,17
3,93
3,71
3,51
3,34
3,19
3,05
2,93
2,82
2,73
2,64
2,57
2,50
2,44
2,38
2,33
2,29
2,24
2,20


>o
Q
t:
-.o
-.o
100
16. La speranza di vi ta media alla nascita
negli anni 1960 e 1992 per alcuni Paesi regi-
strata nelle variabili life60 e life92 nel file
chiamato unicef nel CD allegato al libro (5)
(Appendice B, Tabella B.2).
a. Disegnare un diagramma a scatola della
speranza di vita media all a nascita nel 1960.
Descrivere la distribuzione di valori.
b. Di segnare un diagramma a scatola della
speranza di vita all a nascita nel 1992. Co-
me cambiata la distribuzione di valori?
c. Se la speranza di vita media all a nascita nel
1960 rappresentata da el960 e la speranza
di vita media nel 1992 da e1992> il miglio-
ramento percentuale relativo nell' arco dei
32 anni ( e199rel96o)/e1960. Quale Paese
mostra il mi glioramento percentuale rela-
ti vo pi elevato? Quale quello pi basso?
Bibliografia
1. FRIES J. F.: Agi ng, natural death, and the com-
pression of morbidity. The New England
Joumal of Medicine, 303:130-135, 1980.
2. NATIONAL CE TER FOR H EALTH STATISTlCS,
KOCl-IANEK K.D., H UOSON B.L.: Advance re-
port of final mortali ty statistics, 1992. Monthly
Vital Statistics Report, Volume 43, Number 6,
March 22, 1995.
3. ATI O AL CE TER FOR H EALTH STATISTlCS:
United States decennial life tab/es far 1979-
1980. Volume I, umber 1, August 1985.
4. VANOENBROUCKE J.P.: Survival and expectation
of li fe from the 1400s to the present: a study of
the knighthood order of the golden fleece.
American Joumal of Epidemi%gy, 122:1007-
1015, 1985.
5. UNlTED N ATIONS CHILDREN' S FUNO: The state
of the world's children 1994. Oxford Univer-
sity Press, New York.
6. T AYLOR L, K OWELDEN J.: Principles of epide-
miology. Churchill, London, 1957.
7. DI CKINSON F.G., WELKER E.L.: What is the
TA VOLE DJ SOPRAVVI VENZA
leading cause of death? Two new measures.
Bull etin 64, American Medicai Association,
Chi cago, 1948.
8. D EMPSEY M.: Decl ine in Tuberculosis: the death
rate fails to tell the entire story. American Re-
view ofTuberculosis, 86:157-164, 1947.
9. CENTERS FOR DI SEASE CONTROL: Premature
mortality in the United States: public health is-
sues in the use of years of potential life lost.
Morbidity and Mortality Weekly Report, Vo-
lume 35, umber 2S December 19, 1986.
lO. ENTERS FOR DISEASE CONTRO L: YPLL before
age 65: United States, 1987. Morbidity and
Mortality Weekly Report, Volume 38, umber
2, January 20, 1989.
Il. H AENSZEL W.: A standardized rate for morta-
lity defined in units of lost years of life. Ame-
ricanJoumal of Public Health, 40:17-26, 1950.
12. N ATIONAL CENTER FOR H EALTH STATISTICS:
Advance report of final mortality statistics,
1990. Monthly Vital Statistics Report, Volume
41, umber 7, January 7, 1993.
13. FARR W.: Vital statistics: a memorial volume
of selections from the reports and writings o[
William Farr. T he Sanitary Institute of Great
Britain, Londo n, 1883.
14. WILKI S R., AOAMS O.B.: H ealth expectancy in
Canada, late 1970s: demographi c, regional, and
social dimensions. American Joumal o[ Public
Health, 73: 1073- "1080, 1983.
15. U ITEO N ATIONS: Expectation of life at speci-
fied ages for each sex. Demographic Yearbook
1982, New York, 1984.
16. MEOAWAR P.: The strange case of the spotted
mice, and other classic essays on science.
Oxford University Press, O xford , 1996.
17. H ORM J.W., S NOIK E.J.: Person-years of life
lost due to cancer in the United States, 1970
and 1984. American Joumal o[ Public Health,
79: 1490- 1493,1989.
18. K CHANEK K.D., MAURER J.D., ROSENBERG
H .M.: Why did black life expectancy decline
from 1984 through 1989 in the United States?
American Joumal of Public Health, 84:938-
944, 1994.
Probabilit
Nei capitoli precedenti abbiamo studiato in
che modo possibile utilizzare la statistica
descrittiva per organizzare e sintetizzare i
dati. Tuttavia, oltre a voler descrivere una se-
rie di osservazioni, potremmo essere anche
interessati ad esami nare come possibile uti-
lizzare le informazioni di un campione per
fare inferenze sull e caratteristiche della popo-
lazione da cui il campione stato estratto.
Prima di tutto, per, necessario costruire le
opportune basi. La teoria della probabilit il
fondamento dell'inferenza statistica. Nel Ca-
pitolo 5 abbiamo utilizzato il termine proba-
bilit come sinonimo di proporzione. Prima
di fornire una definizione pi precisa, ne-
cessario chiarire il concetto di evento.
6.1 OPERAZIONI SUGLI EVENTI E
PROBABILIT
Un evento l'elemento di base al quale pu
essere applicata la probabilit; esso il risul-
tato di un'osservazione o di un esperimento,
o la descrizione di un 'potenziale risultato.
Potremmo, ad esempio, considerare l'evento
che una donna di 30 anni viva fino al suo set-
tantesimo compleanno o l' evento che alla
stessa donna venga diagnosticato un cancro
della cervice prima di aver compiuto 40 anni.
Un altro evento potrebbe essere la fusione di
un impianto nucleare nei prossimi dieci anni.
Un evento si verifica o non si verifica. Nello
studio della probabilit, gli eventi sono rap-
presentati da lettere maiuscole come A, B e C.
6
possibile eseguire diverse operazioni su-
gli eventi . L'intersezione di due eventi A e B,
indicata come A n B, definita come l'evento
'sia A che B'. Ad esempio, A l'evento che
una donna di 30 anni viva fino al suo settan-
tesimo compleanno e B l'evento che il ma-
rito di questa donna, anche lui di 30 anni, sia
ancora vivo all' et di 70 anni. L'intersezione
di A e B sarebbe l'evento che la donna di 30
anni e suo marito siano vivi all'et di 70 anni.
L'unione di A e B, indicata come A U B,
l'evento 'A o B, o entrambi'. Nell' esempio
precedente, l'unione di A e B sarebbe l'evento
che la donna di 30 anni o suo marito, anche
lui di 30 anni, vivano fino all' et di 70 anni, o
che entrambi vivano fino all'et di 70 anni.
Il di un evento A, indicato
con AC o A, l'evento 'non A'. Pertanto, AC
l'evento che la donna di 30 anni muoia prima
di raggiungere l'et di 70 anni.
Queste tre operazioni - l'intersezione,
l'unione ed il complemento - possono essere
utilizzate per descrivere anche le situazioni
pi compl esse in termini di semplici eventi.
Per rendere pi pratico tale concetto, pos-
siamo utili zzare il diagramma di Venn al fine
di descrivere le relazioni tra eventi. N ella Fi-
gura 6.1, ad esempio, l'area all'interno di cia-
scun riquadro rappresenta tutti i risultati pos-
sibili. All'interno dei riquadri, i cerchi indi-
cati con A rappresentano i risultati per i quali
una donna di 30 anni vive fino all'et di 70
anni, e quelli indicati con B i risultati per i
quali suo marito, anche lui di 30 anni, vive
fino a 70 anni. L'intersezione di A e B rap-
102
A B
(a)
A B
(b)
A
C
(c)
Figura 6.1 Diagrammi di Venn che rappresentano le
operazioni sugli eventi
presentata dall'area in cui i due cerchi si so-
vrappongono e che, nella Figura 6.1 (a), la
porzione grigia. L'unione di A e B la por-
zione grigia in Figura 6.1 (b) ed l'area che
rappresenta A o B o entrambi. Il comple-
mento di A, come illustrato in Figura 6.1 (c),
qualsiasi elemento all'interno del riquadro
che giace al di fuori di A.
Possiamo ora discutere il concetto di pro-
babilit. Come sistema matematico, la teoria
della probabilit ben definita. Poich vo-
gliamo applicare questa teoria, per, abbiamo
bisogno di una definizione applicativa. Sono
state proposte molte definizioni di probabi-
lit; quella qui presentata la definizione fre-
quentista. Essa afferma che:
Se un esperimento ripetuto n volte in condi-
zioni sostanzialmente identiche, e se l'evento A si
verifica m volte, all'aumentare di n il rapporto m/n
PROBABI LlT
si avvicina ad un limite fisso che la probabilit
diA;
P(A) =
m
n
In altre parole, la probabilit di un evento
A la frequenza relativa con cui l'evento si
verifica - o la proporzione di volte con cui
l'evento si verifica - in una lunga serie di
esperimenti ripetuti in condizioni virtual-
mente identiche. La natura pratica di questa
definizione la rende un po' vaga, anche se ap-
pare efficace.
Come applicazione della definizione fre-
quentista, possiamo determinare la probabi-
lit che un neonato viva fino al suo primo
compleanno. Si faccia riferimento alla Tabella
5.1, la tavola di sopravvivenza relativa al 1992
per la popolazione degli Stati Uniti (l). Tra i
100.000 soggetti nati in questa coorte - consi-
deriamo questi neonati come 'esperimenti' -
l'evento di sopravvivenza al primo anno di
vita si verifica 99.149 volte. Pertanto:
P(un bambino sopravvive
al primo anno di vita)
99.149
100.000
== 0,99149.
Assumiamo che 100.000 casi sia un numero
sufficientemente elevato per soddisfare la de-
finizione frequentista di probabilit.
Il valore numerico di una probabilit
compreso tra O e 1. Se un particolare evento si
verifica con certezza, la sua probabilit n/n
= 1. Ancora, A indica l'evento che una donna
di 30 anni viva fino a 70 anni. In questo caso:
P(A U A C) = P(A o N o entrambi)
= P(una donna di 30 anni vive fino
ai 70 anni o non vive fino ai 70
anni)
= 1,
poich sicuro che la donna vivr o morir.
In Figura 6.1 (c), A e AC riempiono l'intero ri-
quadro. Si noti, inoltre, che impossibile che
A e A C si verifichino contemporaneamente. Se
un evento non pu mai verificarsi, la sua pro-
babilit O/n = O; pertanto:
OPERAZfONf SUGLI EVENTI E PROBABfLlT
P(A n N) = P(A e N)
= P( una donna di 30 anni vi ve fino
ai 70 anni e non vive fino ai 70
anni)
= O.
Un evento che non pu mai verificarsi
detto evento nuLLo ed rappresentato dal sim-
bolo l/J. Pertanto, A n A c = l/J. La maggior
parte degli eventi ha una probabilit di verifi-
carsi compresa tra O e 1.
Utilizzando la definizione frequentista della
probabilit di un evento A, possiamo calco-
lare la probabilit dell' evento complementare
AC in modo molto semplice. Se un esperi-
mento viene ripetuto n volte in condizioni
sostanzialmente identiche e l'evento A si ve-
rifica m volte, l'evento AC, o non A, si verifica
n - m volte. Pertanto, per n molto grandi:
P(AC) =
n-m
n
= 1- m
n
= 1- P(A).
La probabilit che un neonato non soprav-
viva al suo primo anno di vita 1 meno la
probabilit che invece sopravviva, o:
1 - 0,99149 = 0,00851.
Due eventi A e B che non possono ven-
ficars i contemporaneamente sono definiti
mutuamente esclusivi o disgiunti. Ad esem-
pio, se A l'evento che il peso di un neonato
alla nascita inferiore a 2.000 grammi e B
l'evento che il suo peso tra 2.000 e 2.499
grammi, gli eventi A e B sono mutuamente
escl usivi. Un neonato non pu essere con-
temporaneamente presente nei due gruppi.
Per definizione, A n B = l/J e P(A n B) = O.
Nella Figura 6.2 i cerchi non sovrapposti rap-
presentano eventi mutuamente esclusivi.
Quando due eventi sono mutuamente
esclusivi, il principio deLLa somma della pro-
babilit afferma che la probabilit del verifi-
carsi dell'uno o dell'altro evento uguale alla
103
B
Figura 6.2 Diagramma di Venn che rappresenta due
eventi mutuamente esclus ivi
somma delle probabilit di ciascuno dei due
eventi; pi chiaramente:
P(A U B) = P(A) + P(B).
Supponiamo di sapere che la probabilit
che il peso di un neonato alla nascita sia infe-
riore ai 2.000 grammi 0,025 e la probabilit
che il peso sia tra 2.000 e 2.499 grammi
0,043. La probabilit che si verifichi uno di
questi due eventi, cio la probabilit che il
bambino pesi meno di 2.500 grammi :
P(A U B) = 0,025 + 0,043
= 0,068.
Il principio della somma pu essere esteso
al caso di tre o pi eventi mutuamente esclu-
sivi. Se Al' A
2
, .. , e An sono n eventi tali che
Al n A
2
= l/J, AI n A3 = l/J, A
2
n A3 =l/J, e cos
via per tutte le coppie possibili, allora:
P(A
l
UA
2
U ... UA
n
) = P(A
I
) + P(A
2
) + ... + P(A
n
)
Se gli eventi A e B non sono mutuamente
esclusivi, come in Figura 6.1 (b), non possi-
bile applicare il principio della somma. Sia A
l'evento che il peso di un neonato alla nascita
inferiore a 2.000 grammi e B l'evento che
il suo peso inferiore a 2.500 grammi . Poich
i due eventi possono verificarsi contempora-
neamente - ad esempio un neonato il cui peso
alla nascita 1.850 grammi - essi si sovrap-
porranno in un'area determinata. Se som-
miamo le probabilit dei singoli eventi, que-
sta area di sovrapposizione sar calcolata due
volte. Pertanto, quando due eventi non sono
mutuamente esclusivi, la probabilit che al-
meno uno dei due eventi si verifichi uguale
104
alla somma dell e probabilit singole meno la
probabi li t dell a loro intersezione:
P(A U B) = P(A) + P(B) - P(A n B).
6.2 PROBABILIT CONDIZIONALE
Si amo spesso interessati a determinare la
probabilit che un evento B si verifichi dato
che gi conosciamo il risultato di un altro
evento A. Il verificarsi di A modifi ca la pro-
babilit di B? Invece di calcolare la probabi-
li t che un soggetto viva fino all' et di 65
anni, ad esempio, potremmo voler conoscere
la probabilit che un soggetto sopravviva per
i successivi cinque anni dato che ha gi rag-
giunto i 60 anni. In questo caso, siamo in pre-
senza di una probabilit condizionale. La no-
tazione P(B I A) utili zzata per rappresentare
la probabilit dell' evento B dato che l'evento
A si gi verificato.
Il principio del prodotto della probabilit
afferma che la probabi lit che si verifi chino
entrambi gli eventi A e B uguale alla proba-
bilit di A moltiplicato la probabilit di B,
dato che A si gi verificato. Formalmente:
P(A n B) = P(A) P(B I A).
Poich una scelta arbitraria quale evento
chiamiamo A e quale chiamiamo B, possiamo
anche scrivere:
P(A n B) = P(B) P(A I B).
Dividendo entrambi i termini della prima
equazione per P(A), troviamo che la formul a
della probabilit condi zionale :
P(B I A) = P(A n B)
P(A)
dato che P(A) .. o. All o stesso modo, ab-
biamo che:
P(A I B) = P(A n B)
P(B)
dato che P(B) .. O.
Se A l'evento che un soggetto ha 60 anni e
B l'evento che tale soggetto viva fino a 65
PROIJAlJfLlTA
anni, A n B l'evento che il soggetto sia vivo
all' et di 60 anni ed anche all' et di 65 anni. Se
un soggetto vivo all 'et di 65 anni , egli deve
essere vivo anche all 'et di 60 anni; pertanto,
A n B semplicemente l'evento che il sog-
getto sopravviva fino al suo se santacinque-
simo compleanno. In accordo con la tavola di
sopravvivenza del 1992 per la popolazione
degli Stati Uniti:
P(A) P(un soggetto vivo a 60 anni)
85.993
100.000
0,85993.
In altri termini, l'evento A si verifi ca 85.993
volte su 100.000 soggetti . All o stesso modo:
P(A n B) = P(un soggetto vivo a 65 anni)
80.145
100.000
= 0,80145.
Pertanto:
P(B I A) = P(un soggetto vivo a 65 anni I
lo stesso vivo a 60 anni )
P(A n B)
P(A)
0,80145
0,85993
= 0,9320.
Un modo analogo per calcolare ques ta pro-
babilit sarebbe parti re dagli 85.993 soggetti
vivi all' et di 60 anni e notare che l'evento che
essi sopravvivano fino all ' et di 65 anni si ve-
ri fica 80.145 volte. Quindi:
P(B I A) = 80.145
85.993
= 0,9320.
Se un soggetto vivo all'et di 60 anni, la
sua probabilit di sopravvivere fino all 'et di
65 anni maggiore di quanto fosse all a na-
sCIta.
TEOREMA DI BA YES
Quando esaminiamo due eventi tali che il
verificarsi di uno non ha alcuna influenza sul
verificarsi o il non verificarsi dell 'altro, si di ce
che i due eventi sono indipendenti. Se A e B
sono eventi indipendenti, allora:
P(A I B) = P(A)
e
P(B I A) = P(B).
In questo caso particolare, il principio del
prodotto della probabilit pu essere scritto:
P(A n B) = P(A) P(B).
importante notare che i termini indipen-
denti e mutuamente esclusivi non hanno lo
stesso significato. Se A e B sono indipendenti
e si veri fica l' evento A, ci non influenza il ri-
sultato dell'evento B. L'evento B pu verifi-
carsi oppure no e P(B I A) = P(B). Se A e B
sono mutuamente esclusivi, per, e si verifica
l'evento A, l'evento B non pu verificarsi . Per
definizione, P(B I A) = O.
6.3 TEOREMA DI BA YES
Nel Capitolo 4 sono stati presentati alcuni
dati della ational Health Interview Su rvey
degli anni 1980-1981 (2). I dati si riferiscono
alle alterazioni dell e capacit uditive dovute
ad infortuni riportate da soggetti di et mag-
giore o uguale a 17 anni. I 163.157 soggetti in-
clusi nello studi o sono stati di visi in tre cate-
gorie mutuamente esclusive: gli impiegati , i
di soccupati e coloro che non fanno parte
dell a forza lavoro.
Posizione lavorativa
Alterazioni
capacit uditive
Impiegati 98.917 552
Disoccupati 7.462 27
Non nella forza lavoro 56.778 368
Totale 163.157 947
Sia E I l'evento che un soggetto incluso
nell'indagine sia impiegato, E
2
l'evento che il
soggetto sia di soccupato ed E} l'evento che il
soggetto non faccia parte della forza lavoro.
105
Se assumiamo che questi numeri sono suffi-
cientemente grandi per soddi sfare la defini -
zione frequentista della probabilit, dai dati
forniti troviamo che:
e
163.157
0,6063,
7.462
163.157
0,0457
56.778
163.157
0,3480.
Se S l'evento che un soggetto incluso nello
studi o sia impiegato o di soccupato o non fac-
cia parte della forza lavoro, allora:
S=E
1
UE
2
UE}.
Poich le tre categori e sono mutuamente
esclusive, si pu appli care il principi o della
somma della probabilit:
P(S) P(E I U E
2
U E})
P(E
1
) + P(E
2
) + P(E})
0,6063 + 0,0457 + 0,3480
1,0000.
Quando le probabilit di eventi mutuamen-
te esclusivi sommano a 1, si dice che gli eventi
sono esaustivi; in questo caso non ci sono al-
tri possibili ri sultati. Pertanto, ogni soggetto
incluso nell ' indagine deve ri entrare in uno dei
tre gruppI.
Ora, sia H l'evento che un soggetto abbia
un'alterazione delle capacit uditive dovuta
ad infortunio. Quindi :
P(H) =
947
163.157
0,0058.
Osservando separatamente ogni gruppo re-
lativamente alla posizione lavorativa:
106
e
P(H I El) = P(un soggetto ha una alterazio-
ne delle capacit uditive I lo
stesso impiegato)
552
98.917
= 0,0056,
P(H I E
2
) = P(un soggetto ha una alterazio-
ne delle capaci t uditive I lo
stesso disoccupato)
27
7.462
= 0,0036
P(H I E}) = P(un soggetto ha una alterazio-
ne delle capacit uditive I lo
stesso non fa parte della forza
lavoro)
368
56.778
= 0,0065.
La probabilit di presentare un'alterazione
delle capacit uditive minima tra i soggetti
disoccupati e massima tra coloro che non
fanno parte della forza lavoro.
Si noti che H, l'evento che un soggetto ab-
bia un'alterazione delle capacit uditi ve do-
vuta ad infortunio, pu essere espresso come
l'unione di tre eventi mutuamente esclusivi:
E I n H, l'evento che un soggetto sia impie-
gato ed abbia un'alterazione delle capacit
uditive; E
2
n H, l'evento che un soggetto sia
disoccupato ed abbia un'alterazione delle ca-
pacit uditive; E} n H, l'evento che il sog-
getto non faccia parte della forza lavoro ed
abbia un'alterazione delle capacit uditive.
Cos:
H = (El n H) U (E
2
n H) U (E} n H).
Ciascun soggetto con una alterazione delle
capacit uditive pu essere inserito in una ed
una sola di queste tre categorie. Poich le ca-
PROBABI LIT
tegorie sono mutuamente esclusive, possiamo
applicare il principio della somma; pertanto:
P(H) = P[(E I n H) U (E
2
n H) U (E} n H)]
= P[(E
I
nH) + p(E
2
nH) +P(E} n H)].
Questa talvolta chiamata legge della pro-
babilit totale.
Appli cando il principio del prodotto a cia-
scun termine del lato destro dell'equazione
separatamente ed inst!rendo le probabilit
precedentemente calcolate:
P(H) = P(E
I
n H) + p(E
2
n H) + P(E} n H)
= P(E
I
) P(H I El) + P(E
2
) P(H I E
2
)
+ P( E}) P(H I E})
= 0,0034 + 0,0002 + 0,0023
= 0,0059.
Questi calcoli sono riassunti nella tabella di
seguito riportata, in cui i, il pedice dell'evento
E, assume un valore tra 1 e 3.
Evento E; P(E
i
) P(HI E
i
) P(Ei)P(H lEi)
El
0,6063 0,0056 0,0034
E
2
0,0457 0,0036 0,0002
E} 0,3480 0,0065 0,0023
P(H) 0,0059
Se ignoriamo l'errore di arrotondamento in
questi calcoli, il valore 0,0059 il valore che
abbiamo calcolato all'inizio come la probabi-
lit che un soggetto presenti un'alterazione
delle capacit uditive dovuta ad infortunio:
P(H) =
947
163.157
0,0058.
L'espressione pi complessa:
P(H) = P(E
I
) P(H I El) + P(E
2
) P(H I E
2
)
+ P(E}) P(H I E})
pu essere utile quando non siamo in grado
di calcolare direttamente P(H).
Supponiamo ora di voler cambiare prospet-
tiva e cerchiamo di calcolare P(E I I H), la pro-
babilit che un soggetto sia impiegato dato
che lo stesso presenta un'alterazione delle ca-
TEST DIAGNOSTI CI
pacit uditive. Il principio del prodotto della
probabilit afferma che:
P(E
I
n H) = P(H) P(E
I
I H);
quindi:
P(E
I
I H) = P(E
I
n H)
P(H)
Appli cando il principio del prodotto al nu-
meratore del lato destro dell'equazione, ab-
biamo:
Sostituendo con quanto ottenuto prima:
P(H) = P(E
I
) P(H I El) + P(E
2
) P(H I E
2
)
+ P(E)) P(H I E)),
si ha:
Questa espressione non certo incoraggiante
nota come teorema di Bayes. Sostituendo a
tutti i termini i valori numerici delle probabi-
lit, si ha:
(0,6063) (0,0056)
P(E IIH) = ----'---'--'---'--
(0,6063) (0,0056) + (0,0457) (0,0036)
+ (0,3480) (0,0065)
= 0,583.
La probabilit che un soggetto sia impie-
gato dato che ha un'alterazione delle capacit
uditive dovuta ad infortunio circa 0,583. In
questo particolare esempio, il risultato pu
essere direttamente controllato facendo rife-
rimento ai dati originali. Tra i 947 soggetti
con alterazione delle capacit uditive, 552 so-
no impiegati. Pertanto:
P(EIIH) = 552
947
= 0,583.
Il teorema di Bayes non limitato alle si-
tuazioni in cui i soggetti rientrano in uno di
107
tre distinti gruppi. Se AI, A
2
, ... , e An sono n
eventi mutuamente esclusivi ed esaustivi, tali
che:
P(A I U A
2
U ... U An) = P(A
I
) + P(A
2
) + ... + P(A
Il
)
=1
allora il teorema di Bayes afferma che:
per ogni i, 1 s i s n.
Il teorema di Bayes molto utile perch
consente di ricalcolare una probabilit in ba-
se a nuove informazioni. el l'esempio della
N ational Health Interview Survey, sappiamo
che:
P( un soggetto impiegato)
0,6063.
Se entriamo in possesso di un'ulteriore
informazione - ad esempio, che un determi-
nato soggetto ha un'alterazione delle capacit
uditi ve dovuta ad infortunio - cambia la no-
stra valutazione della probabilit che questo
soggetto sia impiegato? Abbiamo osservato
che cos . Applicando il teorema di Bayes,
abbiamo rilevato che:
P(EIIH) =P(un soggetto impiegato I lo
stesso ha una alterazione delle
capacit uditive)
=0,5832.
Dopo aver saputo che un soggetto presenta
un'alterazione delle capacit uditive, la pro-
babilit che questo soggetto sia impiegato di-
minuisce lievemente.
6.4 TEST DIAGNOSTICI
Il teorema di Bayes spesso utilizzato nella
valutazione di test diagnostici o screening. Lo
screening l'applicazione di un test a soggetti
che non presentano ancora alcuna sintomato-
logia clinica al fine di classificarli in base alla
probabilit di essere affetti da una particolare
malattia. Coloro che risultano positivi al test
hanno una maggiore probabilit di avere la
108
malattia e sono di soli to sottoposti ad ulte-
riori procedure diagnostiche o terapeutiche.
Lo screening di solito utili zzato dagli ope-
ratori sanitari in situazioni in cui l' individua-
zione precoce della malattia pu contribui re
ad una prognosi pi favorevole per il sog-
getto o per la popolazione in generale. Il teo-
rema di Bayes ci consente di utili zzare la pro-
babilit per valutare le incertezze associate.
6.4.1 Sensibilit e Specificit
Supponiamo di essere interessati a due con-
dizioni di salute mutuamente esclusive ed
esaustive: D
1
l'evento che un soggetto af-
fetto da una particolare malattia e D
2
l' even-
to che il soggetto non presenti la malattia. Po-
tremmo utili zzare la notazione pi sintetica
definita in precedenza - precisamente D e DC
- ma vogliamo sottolineare che la situazione
pu essere generali zzata in modo da inclu-
dere tre o pi eventi. Sia T+ un risultato posi-
tivo al tes t di screening. Vogli amo trovare
P(D I I T+), la probabilit che un soggetto con
un risultato positivo al test sia realmente ma-
lato.
Il cancro della cervice uterina una malattia
per la quale la probabilit di recupero ele-
vata in caso di individuazione precoce. Il Pap
tes t una procedura di screening ampiamente
diffusa che pu individuare un cancro anche
se ancora asinto matico; si ritiene che tale
metodica sia responsabi le dell a diminuzione
del tasso di mortalit per cancro della cervice
negli ultimi anni. N egli anni 1972, 1973 e
1978 stata condotta un'indagine negli Stati
Uniti per valutare la competenza dei tecnici
che esaminano i vetrini del Pap test per indi-
vi duare eventuali anomalie (3). Sono stati esa-
minati i risultati riferiti ai tecnici di 306 labo-
ratori di citologia in 44 Stati.
In totale, il 16,25 % dei test eseguiti su
donne affette da cancro ha dato risultati falsa-
mente negativi . Un falso negativo si verifica
quando il test di una donna affetta da cancro
della cervice indica erroneamente l'assenza
della malattia. Pertanto, in questo studi o:
PROBABIUTA
P(test negativo I cancro) = 0,1625.
Il rimanente 100 - 16,25 = 83,75% delle
donne affette da cancro della cervice risul-
tato realmente posi tivo; pertanto:
P(test positivo I cancro) = 0,8375.
La probabi lit di un risultato po itivo al
test dato che il soggetto esaminato real-
mente affetto dall a patologia in esame chia-
mata la sensibilit di un test; in questo studio,
la sensibilit del Pap test era 0,8375.
on tutte le donne testate erano realmente
affette da cancro della cervice. Infatti, il
18,64% dei tes t erano risultati falsi positivi;
ci implica che:
P(test positivo I non cancro) = 0,1864.
La specificit di un test la probabilit che
il suo risultato sia negativo dato che il sog-
getto esaminato non malato. In questo stu-
dio, la specifi cit del Pap tes t era:
P( test negativo I non cancro) = 1 - 0,1864
= 0,8136.
6.4.2 Applicazioni del teorema di Bayes
Ora che abbi amo esaminato l'accuratezza
del Pap test tra le donne affette e non affette
da cancro della cervice, possiamo rispondere
al quesito di interesse per i soggetti e aminati
e per gli operatori sanitari : qual la probabi-
lit che una donna con un Pap test positivo
per cancro sia realmente malata? Sia DI
l'evento che una donna sia affetta da cancro
della cervice e D
2
l'evento che la donna non
lo sia. Inoltre, sia T+ un Pap test positivo. Vo-
gli amo calcolare P(D
I
I P). Applicando il
teorema di Bayes, possiamo scrivere:
P(DII P) = P(DI n P)
P(T+)
P(DI) P(P I DI )
Sappi amo gi che P(T+ I DI ) = 0,8375 e
P(P I D
2
) = 0,1864. Dobbiamo ora determi-
nare P(DI) e P(D
2
) .
TEST DIAGNOSTf Cf
P(D
1
) la probabilit che una donna sia af-
fetta da cancro della cervice. Pu anche essere
interpretata come la proporzione di donne
affette da cancro della cervice in un dato mo-
mento, o la prevalenza della malattia. Una
fonte riferisce che il tasso di casi di cancro
della cervice nelle donne esaminate negli anni
1983-1984 era 8,3 per 100.000 (4). U tiliz-
zando questi dati:
P(D
1
) = 0,000083.
P(D
2
) la probabilit che una donna non
sia affetta da cancro della cervice. Poich D
2

il complemento di D I:
P(D
2
) = 1 - P(D
1
)
= 1 - 0,000083
= 0,999917.
Pertanto, sostituendo queste probabilit
nella formula del teorema di Bayes :
0,000083 x 0,8375
(0,000083 xO,8375) + (0,999917 xO,1864)
=0,000373.
P(D I I 7+), la probabilit di avere la malatti a
dato un risultato positivo del test, chi amata
il valore predittivo di un test positivo. In que-
sto caso, ci di ce che per ogni 1.000.000 di Pap
109
test positivi, solo 373 erano casi reali di can-
cro della cervice.
Il teorema di Bayes pu essere anche utili z-
zato per calcolare il valore predittivo di un
tes t negativo. Se T- rappresenta un risultato
negativo del test, il valore predittivo negativo
o la probabilit dell' assenza di malattia dato
un risultato negativo del test uguale a:
P(D
2
) P(T- I D
2
)
P(D
2
IT-) =----------
P(D
2
) P(T- I D
2
) +P(D
1
) P(T- I DI)
0,999917 x 0,8136
(0,999917 xO,8136) + (0,000083 xO,1625)
= 0,999983.
Pertanto, per ogni 1.000.000 di donne con
Pap test negativo, 999.983 non erano affette
da cancro della cervice. La Figura 6.3 illustra
i risultati dell 'intero percorso diagnostico. Si
noti che tutti i valori sono stati arrotondati al
numero intero pi VIClno.
Sebbene il Pap tes t sia ampiamente accet-
tato come test di screening per il cancro della
cervice, il suo livello di accuratezza, conside-
rato elevato in passato, ora messo in discus-
sione. Alcuni studi sti mano che la propor-
zione di falsi negativi sia del 20-40%, o addi -
rittura dell '89% (5,6). La proporzione di falsi
1.000.000 Donne
Presenza di cancro della cervice uterina
83
Sensibilit
= 0,8375
Test +
70
Test-
13
Prevalenza
= 0,000083
Assenza di cancro della cervice uterina
999.917
Test +
186.385
Specificit
= 0,8136
Test-
813.532
Test +
186.455
Risultati del test osservati
Test -
813.545
Figura 6.3 Efficacia del Pap test come test diagnostico per il cancro della cervice uterina
110
positivi risultata deIl'86%. Alcuni errori di
laboratorio sono dovuti a tecniche poco ac-
curate di campionatura delle cellule o ad
un'inadeguata preparazione dei campioni; al-
tri sono una conseguenza dell'elevato nu-
mero di vetrini che i tecnici di laboratorio de-
. . .
vono esam111are 111 un gIOrno.
Come secondo esempio dell'applicazione
del teorema di Bayes nella valutazione di test
diagnostici, consideriamo i seguenti dati. Dei
1.820 soggetti di uno studio, 30 soffrivano di
tubercolosi e 1.790 no (7). Tutti i soggetti fu-
rono sottoposti a radiografia del torace; 73
presentarono una radiografia positiva - ad in-
dicare l'esistenza di una patologia infiamma-
toria - mentre i risul tati degli altri 1.747 erano
negativi. I dati di questo studio sono presen-
tati nella tabella di seguito riportata. Qual la
probabilit che un soggetto selezionato ca-
sualmente sia affetto da tubercolosi dato che
la sua radiografia risultata positiva?
R.'ldiografia
Tubercolosi
Totale
No Si
Negativa 1.739 8 1.747
Positiva 51 22 73
Totale 1.790 30 1.820
Sia D) l'evento che un soggetto sia affetto
da tubercolosi e D
2
l'evento contrario. Questi
due eventi sono mutuamente esclusivi ed
esaustivi. Sia T+ una radiografia positiva. Vo-
gliamo calcolare P(D) I P), la probabilit che
un soggetto risultato positivo alla radiografia
per la tubercolosi sia realmente malato. Ci
rappresenta il valore predittivo positivo della
radiografia del torace. Applicando il teorema
di Bayes, possiamo scrivere:
Pertanto, per calcolare P(D) I T+), dob-
biamo prima conoscere P(D)), P(D
2
), P(P I
D)) e P(P I D
2
).
P(D)) la probabilit che un soggetto nella
popolazione generale sia affetto da tu berco-
losi. Poich i 1.820 soggetti non sono stati se-
PROBABILIT
lezionati casualmente dalla popolazione, la
prevalenza della malattia non pu essere otte-
nuta dalla tabella. el1987, tuttavia, vi erano
9,3 casi di tubercolosi per 100.000 abitanti (8).
Con il diffondersi del virus dell a immunode-
ficienza umana (HIV) questo numero au-
mentato considerevolmente, ma per questo
. . .
esempIO possiamo stimare:
P(D)) = 0,000093.
P(D
2
) la probabilit che un soggetto non
sia affetto da tubercolosi. Poich D
2
il com-
plemento dell'evento D):
P(D
2
) 1 - P(D))
1 - 0,000093
= 0,999907.
P(T+ I D)) la probabilit di una radiogra-
fia positiva dato che un soggetto affetto da
tubercolosi - la sensibilit del test. In questo
studio, la sensibi lit della radiografi a :
22
P(T+ID))= -
30
= 0,7333.
P(T+ I D
2
), la probabilit di una radiografia
positiva dato che un soggetto non affetto da
tubercolosi, il complemento della specifi-
cit. Pertanto:
P(T+ I D
2
) = 1 - P(T- I D
2
)
1 _ 1.739
1.790
1 - 0,9715
= 0,0285.
Uti lizzando tutte queste informazioni, pos-
siamo ora calcolare la probabilit che un sog-
getto sia affetto da tubercolosi dato che lo
stesso ha una radiografia positiva; questa pro-
babilit :
(0,000093) (0,7333)
=--------------------------
(0,000093 )(0,7333) + (0,999907)(0,0285)
= 0,00239.
TEST DIA GNOSTICI
Per ogni 100.000 radiografie positive, solo
239 rappresentano casi reali di tubercolosi.
Si noti che, prima della radiografia, un sog-
getti selezionato casual mente dalla popo-
lazione degli Stati Uniti ha una probabilit
pan a:
9,3/ 100.000 = 0,000093 = 0,0093%
di essere affetto da tubercolosi. Questa pro-
babilit definita probabilit a priori. Dopo
una radiografia ed il risultato positivo, lo
stesso soggetto ha una probabilit pari a:
239/ 100.000 = 0,00239 = 0,239%
di essere affetto da tubercolosi . Questa pro-
babilit definita probabilit a posteriori. La
probabilit a posteriori considera una nuova
informazione - il risultato positivo del test.
Sebbene 99.761/ 100.000 soggetti con radio-
grafia positiva non abbiano in realt la malat-
tia, la probabilit di diagnosticare corretta-
mente la tubercolosi aumentata in modo
considerevole. Poich 0,00239/ 0,000093 =
25,7, la probabilit che un soggetto con ra-
diografia positiva sia affetto da tubercolosi
25,7 volte maggiore della probabilit che un
soggetto selezionato casualmente dalla popo-
lazione sia malato.
6.4.3 Curve ROC
La diagnosi un processo imperfetto. In
teoria, sarebbe auspicabi le poter disporre di
un test che sia altamente sensibile ed alta-
mente specifico. In realt, per, tale test non
esiste. Molti test sono basati su misurazioni
cliniche che possono assumere un range di
valori; in questo caso, si talvolta costretti a
privilegiare la sensibilit o la specificit.
Si consideri la Tabella 6.1. Questa tabella il-
lustra i dati di un programma di trapianto re-
naie in cui sono stati eseguiti omotrapianti
(9). Come strumento diagnostico per indivi-
duare potenziali rigetti stato utilizzato il li-
vello di creatinina sierica (composto chimico
presente nel sangue) in milligrammi %. Un in-
cremento del livello di creatinina spesso as-
sociato ad una successiva insufficienza renale.
111
Tabella 6.1 Sensibilit e specificit del livello di
creatinina sierica per predire il rigetto
del trapianto
Creatinina sieri ca
(mg %)
Sensibilit Specificit
1,2 0,939 0,123
1,3 0,939 0,203
1,4 0,909 0,281
1,5 0,818 0,380
1,6 0,758 0,461
1,7 0,727 0, 535
1,8 0,636 0,649
1,9 0,636 0,711
2,0 0,545 0,766
2,1 0,485 0,773
2,2 0,485 0,803
2,3 0,394 0,811
2,4 0,394 0,843
2,5 0,364 0,870
2,6 0,333 0,891
2,7 0,333 0,894
2,8 0,333 0,896
2,9 0,303 0,909
Se utilizziamo un livello superiore a 2,9 mg
% come indicatore di rigetto imminente, il
test ha una sensibilit di 0,303 ed una specifi-
cit di 0,909. Per aumentare la sensibilit,
possiamo abbassare il punto arbi trario di cm
off che distingue un risultato positivo da uno
negativo; se utilizziamo il valore di 1,2 mg %,
ad esempio, sar definita positiva una propor-
zione molto pi elevata di risultati. In questo
caso difficile non identificare un paziente
che presenter il ri getto dell' organo. Nello
stesso tempo, per, aumenta la probabilit di
un risultato falso positivo, diminuendo cos la
specificit. In alternativa, aumentando la spe-
cificit, difficile classificare erroneamente
un paziente che non presenter il rigetto del -
l'organo, riducendo tuttavia la sensibilit. In
generale, un test sensibile preferibile quan-
do la mancata individuazione di una malattia
ha conseguenze pericolose; un test specifico
importante quando un risultato falso positivo
dannoso.
112
La relazione tra sensibilit e specificit pu
essere illustrata utilizzando un grafico noto
come curva Roe (Receiver Operator Cha-
racteristic curve). La curva ROC un grafico
lineare che traccia la probabilit di un risul-
tato vero positivo - o sensibilit del tes t - in
funzione della probabilit di un risultato
falso positivo per una serie di punti di cut oH.
Questi grafici sono stati inizialmente utiliz-
zati nel settore delle comunicazioni . La Fi-
gura 6.4, ad esempi o, illu tra una curva ROC
per i dati in Tabella 6.1. Q uando si valuta un
test diagnostico, questo grafioo pu essere di
aiuto per stabilire l' utilit del test e per deter-
minare l'appropriato puntoJdi cut oH. La li-
nea tratteggiata in Figura 6'.4 corrisponde ad
un tes t che fornisce a caso" r isultati positivi e
negativi e che quindi non possiede alcun va-
lore intrinseco. Il test risulter pi accurato
quanto pi questa linea sar prossima all' an-
golo superi ore sinistro del grafico. Inoltre, il
punto pi vicino a tal e angolo di solito
scelto come punto di cut oH in grado di mas-
simizzare contemporaneamente la sensibilit
e la specificit del tes t.
6.4.4 Calcolo della prevalenza
Lo screening, oltre ad essere utili zzato nell e
applicazioni del teorema di Bayes, pu essere
utilizzato anche per calcolare la prevalenza di
una malattia in una determinata popolazione.
0,8
] 0,6
:ii
'v;
t:
'"
Vl
0.4
0.2 /
/
/
/
O /
O 0,2 0.4 0,6 0,8
l - Specificit
PROBABILIT
Il Department of Health dell o Stato di New
York, ad esempi o, ha iniziato un programma
per sottoporre a screening tutti i neonati 111
un periodo di 28 mesi per la ricerca del vi rus
dell 'immunodeficienza umana (HIV). Poich
gli anticorpi materni attraversano la placenta,
la presenza di anticorpi in un bambino indica
la presenza di infezione nella madre. Poich i
test sono eseguiti in anonimato, non possi-
bil e alcuna verifi ca dei risultati. I risultati di
tale programma di screening sono pre entati
in Tabella 6.2 (lO).
Sia n+ il numero di neonati ri sultati positi vi
al test e n il numero totale di neonati esami -
nati . In ciascuna regione dell o Stato di ew
York, la prevalenza dell'HIV - o P(H ), dove
H l'evento che una madre sia infetta - cal-
colata come n+ In. A Manhattan, ad esempio,
sono stati esaminati 50.364 neonati e 799
sono risultati positivi. In questo distretto:
n+ 799
------
n 50.364
= 0,0159.
Qui, tuttavia, c' un problema, in quanto la
quantit n+ln rappresenta in realt P(T+), la
probabilit di un risultato positivo del test.
Se il test di screening fosse perfetto, P(H) e
P(T+) sarebbero uguali. Il test, tuttavia, non
infallibile; sono possi bili falsi positivi e falsi
negativi. In effetti, applicando il principio
,/
Figura 6.4 Curva ROC pcr il li vell o di
creatinina sierica per predire il ri getto
del trapi anto
TEST DIAGNOSTICI 113
Tabella 6.2 Percentuale di neonati HIV-positi vi per regione nello Stato di New York, di cembre 1987-marzo 1990
Regione
Numero Totale Percentuale
neonati positivi neonati esaminati neonati positivi
Stato di N ew Y ork esci usa la citt
di New York 601
Periferia dell a citt di ew York 329
Valle del Mid-Hudson 71
Nord urbano dello Stato 119
ord rural e dell o Stato 82
Citt di New York 3.650
Manhattan 799
Bronx 998
Brooklyn 1.352
Queens 424
taten Island
della probabilit totale ed il principio del pro-
dotto, la probabilit di un test positivo :
P(r+) = P(r+ n H) + P(r+ n HC)
= P(r+ IH) P(H) + P(r+ IHC) P(HC)
= P(r+ IH) P(H) + [1-P(r I HC)] [1- P(H)].
Si noti che il risultato positivo del test pu
verifi carsi sia nel caso in cui la madre sia in-
fetta sia nel ca o contrario. Oltre all a preva-
lenza dell'infezione, questa equazione com-
prende la sensibilit e la specificit del test
diagnostico.
Se n+ In la probabilit di un risultato posi-
tivo del test, come pos iamo calcolare la pre-
valenza dell'HIV? Uti li zzando l'espressione
per P(T'"), possiamo risolvere per la quantit
che ci interessa. Dopo alcune manipolazioni
algebriche, troviamo che:
P(H) = P(T'") - P(:r+IHC)
P(:r+ IH) - P(:r+ IHC)
=
(n+/n) - P(:r+ IHC)
P(:r+ IH) - P(:r+ IHC)
Poich la prevalenza dell 'infezione da HIV
anch' es a una probabilit, il suo valore
compreso tra e 1. Esaminiamo l' espressione
per P(H). Per qualsi asi test di screening va-
lido:
77
346.522 0,17
120.422 0,27
29.450 0,24
88.088 0,14
108.562 0,08
294.062 1,24
50.364 1,59
58.003 1,72
104.613 1,29
67.474 0,63
13.608 0,57
P(P I H) > P(P I H C);
la probabilit di un risultato positivo del test
nei soggetti infetti da HIV maggiore della
probabilit nei soggetti che non lo sono. Per-
tanto, il denominatore del rapporto posi-
tivo. Se P(H) maggiore di 0, anche il nume-
ratore deve essere positivo. Pertanto, dob-
biamo avere:
La proporzione di risultati positivi del test
nell'intera popolazione deve essere maggiore
della proporzione di risultati positivi tra co-
loro che non sono infetti da HIV. Si noti che
la specificit del test di screening ha un ruolo
critico nel calcolo dell a prevalenza; se la pre-
valenza molto bassa, pu non essere indivi -
duata da un test con specificit non adeguata.
Torniamo ai dati della Tabella 6.2. on co-
nosciamo la sensibilit e la specificit della
procedura diagnostica adottata, anche se pos-
siamo essere sicuri che il test non perfetto.
Su pponiamo, per, che la sensibilit dello
screening sia 0,99 e che la sua specificit sia
0,998; questi valori rappresentano il limite su-
periore del range di valori possibili. Inoltre, si
114
ricordi che la probabilit di un risultato posi-
tivo a Manhattan 0,0159. Pertanto, la preva-
lenza di infezione da HIV in questo distretto
sar calcolata come:
P(H) = 0,0159 - (1 - 0,998)
0,99 - (1 - 0,998)
=0,0141,
che inferiore alla probabilit di un risultato
positivo del test. Nella regione urbana situata
nel nord dello Stato di New York, per:
e
n+ 119
n 88.088
= 0,0014
P(H) = 0,0014 - (1 - 0,998)
0,99 - (1 - 0,998)
= - 0,0006.
Anche con una specificit elevata, pari a
0,998, la prevalenza risulta negativa. Ovvia-
mente, questo risultato non ha enso; ci
dovuto al fatto che il test di screening non era
sufficientemente accurato per misurare la
prevalenza molto bassa dell'HIV in questa
regIOne.
6.5 IL RISCHIO RELATIVO E L' ODDS
RATIO
Il concetto di rischio relativo si rivela utile
quando si desidera confrontare le probabilit
di malattia in due differenti situazioni o
gruppi. Il rischio relativo, in forma abbreviata
RR, la probabilit che un soggetto appar-
tenente ad un gruppo esposto a determinati
fattori sviluppi la malattia rispetto alla pro-
babilit che un soggetto appartenente ad un
gruppo non esposto svi luppi la stessa malat-
tia. Pi precisamente definito come la pro-
babilit di malattia nel gruppo esposto diviso
la probabilit di malattia nel gruppo non
esposto, o:
PROBABfUT
RR =
P( malattia I esposto)
P( malattia I non esposto)
Si consideri uno studio che esamina i fattori
di rischio per cancro della mammella in
donne che partecipano alla prima National
Health and Nutrition Examination Survey
(11). In uno studio di coorte come questo,
l'esposizione misurata all'inizio dello stu-
dio. Gruppi di soggetti con e senza esposi-
zione - i soggetti non esposti sono spesso
chiamati controlli - sono esaminati per la ri-
cerca della malattia. In questo studio sul can-
cro della mammell a, una donna considerata
come 'esposta' se ha partorito il primo bam-
bino all'et di 25 anni o oltre. In un campione
di 4.540 donne che hanno partorito il primo
bambino prima dei 25 anni, 65 hanno svilup-
pato un cancro della mammella. Delle 1.628
donne che hanno partorito il primo bambino
all' et di 25 anni o oltre, a 31 stato diagno-
sticato un cancro della mammella. Se assu-
miamo che i numeri siano abbastanza grandi
da soddisfare la definizione frequentista della
probabilit, il rischio relativo di sviluppare un
cancro della mammella :
RR = P(malattia I esposto)
P(malattia I non esposto)
31/1.628
65/ 4.540
= 1,33.
Un rischio relativo di 1,33 indica che le
donne che hanno partorito il primo bambino
all 'et di 25 anni o oltre, hanno una probabi-
lit superiore del 33% di sviluppare un can-
cro della mammella rispetto alle donne che
hanno partorito ad un'et pi giovane. Nel
Capitolo 15 spiegheremo come determinare
se questa differenza importante.
In generale, un rischio relativo di 1,0 indica
che le probabilit di malattia nel gruppo
esposto ed in quello non esposto sono uguali;
pertanto, non esiste un'associazione tra espo-
sizione e malattia. Un rischio relativo mag-
IL Ri CHiO RELATIVO E L'ODDS RATlO
giore di 1,0 indica che esiste un rischio mag-
giore di malattia tra i soggetti esposti, mentre
un valore inferiore a 1,0 suggerisce che esiste
un rischio minore di sviluppare la malattia tra
. . .
l soggetti espostl.
Si noti che il valore del rischio relativo in-
dipendente dalla grandezza delle relative pro-
babilit; solo il rapporto di queste probabilit
importante. Ci utile specialmente quan-
do siamo interessati ad eventi rari. Negli Stati
Uniti, ad esempio, la probabilit che un
uomo oltre i 35 anni muoia di cancro del pol-
mone 0,002679 per i fumatori e 0,000] 54
per i non fumatori (12). Il rischio relativo di
morte per i fumatori rispetto ai non fumatori
comunque:
RR = 0,002679
0,000154
= 17,4.
Allo stesso modo, la probabilit che una
donna oltre i 35 anni muoia di cancro del pol-
mone 0,001304 per le fumatrici e 0,000121
per le non fumatrici; il rischio relativo :
RR = 0,001304
0,000]21
= 10,8.
Anche se abbiamo considerato eventi con
bassa probabilit, il rischio relativo ci con-
sente di notare che il fumo ha un marcato ef-
fetto sulla probabilit che un particolare sog-
getto muoia di cancro del polmone.
Un'altra misura comunemente utilizzata
che confronta le pro]jabilit di malattia
l'odds ratio. Se un evento si verifica con pro-
babilit p, l'odds in favore dell' evento
p/(1-p) a 1. Se p = 112, ad esempio, l'odds
(112)/(112) = 1 a 1. In questo caso, l'evento
pu verificarsi o non verificarsi con la stessa
probabilit. Se p = 2/3, l'odds dell'evento
(2/3)/(1/3) = 2 a 1, la probabilit che l'evento
si verifichi due volte superiore alla probabi-
lit che esso non si verifichi. Se per ogni
100.000 soggetti ci sono 9,3 casi di tuberco-
115
losi, l'odds di avere la tubercolosi in un sog-
getto selezionato casualmente :
_(_9_,3_/1_0_0_.0_00--,-)_ = 0,00009301 aL
(99.990,7/100.000)
Se sappiamo che l'odds 111 favore di un
evento a a b, la probabilit che l'evento si
verifichi a/(a+b). L'odds ratio definito
come l'odds della malattia tra soggetti esposti
diviso l'odds della malattia tra soggetti non
esposti, o:
OR = __ P_(_m_ala_tt_ia_1 e....:.sp_os_to..:... )/_[l_ -P_(_m_ala_tt_ia_le....:.sp_ os_to..:... )]_
P(malattialnon esposto)/[l-P(malattialnon esposto)]
Esso pu anche essere definito come l'odds
dell' esposizione tra soggetti malati diviso
l'odds dell'esposizione tra soggetti sani, o:
OR = P( esposizionelmalato )/[l-P( esposizionelmalato )]
P( esposizionelnon malato )/[ l-P( esposizionelnon malato)]
possibile dimostrare matematicamente
che queste due definizioni sono equivalenti.
Si considerino i seguenti dati desunti da un
altro studio sui fattori di rischio per cancro
della mammella; uno studio caso-controllo
che esamina gli effetti dell'uso di contraccet-
tivi orali (13) . In uno studio caso-controllo, si
inizia con l'identificazione di gruppi di sog-
getti malati (i casi) e di soggetti sani (i con-
trolli). Si determina, poi, se ciascun soggetto
stato o meno esposto in passato all'esposi-
zione in esame. Delle 989 donne affette da
cancro della mammella in questo studio, 273
avevano in precedenza fatto uso di contrac-
cettivi orali e 716 no. Delle 9.901 donne non
affette da cancro della mammella, 2.641 ave-
vano in precedenza fatto uso di contraccettivi
orali e 7.260 no. In uno studio caso-controllo,
le proporzioni di soggetti affetti o non affetti
dalla malattia sono scelte dall' esaminatore;
non possibile, pertanto, determinare la pro-
babilit di malattia nei gruppi esposti e non
esposti. possibile, per, calcolare la proba-
bilit di esposizione per i casi ed i controlli.
Pertanto, usando Ja seconda definizione del-
J'odds ratio:
116
OR = P( esposizionelmalato )/[!-P( esposizionelmalato )]
P(esposizionelnon malato)/[I-P(esposizionelnon malato)]
(273/989)/(1 - 273/ 989)
(2.641 / 9.901)/(1 - 2.641/9.901)
(273/989)/(716/989)
(2.641/ 9.901)/(7.260/ 9.901)
273/716
2.641/ 7.260
= 1,05.
Questi dati indicano che le donne che
hanno fatto uso di contraccettivi orali hanno
un odds di sviluppare un cancro della mam-
mella che solo 1,05 volte l'odds di coloro
che non ne hanno fatto uso. Ancora, impare-
remo ad interpretare questo risultato nel Ca-
pitolo 15. Come per il rischio relativo, per,
un odds ratio di 1,0 indica che l'esposizione
non ha effetto sulla probabilit di malattia.
Il rischio relativo e l' odds ratio sono due
misure che cercano di spiegare lo stesso feno-
meno. Sebbene il concetto di rischio relativo
possa sembrare pi intuitivo, l' odds ratio ha
migliori propriet statistiche, che saranno
chiarite successivamente. In ogni caso, per
patologie rare, l' odds ratio un' ottima ap-
prossimazione del rischio relativo. Se:
P(malattia I esposto) = O
e
P(malattia I non esposto) =
allora:
e
1 - P(malattia I esposto) = 1
1 - P(malattia I non esposto) = 1.
Pertanto:
OR = P( malattia I esposto )/[ !-P( malattia I esposto)]
P(malattialnon esposto)/[I-P(malattialnon esposto)]
P(malattialesposto )/!
P(malattialnon esposto)/!
PROBABiLIT
P( malattia I esposto)
P(malattialnon esposto)
RR.
Quando usiamo l' odds ratio ed il rischio
relativo, importante analizzare corretta-
mente le informazioni ottenute perch, come
detto in precedenza, i valori numerici di que-
ste misure non riflettono la grandezza delle
probabilit usate per calcolarli. Un terzo stu-
dio sul cancro della mammella - che analizza
gli effetti della terapia ormonal e in donne
dopo la menopausa - ha concluso che le
donne che avevano seguito una terapia ormo-
naie per un periodo di 5-9 anni avevano un
odds di sviluppare un cancro invasivo della
mammella 1,46 volte 1' 0dds delle donne che
non avevano mai fatto uso di ormoni (14). Il
rischio sembra essere marcatamente pi ele-
vato. Tuttavia, l'effetto di tale aumento di-
pende dalla probabilit di malattia nelle don-
ne che non erano state esposte a terapia or-
monale. stato riportato che una donna di 60
anni ha una probabilit del 3,59% di svilup-
pare un cancro della mammella nei 10 anni
successivi (15). In questo caso:
OR = 1,46
= P(cancroluso di ormoni)/[!-P(cancroluso di ormoni)]
P(cancrolnon uso)/[!-P(cancrolnon uso)]
= P(cancroluso di ormoni)/[!-P(cancroluso di ormoni)]
0,0359/(1 - 0,0359)
e pertanto:
P(cancro I uso di ormoni ) = 0,0516.
Anche se l'odds ratio di 1,46 relativa-
mente alto, la variazione nella probabilit di
contrarre la malattia da 3,59% a 5,16% non
cos preoccupante.
La Figura 6.5 illustra la relazione tra la pro-
babilit di un dato risultato e 1' 0dds ratio. Nel
grafico, Pn rappresenta la probabilit di ma-
lattia in un gruppo non esposto e Pe la mag-
giore probabilit di contrarre la malattia nel
gruppo che ha subito una certa esposizione.
ULTERIORI APPLICAZIONI
0,8
0,6
P"
0.4
0,2
o
OR= 1,0
OR = 1,4
OR = 1,6
OR = 2,0
OR = 5,0
OR = 10
OR = 30
117
Figura 6.5 Relazioll(
tra le probabilit di ur
evento in un gruppc
esposto e in un gruppc
non esposto e l'odds ra-
ti o
~ ~ ~ ~ ~ ~
o 0,2
Se l'odds l'atio uguale a 1,0, Pn e Pe devono
essere uguali, indipendentemente dal valore
di p,.,. D' altro canto, se l'odds ratio uguale a
2,0, la nostra interpretazione dipende dal va-
lore di p,.,. Ad esempio, se la probabilit di
mal attia nel gruppo non esposto 0,05, la
probabilit di malattia nel gruppo esposto
0,095, con un aumento del 90%. Se per la
probabilit di malattia nel gruppo non espo-
Tabella 6.3 Rel azione tra le probabilit di un
evento in un gruppo esposto e in un
gruppo non esposto, l' odds ratio e il
rischio relativo
Odds Ratio
p" Pe
Rischi o Relati vo
1,2 0,01 0,012 1,20
1,2 0,05 0,059 1,19
1,2 0,25 0,286 1,14
1,2 0,50 0,545 1,09
1,4 0,01 0,014 1,39
1,4 0,05 0,069 1,37
1,4 0,25 0,318 1,27
1,4 0,50 0,583 1,17
2,0 0,01 0,020 1,98
2,0 0,05 0,095 1,90
2,0 0,25 0,400 1,60
2,0 0,50 0,667 1,33
0.4 0.6 0.8
P"
sto 0,50, la probabilit del gruppo esposto
0,667, con un aumento solo del 33%, La Ta-
bella 6.3 mostra la relazione tra Pn> Pe, l' odds
ratio e il rischio relativo per una serie di pro-
babilit.
6.6 ULTERIORI APPLICAZIONI
Supponiamo di voler ti mare la probabilit
che una donna gravida partorisca un maschio.
Nel 1992, sono state registrate 4.065.014 na-
scite negli Stati Uniti (16). Di questi neonati,
2.081.287 erano maschi e 1.983.727 erano
femmine. Pertanto, se una donna selezionata
casualmente dovesse diventare gravida, pos-
siamo calcolare la probabilit che il bambino
sia un maschio come:
P(M) = P(il bambino sar un maschio)
2.081.287
=------
4.065.014
= 0,512,
Possiamo discutere sull a probabilit che il
bambino sia un maschio solo prima che la
donna diventi gravida; dopo il concepimento,
118
il sesso del feto determinato ed il concetto
di probabilit non pu essere pi appli cato.
Il complemento dell'evento che un bam-
bino sia un maschio l'evento che sia una
femmina. Pertanto:
P(F) P(il bambino sar una femmina)
= 1 - P(M)
= 1-0,512
0,488.
Poi ch il bambino classificato come ma-
chi o o femmina, ques ti due eventi sono mu-
tuamente esclusivi. Quando gli eventi sono
mutuamente esclusivi, il principio della som-
ma della probabilit afferma che la probabi-
lit del verificarsi dell ' uno o dell' altm evento
uguale alla somma delle probabilit dei sin-
goli eventi; cos:
P(M U F) = P(M) + P(F)
= 0,512 + 0,488
= 1,000.
La somma dell e probabilit di ques ti due
eventi 1. Ci indica che gli eventi ono esau-
stivi. Il bambino pu essere classificato come
maschio o femmina; non sono possibili altri
risultati.
Ora supponiamo di selezionare casual-
mente due donne dall a popolazione e che en-
trambe diventino gravide. Qual la probabi-
lit che entrambi i bambini siano maschi?
Sappiamo che i due eventi sono indipendenti:
il sesso del bambino dell a prima donna non
ha alcuna influenza sul sesso del bambino
della seconda donna. Pertanto, applicando il
principio del prodotto della probabilit per
eventi indipendenti e rappresentando
l'evento che entrambi i bambini saranno ma-
schi con M, n M
2
:
P(M, n M
2
) = P(M,) P(M
2
)
= (0,512) (0,512)
= 0,262.
Ci sono altri tre eventi possibili: MI n Fz, il
bambino della prima donna sar un maschio e
quello della seconda una femmina; F, n Mz,
la prima donna avr una femmina e la se-
conda un maschio; F, n Fz, entrambi i bam-
PROBABILfTA
bini saranno femmine. Le probabi lit di que-
Sti eventi sono:
e
P(M, n F
2
) = P(M,) P(F
2
)
= (0,512) (0,488)
= 0,250,
P(F, n M
2
) = P(F,) P(M
2
)
= (0,488) (0,512)
= 0,250
P(F, n F
2
) = P(F,) P(F
2
)
= (0,488) (0, 488)
= 0,238.
Si noti che la somma di queste quattro pro-
babilit 1.
Se selezioniamo tre donne dall a popol a-
zione ed ognuna di esse diventa gravida, qual
la probabilit che i tre bambini siano fem-
mine? Il concetto di indipendenza pu essere
esteso a tre o pi eventi differenti; in questo
caso, il sesso di uno dei bambini non ha al-
cuna influenza sul sesso degli altri due. Il
principio del prodotto dell a probabilit per
eventi indipendenti afferma che la probabilit
che tutti e tre i bambini saranno femmine :
P(F,) P(F
2
) P(F})
(0,488) (0,488) (0,488)
0,116.
Ri tornando all ' esempi o in cui abbiamo se-
lezionato solo due donne, qual la probabi-
lit che entrambi i bambini siano maschi dato
che almeno uno di essi maschio? La proba-
bilit che un particolare evento si verifichi
dato che un altro evento si gi verificato
nota come probabilit condi zionale. Rappre-
sentando l'evento che almeno un bambino sia
un maschio con A ed applicando la for mul a
per la probabilit condi zionale:
p(M,nM
2
IA)= P(entrambi i bambini saranno
maschi I almeno un maschio)
_ P[(M
I
n M
2
) n A]
P(A)
P(M, n M
2
)
P(A)
ULTERiORi APPLiCAZiONi
L' evento che entrambi i bambini siano ma-
schi e che almeno uno di essi sia maschio
semplicemente 1'evento che entrambi i bam-
bini siano maschi. Sappi amo gi che P(M
j
n
M
2
) = 0,262. Qual P(A), la probabilit che vi
sia almeno un maschio? Si noti che questo
evento pu verificarsi in tre modi diversi - o
entrambi i bambini saranno maschi, o il
primo sar un maschio e il secondo una fem-
mina, o il primo sar una femmina ed il se-
condo un maschio. Poich questi tre eventi
sono mutuamente esclusivi, applichiamo il
principio della somma per trovare:
P(A) = P[(M, n M
2
) U (MI n F
2
) U (F, n M
2
)]
= P(M
I
n M
2
) + P(M, n F
2
) + P(F
I
n M
2
)
= 0,262 + 0,250 + 0,250
= 0,762.
Pertanto:
p(M
l
nM
2
IA) = P(M
I
n M
2
)
P(A)
0,262
0,762
0,344.
Se sappiamo che almeno un bambino un
maschio, la probabilit che entrambi i bam-
bini siano maschi aumenta da 0,262 a 0,344.
A prima vis ta, questo risultato pu sem-
brare non intuitivo. Ci viene detto che un
bambino un maschio; pertanto, potremmo
aspettarci che la probabilit che l' altro bam-
bino sia un maschi o sia semplicemente P(M)
= 0,512. Al contrario, abbiamo calcolato che
la probabilit 0,344. Il punto importante da
tenere presente che non abbiamo specificato
quale dei due bambini fosse un maschio. In
questo esempio, l'ordine importante. Quan-
do applichi amo la probabilit, la risposta ap-
parentemente ovvia non sempre quella cor-
retta; ogni problema deve essere considerato
attentamente.
Le probabilit condizionali sono spesso
utilizzate quando lavoriamo con le tavole di
sopravvivenza. Supponiamo di voler cono-
scere la probabilit che un soggetto viva fino
a 80 anni dato che ora ne ha 40. Sia A l'evento
119
che il soggetto ha 40 anni e B 1'evento che
questo soggetto vivr fino a 80 anni. U tiliz-
zando la Tabella 5.1, la tavola di sopravvi-
venza del 1992 per la popolazione degli Stati
Uniti:
P(A) = P(un soggetto vivo a 40 anni)
95.527
100.000
0,95527
e
P(A n B) = P(un soggetto vivo a 40 anni e
vive fino a 80 anni)
Pertanto:
P(un soggetto vivo a 80 anni)
48.460
100.000
0,48460.
P(B I A) = P(un soggetto vivo a 80 anni I
lo stesso ha adesso 40 anni)
_ P(A n B)
P(A)
0,48460
0,95527
0,5073.
Se un soggetto vivo a 40 anni, la sua pro-
babilit di vivere fino a 80 anni maggiore di
quanto fosse alla nascita.
Se A I e A
2
sono eventi mutuamente esclu-
sivi ed esaustivi tali che:
P(A
l
U A
2
) = P(A
I
) + P(A
2
)
= 1,
allora il teorema di Bayes afferma che:
P(A
j
I B)= P(AJ P(B I Al) .
P(A
l
) P(B I AI) + P(A
2
) + P(B I A
2
)
Il teorema di Bayes importante nei test
diagnostici. Esso stabilisce il valore predittivo
di un test in base alla sua sensibilit e specifi-
120
clta, nonch alla prevalenza della malattia
nella popolazione esaminata.
Si considerino i seguenti dati desunti da
uno studio che esamina la accuratezza di tre
test di gravidanza da effettuare a domicilio
(17). Sia AI l'evento che una donna gravida,
A
2
1'evento che non lo e 7+ un risultato po-
sitivo del test. La sensibilit media dei tre test
dell'80%; pertanto:
P(7+ I Al) = 0,80.
Pertanto, la probabilit di un risultato falso
negativo :
1 - 0,80
0,20.
La specificit dei test di gravidanza effet-
tuati a domicilio del 68%; pertanto:
e la probabilit di un falso positivo :
1 - 0,68
0,32.
Qual la probabilit che una donna con un
test positivo sia realmente gravida?
Supponiamo che nella popolazione esami-
nata P(A
I
) = 0,60; cio, il 60% delle donne
che fa uso di test di gravidanza a domicilio
realmente gravida. Poich A
2
il comple-
mento di Al' la probabilit che una donna
non sia gravida :
P(A
2
) = 1 - P(A
I
)
= 1 - 0,60
= 0,40.
Applicando il teorema di Bayes, il valore
predittivo di un test positivo :
P(A 17+) = P(AI) P(T+ I Al)
j P(A
j
) P(T+ IA
I
) + P(A
2
) + P(7+ IA
2
)
(0,60) (0,80)
(0,60)(0,80) + (0,40)(0,32)
= 0,79.
Pertanto, un risultato pOSltlVO di questo
test fa aumentare da 0,60 a 0,79 la probabilit
PROBABILIT
che una donna di questa popolazione sia gra-
vida.
Qual la probabilit che una donna non sia
gravida, posto che il test di gravidanza ne-
gativo? Applicando ancora una volta il teo-
rema di Bayes, il valore predittivo di un test
negativo :
P(A Il) = P(A2) P(T- I A2)
2 P(A
2
) P(1 JA
2
) + P(A I) P(1IA I)
(0,40) (0,68)
(0,40)(0,68) + (0,60)(0,20)
= 0,69.
Un risultato negativo al test di gravidanza a
domicilio fa aumentare da 0,40 a 0,69 la pro-
babilit che una donna non sia gravida.
Quando vogliamo confrontare le probabi-
lit di un determinato evento in due gruppi
diversi, il concetto di rischio relativo si rivela
spesso utile. Si consideri la Figura 6.6. Il dia-
gramma a barre illustra il rischio di cancro del
polmone in donne che hanno fumato 21 o pi
sigarette al giorno rispetto alle donne che non
hanno mai fumato (12,18). Per il gruppo di
donne che hanno smesso di fumare, ad esem-
pio, nei due anni precedenti:
P(cancro del polmone I astinenza
dal fumo nei due anni precedenti)
RR=--------------------------
P(cancro del polmone I non fumatrice)
= 32,4.
piuttosto sorprendente che questo ri-
schio relativo sia maggiore rispetto al corri-
spondente rischio per le fumatrici; questo
gruppo, tuttavia, include molti soggetti ma-
lati che sono stati obbligati a smettere di fu-
mare a causa della malattia. Con il tempo, il
rischio di cancro del polmone anche tra forti
fumatrici diminuisce gradualmente in seguito
all 'astensione totale dal fumo.
L'odds ratio un'altra misura che spesso
usata per confrontare le probabilit di un
evento in due gruppi diversi. A differenza del
rischio relativo, che confronta le probabilit
in modo diretto, per, l'odds ratio - come
ESERCI ZI 121
3S
32.4
30
25
o
. :
'" 20
21.2
20 .
~
o
~ 15
~
Il.4
10
S 4.1
4.0
o
-
Figura 6.6 Ri schi relat ivi di cancro del
polmone in donne ex fumatrici di 21 o pi
sigarette al giorno
~ ~ ~ ~ ~ ~ ~ ~
Non Fumatrici
fumatrici
0-2 3-5 6-10 11 - 15 ~ 1 6
suggerisce il suo stesso nome - mette in rela-
zione l'odds di un evento nelle due popola-
zioni. N ell e donne che hanno fumato 21 o
pi sigarette al giorno, ma hanno smesso nei
due anni precedenti, 1'0dds di sviluppare un
cancro del polmone rispetto all' odds nell e
donne che non hanno mai fumato potrebbe
essere calcolato come:
P( cancro del polmone 1 as tinenza)/
[1 - P( cancro del polmone 1 astinenza)]
OR = ---------------------------
P(cancro del polmone 1 non fumatrice) /
[1 - P(cancro del polmone Inon fumatrice)]
Per patologie rare come il cancro del pol-
mone, l'odds ratio una buona approssima-
zione al ri schio rel ativo.
6.7 ESERCIZI
1. Qual la defini zione frequentista di pro-
babilit?
2. Quali sono le tre operazioni fondamen-
tali che possibile esegui re sugli eventi?
3. Spiegare la differenza tra eventi mutua-
mente esclusivi ed eventi indipendenti.
4. Qual il valore del teorema di Bayes?
Come applicato ai test di agnostici?
Anni di astensione dal fumo
5. Che cosa accadrebbe se si cercasse di au-
mentare la sensibilit di un test di agnos tico?
6. Come si possono confrontare le probabi-
lit di malattia in due gruppi differenti?
7. Sia A l'evento che un particolare soggetto
esposto ad elevati livelli di monossido di
carbonio e B l'evento che esposto ad elevati
livelli di biossido di azoto.
a. Qual l'evento A n B?
b. Qual l'evento A U B?
c. Qual il compl emento di A ?
d. Gli eventi A e B sono mutuamente esclu-
sivi ?
8. Per i neonati messi cani nati in Arizona
nel 1986 e nel 1987, la probabilit che l'et ge-
stazionale sia inferiore a 37 settimane 0,142
e la probabilit che il peso alla nascita sia in-
feriore a 2.500 grammi 0,051 (19). Inoltre, la
probabilit che questi due eventi si verifi -
chino contemporaneamente 0,031.
a. Sia A l'evento che l'et gestazionale di un
neonato sia inferiore a 37 settimane e B
l'evento che il suo peso alla nascita sia infe-
riore a 2.500 grammi. Disegnare un dia-
gramma di Venn per illustrare la relazione
tra evento A e evento B.
b. Gli eventi A e B sono indipendenti?
c. Qual la probabilit che si verifichino A,
B o entrambi in un neonato messicano se-
lezionato casualmente?
r
122
d. Qual la probabilit che l'evento A si veri-
fichi, dato che l'evento B si verificato?
9. Si considerino le statistiche relative alla
natalit per la popolazione degli Stati Uniti
nel 1992 (16). In accordo con questi dati,
sono di seguito riportate le probabilit
dell' et al momento del parto nel 1992 di una
donna selezionata casualmente.
Et Probabilit
< 15 0,003
15-19 0,124
20-24 0,263
25-29 0,290
30-34 0,220
35-39 0,085
40-44 0,014
45-49 0,001
Totale 1,000
a. Qual la probabilit che una donna che ha
partorito nel 1992 avesse un'et minore o
uguale a 24 anni?
b. Qual la probabilit che avesse un'et
maggiore o uguale a 40 anni?
c. Dato che la madre di un determinato bam-
bino al di sotto dei 30 anni, qual la pro-
babilit che non abbia ancora 20 anni?
d. Dato che la madre di un determinato bam-
bino ha 35 anni o pi, qual la probabilit
che non abbia ancora 40 anni?
lO. Sono di seguito riportate le probabilit
associate alle principali fonti di pagamento
per ricoveri ospedalieri negli Stati Uniti nel
1990 (20).
Principale fonte di pagamento
Assicurazione privata
Medicare
Medicaid
Altri programmi governativi
Pagamento individuale
Altro/Senza spesa
Non rilevato
Totale
Probabilit
0,387
0,345
0,116
0,033
0,058
0,028
0,033
1,000
PROBABILIT
a. Qual la probabilit che la fonte princi-
pale di pagamento per un dato ricovero
ospedaliero sia l'assicurazione privata del
paziente?
b. Qual la probabilit che la fonte princi-
pale di pagamento sia Medicare, Medicaid
o un altro programma governativo?
c. Dato che la fonte principale di pagamento
un programma governativo, qual la
probabilit che sia Medicare?
11. Osservando la popolazione degli Stati
Uniti nel 1993, la probabilit che un adulto di
et compresa tra 45 e 64 anni non abbia una
copertura assicurativa sanitaria 0,123 (21).
a. Supponiamo di selezionare casualmente da
questa popolazione una donna di 47 anni
ed un uomo di 59 anni senza vincoli di pa-
rentela. Qual la probabilit che entrambi
non siano assicurati?
b. Qual la probabilit che entrambi i sog-
getti siano assicurati?
c. Se si selezionano dalla popolazione cinque
adulti di et compresa tra 45 e 64 anni
senza vincoli di parentela, qual la proba-
bilit che tutti e cinque non siano assicu-
rati?
12. Riferiamoci all a Tabella 5.1, la tavola di
sopravvivenza abbreviata del 1992 per gli
Stati Uniti (1).
a. Qual la probabilit che un neonato viva
fino al suo quinto compleanno?
b. Qual la probabilit che un soggetto di 60
anni sopravviva per altri dieci anni?
c. Consideriamo un uomo ed una donna spo-
sati entrambi di 60 anni . Qual la probabi-
lit che entrambi vivano fino a 70 anni?
Assumere che i due eventi siano indipen-
denti.
d. Qual la probabilit che la moglie o il ma-
rito, ma non ent rambi, vivano fino a 70
anni?
13. Uno studio ha affermato che la sensibi-
lit della mammografia quale test di screening
per l'individuazione del cancro della mam-
mella 0,85; la sua specificit 0,80 (22).
ESERCIZI
a. Qual la probabilit di un falso negativo?
b. Qual la probabilit di un falso positivo?
c. In una popolazione in cui la probabilit
che una donna abbia un cancro della mam-
mella 0,0025, qual la probabilit che
una donna abbia un cancro in presenza di
una mammografia positiva?
14. Il National Institute for Occupational
Safety and Health ha elaborato una defini -
zione della sindrome del tunnel carpale - una
patologia che colpi sce il polso - che include
tre criteri: sintomi di interessamento del
nervo, storia di fattori di rischio occupazio-
nali e presenza di segni all' esame obiettivo
(23). La sensibilit di questa defini z ione come
test per la sindrome del tunnel carpale 0,67;
la sua specificit 0,58.
a. In una popolazione in cui la prevalenza
della sindrome del tunnel carpale stimata
del 15%, qual il valore predittivo di un
test positivo?
b. Come varia questo valore predittivo se la
prevalenza solo del 10% ? E se del 5% ?
c. Disegnare un diagramma - come quello ri -
portato i n Figura 6.3 - per illustrare i risu 1-
tati di un test diagnostico. Si assuma di ini -
ziare con una popolazione di 1.000.000 di
soggetti e che la prevalenza della indrome
del tunnel carpale sia del 15%.
15. I dati di seguito riportati sono estratti
da uno studio che esamina l'uso della ventri-
colografia radionuclidica quale test diagno-
stico per l'individuazione della patologia co-
ronarica (24).
Test
Malattia
Totale
Si No
Positivo 302 80 382
Negativo 179 372 551
Totale 481 452 933
a. Qual la sensibilit della ventri colo grafia
radionucl idi ca in questo studio? Qual la
specifici t?
b. Per una popolazione in cui la probabilit
123
di presentare patologie coronariche 0,10,
calcolare la probabilit che un soggetto
presenti la malattia in presenza di un risul-
tato positivo alla ventricolografia radionu-
clidica.
c. Qual il valore predittivo di un test nega-
tivo?
16. I dati di seguito riportati sono estratti
da uno studio che confronta lo status - auto-
dichiarato - di fumatore con i livelli riscon-
trati di cotinina sierica (25). Nello studio, il
livello di cotinina ierica stato usato come
strumento diagnostico per predire lo status di
fumatore; lo status autodichiarato stato
considerato autentico. Di seguito sono ripor-
tati i valori di sens ibilit e specificit osservati
per alcuni differenti punti di cut off.
Livello di cotinina
(ng/ml)
Sensibilit Specificit
5 0,971 0,898
7 0,964 0,931
9 0,960 0,946
Il 0,954 0,951
13 0,950 0,954
14 0,949 0,956
15 0,945 0,960
17 0,939 0,963
19 0,932 0,965
a. Come varia la probabilit di un falso posi-
tivo all'aumentare del punto di cut off?
Come varia la probabilit di un falso nega-
tivo?
b. Utilizzare questi dati per costruire una
curva ROe.
c. In base al grafico, quale valore del livello di
cotinina sierica sarebbe opportuno sce-
gliere come punto di cut off ottimale per
predire lo status di fumatore? Perch?
17. La Tabella 6.2 mostra le percentuali di
neonati HIV-positivi in varie regioni dello
Stato di ew York (10).
124
a. Qual la probabilit di un tes t positivo a
Brooklyn?
b. Assumere che la sensibilit del test di
screening usato sia 0,99 e la specificit
0,998. Qual la prevalenza del virus HIV
in questo distretto?
c. Qual la prevalenza del virus HIV nel
Bronx ?
18. Per metodi diversi di contraccezione,
sono di seguito riportate le probabilit che
una donna sposata abbia una gravidanza non
prevista durante il primo anno di utilizzo (26).
Metodo di contraccezione Probabilit di gravidanza
Nessuno
Diaframma
Profilattico
Spirale
Pillola
0,431
0,149
0, 106
0,071
0,037
Per ciascun metodo, calcolare il rischio re-
lativo di gravidanza per donne che usano
questo metodo rispetto alle donne che non
u tilizzano alcun tipo di precauzione. Come
varia il rischio in funzione del metodo di con-
traccezione?
19. Nella Carolina del Nord stato con-
dotto uno studio sull e patologie respiratorie
durante il primo anno di vi ta. Nello studio,
un gruppo di bambini stato classificato in
base al livello socio-economico della famiglia.
Di seguito riportato il numero di bambini
di ciascun gruppo che hanno presentato sin-
tomi respiratori p ersis tenti (27).
Livello
Numero Numero
. . di di bambini
socio-economico
bambini con sintomi
Basso 79 31
Medio 122 29
Elevato 192 27
a. Usare questi dati per calcolare la probabi-
lit di presentare sintomi respiratori persi-
stenti in ciascun gruppo socio-economico.
Assumere che i numeri siano suHiciente-
PROBABI UT
mente grandi da soddisfare la definizione
frequentista di probabilit.
b. Calcolare l' odds di presentare sintomi re-
spiratori persistenti nei gruppi con il li-
vell o socio-econ0lnico medi o e basso ri-
spet to al gruppo con li vell o socio-econo-
mi co elevato.
c. Sembra esistere una associazione tra livello
socio-economiu(j) e sintomi respiratori?
20. stato CCludotto uno studio che esa-
mina l' uso della glioemia a digiuno - il livello
di glucosio nel sangue di soggetti che non
hanno ass unto ci bo per un determinato nu-
mero di ore - come test di screening per il
diabete (28) . Sono stati esaminati punti di
cut oH della gli cemia oscillanti tra 3,9 e 8,9
mmolllitro; la sensibilit e la specificit dei
test corrispondenti a questi diversi livelli
sono contenuti in un file chiamato diabetes
nel CD all egato al libro (Appendice B, Ta-
bella B.ll). I livelli della gli cemia sono regi-
strati nell a variabile fcg, la sensi bilit nell a va-
riabile sens e la specificit in spec.
a. Come varia la sensibilit del tes t di scree-
ning quando il punto di cut oH aumenta da
3,9 a 8,9 mmolll? Come varia la specifi-
ci t?
b. Usare ques ti dati per costruire una curva
ROe.
c. I ricercatori che hanno condotto questo
studio hanno scelto un livello di glicemia
di 5,6 mmol/ litro come punto di cut oH ot-
timale per predire il diabete. Siete d'ac-
cordo con questa scel ta? Perch o perch
no?
Bibliografia
1. NATIONAL CENTER FOR HEALTH STATlSTICS,
KOCHA EK K.D., HUDSON B.L.: Advanced re-
port of final mortality statistics, 1992. M onthly
Vital Statistics Repon, Volume 43, Number 6,
March 22, 1995.
2. NATIONAL CENTER FOR HEALTH STATlSTICS,
COLUNS J.G.: Types of injuries and impair-
ments due to injuries, United States. Vital and
Health Statistics, Series lO, Number 159, No-
vember 1986.
BIBLIOGRAFIA
3. YOBS A.R., SWA SON R.A., LAMOTIE L.c.: La-
boratory reliability of the Papanicolaou Smear.
Obstetrics and Gynecology, 65:235-244, 1985.
4. D EvEsA S.S., SI LVERMAN D.T., YOUNG J.L.,
POLLACK E.5., BROWN c. c., H ORM J.W.,
PERCY c.L., MYERS M.H., Mc KAY F.W., FRAU-
MENI J.F.: ancer incidence and mortality
trends among whites in the United States,
1949-1984. Journal of the National Cancer In-
stitute, 79:701-770, 1987.
5. H ENIG R.M. : Is the Pap test valid ? The New
York Times Magazine, May 28:37-38,1989.
6. FAHEY M.T., I RWIG L., MACASKILL P.: Meta-
analysi of Pap test accuracy. American Jour-
nal of Epidemiology, 141 :680-689, 1995.
7. YERUSHALMY l, H ARKNESS J.T., COPE J.H.,
KENNEDY B.R.: The role of dual reading in
mass radiography. American Review of Tuber-
culosis, 61 :443-464, 1950.
8. CENTERS FOR DIsEAsE CONTROL: A strategic
pian for the elimination of tuberculosis in the
United tates. Morbidity and Mortality
Weekly Report, Volume 38, Number 16, Aprii
28, 1989.
9. DELo G E.R., VERNO W.B., BOLLI GER
R.R.: Sensitivity and specificity of a monito-
ring test. Biometrics, 41 :947-958,1985.
lO. N OVICK L.F., GLEBATIS D.M., STRI COF R.L.,
MACCUBBIN P.A., LESSNER L., BERNS D.5.:
ewborn seroprevalence scudy: methods and
results. American Journal of Public Health,
81:15-21,1991.
11. CARTER c.L., JONES D.Y. , SCHATZKI A.,
BRI NTON L.A.: A prospective study of repro-
ductive, fami li al, and socioeconomic risk fac-
tors for breast cancer using NHANES I D ata.
Public Health Reports, 104:45-49, 1989.
12. GARFINKEL L., SILVERBERG E.: Lung cancer and
smoking trends in the United States over the
past 25 years. Ca-A ancer Journal far Clini-
cians, 41:137-145, 1991.
13. H E EKE S C.H., SPEIZER F.E., LIP ICK R.J.,
Ros ER B., BAIN c., BELANGER c., STAMPFER
M.J., WILLETI W., PETO R.: A case-control
study of oral cont raceptive use and breast can-
cero Journal of the National Cancer Institute,
72:39-42, 1984.
14. COLDlTZ G.A., H ANKINSON S.E., H UNTER D.J.,
WI LLETI W.c., MANSON J.E., STAMPFER M.J.,
H EN EKENS c., ROSNER B., SPEIZER F.E.: The
use of e trogens and progestins and the risk of
125
breast cancer in postmenopausal women. The
New England Journal of Medicine, 332:1589-
1593,1995.
15. FEUER E.l, WUN L.M., BORING c. c., FLAN-
DERS W.D., TI MMEL M.J., TONG T .: The li fe-
time risk of developing breast cancer. Journal
of the National Cancer I nstitute, 85:892-897,
1993.
16. N ATIONAL CENTER FOR H EALTH STATISTI S,
VENTURA S.J., MARTI N J.A., TAFFEL S.M.,
MATHEWS T.l, CLARKE S.c.: Advanced report
of final natality stati sti cs, 1992. Monthly Vital
Statistics Report, Volume 43, umber 5, Octo-
ber 25, 1994.
17. DosHI M.L.: Accuracy of consumer performed
in- ho me tests for earl y pregnancy d etectio n.
American Journal of Public Health, 76:512-
514, 1986.
18. GARrI KEL L., STELLMAN S.D.: Smoking and
lung cancer in women: findings in a prospec-
ti ve study. Cancer Research, 48:6951-6955,
1988.
19. BALCAZAR H .: The prevalence of intrauterine
growth retardation in Mexican Americans.
American Journal of Public Health, 84:462-
465, 1994.
20. N ATIONAL CENTER FOR H EALTH STATISTI S,
GRA VES E.J.: Expected principal source of pay-
ment for hospital di scharges : United States,
1990. Vital and Health Statistics, Advance
Data Report Number 220, ovember 12, 1992.
21. ATIONAL CENTER FOR H EALTH STATISTICS:
Health, United States, 1994 Chartbook. May
1995.
22. H ULKA B.5.: Cancer screening: d egrees of
proof and practical appli cation. Cancer, 62,
Supplement to October 15:1776-1780,1988.
23. KATZ J.N., LARSON M.G., FOSSEL A.H., LI ANG
M.H.: Validation of a surveillance case defini-
tion of carpal tunnel syndrome. American
Journal of Public Health, 81:189- 193, 1991.
24. BEGG C.B., Mc NEIL B.J.: Assessment of radio-
logic tests: control of bias and other design
considerations. Radiology, 167:565-569,1988.
25. WAGE KNECHT L.E., BURKE G.L., PERKI S
L.L., H ALEY N.J., FRIEOMAN G.D.: Misclassifi -
cation of smoking status in the CARDIA
Study: a comparison of self-report with serum
cotinine levels. American Journal of Public
Health, 82:33-36, 1992.
26. GRADY W.R., H AY\XlARD M.D., YAGI J.: Con-
traceptive failure in the United States: estima-
126
tes from the 1982 national survey of family
growth. Family Planning Perspectives, 18: 200-
209, 1986.
27. MARGOLlS P.A., GREENBERG R.A., KEYES L.L. ,
LA VANGE L.M., C1-IAPMAN R.S., DENNY F.W.,
BAUMAN K.E., BOAT B.W.: Lower respiratory
illness in infants and low socioeconomic sta-
PROBABILfTA
tus. American Journal 01 Public Health,
82:1119- 1126, 1992.
28. BORTHEIRY A.L., MALERBI D.A., FRANCO L.J. :
The ROC Curve in the evaluati o n of fasting
capi ll ary bio od glucose as a scr eening test far
di abetes and IGT. Diabetes Care, 17:1269-
1272, 1994.
7
Distribuzioni teoriche di probabilit
Qualsiasi caratteristica che pu essere mi-
surata o categorizzata denominata varia-
bile. Se una variabile pu assumere numerosi
valori tali che qualsiasi risultato determi-
nato dal caso, essa nota come variabile ca-
suale. Abbiamo gi esaminato nei capitoli
precedenti diverse variabili casuali, anche se
non le abbiamo definite con questo nome. Ad
esempio, nel Capitolo 2, il livello di coleste-
rolo sierico di un maschio di et compresa tra
25 e 34 anni negli Stati Uniti una variabile
casuale, come, nel Capitolo 3, il volume espi-
ratorio forzato in un secondo in un adole-
scente affetto da asma. Le variabili casuali
sono di solito rappresentate da lettere maiu-
scole quali X, Ye Z. Una variabile casuale di-
screta pu assumere solo un numero finito o
numerabile di risultati. Un esempi o lo stato
civile: un soggetto pu essere non sposato,
sposato, di vorziato o vedovo; un altro esem-
pio potrebbe essere il numero di infezioni
all'orecchio di un neonato durante il suo pri-
mo anno di vita. Una variabile casuale conti-
nua, come il peso o l' altezza, pu assumere
qualsiasi valore nell'ambito di uno specifico
intervallo.
7.1 DISTRIBUZIONI DI PROBABILIT
Ogni variabile casuale ha una corrispon-
dente distribuzione di probabilit. Una distri-
buzione di probabilit applica la teoria della
probabilit per descrivere il comportamento
di una variabile casuale. Nel caso di variabili
discrete, essa specifica tutti i possibili risultati
della variabile casuale insieme alla probabilit
che ciascuno di essi si verifichi. Nel caso di
variabili continue, essa ci consente di deter-
minare le probabilit associate a determinati
range di valori.
Sia X una variabile casuale discreta che rap-
presenta, ad esempio, l'ordine di nascita di
ogni bambino nato da una donna residente
negli Stati Uniti (1). Se un bambino il pri-
mogenito, ad esempio, X = 1; se il secondo-
genito, X = 2. Per costruire una distribuzione
di probabilit per X, elenchiamo ciascuno dei
valori x che la variabile casuale in grado di
assumere insieme al valore di P(X=x) per cia-
scuno di essi come, ad esempio, in Tabella
7.1. I risultati X = 8, X = 9 e cos via per i nu-
men mteri sono stati raggruppati insieme e
indicati con '<!: 8'. Si noti che usiamo una X
maiuscola per denotare la variabile casuale ed
una x minuscola per rappresentare se un de-
terminato bambino primogenito, secondo-
genito, e cos via.
La Tabella 7.1 ripropone le distribuzioni di
frequenza introdotte nel Capitolo 2. Per un
campione di osservazioni, una distribuzione
di frequenza mostra ogni risultato osservato e
la sua frequenza. La distribuzione di fre-
quenza include talvolta anche la frequenza
relativa di ciascun risultato. Per una variabile
casuale discreta, una distribuzione di proba-
bilit elenca ogni risultato possibile con la re-
lativa probabilit. Le probabilit rappresen-
tano la frequenza relativa del verificarsi di
ogni risultato x in numerosi esperimenti ripe-
128
Tabella 7.1 Distribuzione di probabilit di una
variabile casuale X che rappresenta
l'ordine di nascita di bambini negli
Stati Uniti
x P(X= x)
1 0,416
2 0,330
3 0,158
4 0,058
5 0,021
6 0,009
7 0,004
;,8
0,004
Totale 1,000
tuti in condizioni sostanzialmente identiche.
In modo equivalente, esse possono essere de-
finite come le frequenze relati ve associate ad
un campione infinitamente grande. Esse ci di-
cono quali valori hanno maggiori possibilit
di verificarsi rispetto ad altri. Poich sono
considerati tutti i possibili valori della varia-
bile casuale, i risultati sono esaustivi; per-
tanto, la somma delle loro probabilit deve
essere uguale a l.
In molti casi, possiamo anche illustrare una
distribuzione di probabilit attraverso un
grafico o una formula matematica. La Figura
7.1, ad esempio, un istogramma della distri-
buzione di probabilit riportata in Tabella
0.5
0.4

II

0.3
]
:ii
'" ..o
0.2 o
d::
0. 1
O
Ordine di nascita x
DISTRIBUZIONI TEORl CHE DI PROBABiLIT
7.1. L'area di ciascuna barra verticale rappre-
senta P(X=x), la probabilit associata a quel
particolare risultato dell a variabile casuale;
l'area totale dell'istogramma uguale a l.
La distribuzione di probabilit di X pu es-
sere utili zzata per determinare i possibili ri-
sultati della variabile casuale. Supponiamo di
voler conoscere la probabilit che un neonato
selezionato casualmente sia un quartogenito.
Utili zzando i dati in Tabella 7. 1, osserviamo
che P(X=4) = 0,058. Qual la probabilit che
il neonato sia un primogenito o un secondo-
genito? Applicando il principio della somma
della probabilit per eventI mutuamente
esclusivi:
P(X = I o X = 2) = P(X = l) + P(X = 2)
= 0,416 + 0,330
= 0,746.
Se una variabile casuale pu assumere molti
valori, una distribuzione di probabilit pu
rivelarsi non adatta a sintetizzare il suo com-
portamento. Come nel caso di una distribu-
zione di frequenza di dati raggruppati, per,
possiamo descrivere una distribuzione di
probabilit utili zzando una misura di ten-
denza centrale ed una misura di dispersione.
Il valore medio di una variabile casuale noto
come media della popolaz ione; la dispersione
dei valori relativi a tale media la varianza
della popolazione. Inoltre, la radice quadrata
Figura 7.1 Di stribuzione di probabilit di
una variabile casuale che rapp resenta l'or-
dine di nascita di bambini negli Stati Uniti
LA DISTRIBUZIONE BINOMIALE
della varianza della popolazione la devia-
zione standard deLLa popolazione.
La distribuzione di probabilit dell' ordine
di nascita dei bambini negli Stati Uniti stata
elaborata in base al!' esperi enza della popola-
zione degli Stati Uniti nel 1986. Le probabi -
lit calcolate da una serie finita di dati sono
chiamate probabilit empiriche. Le distribu-
zioni di probabilit di molte altre variabi li di
interesse, per, possono essere determinate in
base a considerazioni teoriche. Le di stribu-
zioni di questo tipo sono note come distribu-
zioni teoriche di probabilit.
7.2 LA DISTRIBUZIONE BINOMIALE
Si consideri una vari abil e casuale dicoto-
mica Y. Per definizione, la variabile Y deve
assumere uno di due possibili valori; questi
risultati mutuamente esclusivi possono es-
sere, ad esempi o, vi ta o morte, maschio o
femmina, salute o malattia. Per semplicit,
sono spesso indicati come ' insuccesso' e 'suc-
cesso'. Una variabile casuale di questo tipo
nota come variabile casuale di BernouLLi.
Sia Y una variabile casuale che rappresenta,
ad esempio, il comportamento nei confronti
del fumo; Y = 1 se un adul to un fumatore e
Y = O se non lo . I due risultati di Y sono
mutuamente esclusivi ed esausti vi. Nel 1987,
i129% degli adulti negli Stati Uniti fumava si-
garette, sigari o pipa (2); pertanto, possiamo
quantizzare le probabilit relative ai rispettivi
risultati di Y come:
e
P(Y = l ) = P
=0,29
P(Y = O) = l - p
= 1,00 - 0,29
= 0,71.
Queste due equazioni descrivono la distri-
buzione di probabilit dell a variabile casuale
dicotomica Y; se il comportamento nei con-
fronti del fumo non fosse cambiato dal 1987
129
(assunzione forse non verosimile), qual ora
viaggiassimo attraverso gli Stati Uniti osser-
vando se i soggetti adulti sono fumatori o
non fumatori, Y assumerebbe il valore 1 in
circa il 29% dei casi ed il valore O nel rima-
nente 71 %. Si ricordi che la proporzione di
volte in cui una variabile casuale dicotomica
assume il valore 1 uguale alla media della
sua popolazione.
Supponiamo di selezionare casualmente
due soggetti dalla popolazione adulta degli
Stati Uniti . Se introduciamo una nuova vari a-
bile casuale X che rappresenta il numero di
soggetti nella coppia che sono fumatori, al-
lora X pu assumere tre possibili valori: O, 1 o
2. O entrambi i soggetti selezionati non fu-
mano, o uno fuma e l'altro no, o entrambi
sono fumatori. I comportamenti nei con-
fronti del fumo dei due soggetti selezionati
sono indipendenti; pertanto, possiamo appl i-
care il principio del prodotto per calcolare la
probabilit che X assumer un determinato
valore.
Risultato di Y
Primo Secondo Probabilit Numero
soggetto soggetto di questi risultati di fumatori X
O O (l- p) ( l -p) O
1 O p(1 - p) 1
O 1 (1 - p)p 1
1 1 pp 2
Sostituendo il valore di p, rileviamo che:
e
P(X = O) = CI - p)2
= (0,71)2
= 0,504,
P(X= l ) =p(l-p)+ (I-p)p
= 2p(l - p)
= 2(0,29)(0,7 1)
= 0,4 12
P(X = 2) = p2
= (0,29)2
= 0,084.
130
Si noti che ci sono due possibili situazioni
in cui un adulto fuma ed un altro no: Y = 1 per
il primo soggetto e y=o per il secondo, o
Y=O per il primo e Y=l per il secondo. Poi-
ch i due risultati sono mutuamente esclusivi,
possiamo applicare il principio della somma
della probabilit per trovare P(X=l). Si noti
inoltre che, poich sono considerati tutti i
possibili risultati di X, la somma delle loro
probabilit deve essere uguale a 1; cio:
P(X= 0)+ P(X= 1)+ P(X= 2) = 0,504 + 0,412+0,084
= 1,000.
La distribuzione di probabilit della varia-
bile casuale discreta X descritta in precedenza
rappresenta un caso particolare della distribu-
zione binomiale. In generale, se abbiamo una
sequenza di n esperi menti indipendenti di
Bernoulli - o n risultati indipendenti della va-
riabile casuale Y di Bernoulli - ognuno con
una probabilit di 'successo' p, il numero to-
tale di successi X una variabile casuale bi-
nomiale. I numeri fissi n e p sono denominati
i parametri della distribuzione. I parametri
sono quantit numeriche che sintetizzano le
caratteristiche di una distribuzione di proba-
bilit. Nell'esempio precedente, i parametri
sono n = 2, poich sono selezionati due sog-
getti, e p = 0,29, perch la probabilit che un
adulto selezionato casualmente sia un fuma-
tore 0,29. La distribuzione binomiale pre-
suppone tre assunzlOOI:
1. Esiste un numero fisso di esperimenti n,
ognuno dei quali d luogo ad uno di due
risultati mutuamente esclusivi.
2. I risultati degli n esperimenti sono indi-
pendenti.
3. La probabilit di successo p costante
. .
per CIascun espenmento.
La distribuzione binomiale pu essere usa-
ta per descrivere numerose situazioni, come il
numero di fratelli che erediter un determi-
nato tratto genetico dai genitori o il numero
di pazienti che presenteranno effetti indeside-
rati all'assunzione di un nuovo farmaco.
Supponiamo di dover ampliare l'esempio
precedente selezionando casualmente dalla
DISTRIBUZIONI TEORICH E DI PROBA BILlTA
popolazione tre adulti invece di due. In que-
sto caso, X sarebbe una variabile casuale bi-
nomiale con parametri n = 3 e p = 0,29.
Risultato di Y
Primo Secondo Terzo Probabilit
soggetto soggetto soggetto di questi risultati
O O O (1 -p)(l -p)(l - p)
1 O O p(l-p)(l-p)
O 1 O (l-p)p(l-p)
O O 1 ' (l-p)(l -p)p
1 1 O pp(1-p)
1 O 1 p(l - p)p
O 1 1 (l-p)pp
1 1 1 ppp
Sostituendo il valore di p:
P(X = O) = (l - p)3
= (0,7 1)3
= 0,358,
Numero
di
fumatoriX
O
1
1
1
2
2
2
3
P(X= 1)=p(l-p)2 +
p
(l-p)2 +
p
(l - p)2
= 3(0.29)(0,71 j2
= 0,439,
P(X = 2) = p2(1 - p) + p 2(l - p) + p2(l - p)
= 3(0,29)2(0,71)
e
= 0, 179
P(X = 3) = p'"
= (0.29)3
= 0.024.
Queste equazioni descrivono la distribu-
zione di probabilit di X. La variabile casuale
X pu assumere quattro valori, e:
P(X = O) + P(X = I ) + P(X = 2) + P(X = 3)
= 0,358 + 0,439 + 0,179 + 0,024
= 1.000.
Si noti che P(X = 1) e P(X = 2) implicano la
somma di tre termini; se abbiamo un totale di
tre soggetti, ci sono esattamente tre modi in
cui uno di essi pu essere un fumatore e tre
modi in cui due di essi possono essere fuma-
tono
LA DiSTRI/3UZi ONE BiNOMIALE
Se, proseguendo nel nostro esempio, sele-
zioniamo un totale di n adulti dalla p opola-
zione, la probabilit che esattamente x di essi
fumino pu essere scritta come:
n'
P(X = x) = . pX(l - p)n- x
x !(n-x)!
= - p) / - X
= ( ; ) (0,29Y(0,71 )"-x
dove n = 1,2, 3, ... e x = O, 1, ... n. Questa
l'espressione generale per la distribuzione di
probabilit d i una variabile casuale binomiale
X, dove X il numero di fumatori in un cam-
pione di dimensione n. Dato un totale di n
adulti, n! - o n fattoriale - ci consente di cal-
colare il numero di modi in cui gli n soggetti
possono essere ordinati; si noti che abbiamo
n scelte per la prima posi zione, n- l scelte
per la seconda, e cos via. In generale:
n! = n(n - 1)(/1 - 2) .. (3)(2)(1).
Per definizione, O! uguale a 1. L'espres-
sIOne:
(;) - x! x)!
la combinazione di n oggetti scelti x all a
volta; essa rappresenta il numero di modi in
cui x oggetti possono essere selezionati da un
totale di n oggetti senza considerarne l'or-
dine. Ad esempio, se dovessimo selezionare
casualmente tre soggetti dall a popolazione
adulta, avremmo:
(
3) 3! 6
O =0!(3-0)!=(1)(6)=1
una possibilit per poter selezionare O fuma-
tori; in questo caso, i tre adulti dovrebbero
essere non fumatori. Allo stesso modo,
avremmo:
(
3) 3! 6
1 = 1! (3 - l)! = (1)(2) = 3
tre possibi lit per poter selezionare un solo
fumatore, poich il fumatore pu essere il
primo soggetto, il secondo soggetto o il terzo
soggetto; all o stesso modo, ci sarebbero:
131
(
3) 3! 6
2 = 2'(3 - 2)! = (2)(1) = 3
tre possibilit per poter selezionare due fu-
matori, e solo:
(
3) 3! 6
3 = 3!(3 - 3)! = (6)(1) = l
una possibilit affinch tutti e tre gli adulti
siano fumatori. Pertanto, come abbiamo visto
in precedenza:
e
P(X = O) = -p)3-0
= 1(0,29)(0.71)3
= 0,358,
P(X = l ) = (;)pl(l -p )3-1
= 3(0,29) (0,71)2
= 0.439,
P(X = 2) = (;)p2(l - p)3 - 2
= 3(0,29)2(0,71)
= 0.179
P(X = 3) = (D
p
3(l - p)3-3
= 1 (0,29)3(0,71)
= 0,024.
Invece di eseguire a mano questi calcoli, e
assumendo di non disporre di un programma
informatico, possiamo usare la Tabella A.l in
Appendice A per ottenere le probabilit bi-
nomiali per valori selezionati di n e p. Il nu-
mero n di esperimenti nella prima colonna a
sinistra della tabella p er n :5 20; il numero di
successi x nella seconda colonna ed assume
qualsiasi valore intero da O a n, mentre la pro-
babilit p nella riga in alto. Per specifici va-
lori di n, x e p, il valore all'interno della ta-
bella rappresenta:
132
Supponiamo ancora una volta di selezio-
nare casualmente dalla popolazione adulta tre
soggetti al fine di conoscere la probabilit che
due di essi sono fumatori. Locali zziamo
prima di tutto n = 3 a sinistra della tabella, poi
selezioni amo la riga che corrisponde a x = 2.
Arrotondando la probabilit p = 0, 29 a 0,3,
troviamo la colonna corrispondente a p = 0,3.
Ci ci consente di approssimare a 0, 189 la
probabilit che due dei tre soggetti adulti
sono fumatori. (Questo risultato diverso da
0,179, la probabilit calcolata in precedenza,
perch stato necessario arrotondare per ec-
cesso il valore di p).
Supponiamo ora di selezionare tre soggetti
adulti dalla popolazione per conoscere la
probabilit che due di essi non sono fumatori.
In questo caso, vogliamo determinare la pro-
babilit binomiale corrispondente a n = 3, x =
2 e p = 0,71. Anche se arrotondiamo p a 0,7,
per, la Tabella A.l non contiene alcun va-
lore di p maggiore di 0,5. Per risolvere questo
problema necessario considerare che se due
dei tre soggetti sono non fumatori, il terzo
deve essere un fumatore. Pertanto, usiamo la
tabella semplicemente per trovare P(X = 11 n
= 3, P = 0,3), che equivale matematicamente a
P(X = 21 n = 3, P = 0,7).
Oltre all e probabilit di risultati indivi-
duali, possiamo anche calcolare le misure di
U.3
><
0,2
Il
~
]
:.D
'" .n
o
d:;
0, 1
o
DISTRIBUZi ONi TEORICHE DI PROBABILITA
sintesi numerica associate ad una distribu-
zione di probabilit. Ad esempio, il valore
medio di una variabile casuale binomiale X -
o il numero medio di 'successi' in campioni
ripetuti di dimensione n - si ottiene moltipli-
cando il numero di esperimenti indipendenti
di Bernoulli per la probabilit di successo
di ciascun esperimento; quindi, il valore me-
dio di X uguale a np. La varianza di X
np( l - p). Ques te espl;essioni sono state otte-
nute utilizzando un metodo analogo a quello
adottato per calcolare la media e la varianza
di dati raggruppati (3). Applicando queste
for mule, se dovessimo selezionare campioni
ripetu ti di dimensione n = lO dall a popola-
zione adulta, il numero medio di fumatori per
campione sarebbe:
np = 10(0,29)
= 2,9,
e la deviazione standard sarebbe uguale a:
~ l 1 p l - p) = I 0(0,29)(0,7 1) I
= b,059
= 1,4.
L'espressione per la varianza di una varia-
o 2 3 4 5 6 7 8 9 10
Numero di fumatori x
Figu ra 7.2 Di stribuzione di probabilit di
una variabil e cas uale binomial e per n = l O
e p = 0,29
LA DISTRIBUZIONE BINOMIALE
Figura 7.3 Di tribuzione di probabilit di
una variabil e casuale binomial e per n = l O
e p = 0,71

Il
><

13
'" .1::l
o
d:
U,J
0,2
0,1
O
bile casual e binomiale sembra verosimile. La
quantit np(l - p) pi gr ande quando p
ugual e a 0,5; essa diminuisce quando p si av-
vicina a O o a 1. Quando p molto grande o
molto piccola, quasi tutti i risultati assumono
lo stesso valo re - ad esempi o, quasi tutti fu-
mano o quasi tutti non fumano - e la variabi -
lit tra i risultati pi ccola. Al contrario, e
met della popolazione assume il valore O e
l'altra met as Lime il valore 1, sar pi diffi -
cile predire il risultato; in questo caso, la va-
riabilit relativamente grande.
Figura 7.4 Di stribuzione di probabi lit di
una vari abil e casual e binomi ale per n = l O
e p = 0,50

Il
><
]
13
'" .1::l
o
d:
0,::.
0,2
0.1
o

o
133
I
.1
2 3 5 6
x
La Figura 7.2 un grafico della di stribu-
zione di probabilit di X - il numero di fu-
matori - per il quale n = lO e p = 0,29. Poich
sono considerati tutti i possibili risultati di X,
l'area rappresentata dalle barre verticali
uguale a 1. La Figura 7.3 la distribuzione di
probabilit di un'altra variabil e casuale bino-
mi ale per cui n = 10 e p = 0,71 . Si noti che la
di stribuzione asimmetri ca a destra quando
p < 0,5 e asimmetrica a sinistra quando p>0,5.
Se p = 0,5, come in Figura 7.4, la distribu-
zione di probabilit simmetrica.
23 4 567 9 10
x
134
7.3 LA DISTRIBUZIONE DI POISSON
Supponiamo che X sia una variabile casuale
che rappresenta il numero di soggetti coin-
volti ogni anno in incidenti automobilistici.
Negli Stati Uniti, la probabilit che un sog-
getto sia coinvolto 0,00024 (4). Questa
una situazione binomiale in cui esistono due
diversi risultati - incidente o non incidente. Si
noti, per, che n molto grande; siamo inte-
ressati all'intera popolazione degli Stati Uniti.
Quando n molto grande, estremamente la-
borioso calcolare la combinazione di n og-
getti presi x alla volta, n!/x! (n - x)!. Pertanto,
la distribuzione binominale non utilizzabile
come base per eventuali calcoli. Per, in si-
tuazioni come questa - quando n molto
grande e p molto piccola - la distribuzione
binomiale approssimata correttamente da
un'altra distribuzione teorica di probabilit,
la distribuzione di Poisson. La distribuzione
di Poisson utilizzata per modellare eventi
discreti che si verificano raramente nel tempo
o nello spazio; per questo motivo talvolta
chiamata la distribuzione di eventi rari.
Si consideri una variabile casuale X che rap-
presenta il numero di volte in cui un determi-
nato evento si verifica in un determinato in-
tervallo di tempo. Pertanto, X teoricamente
in grado di assumere qualsiasi valore intero
tra O ed infinito. Sia A (la lettera greca lambda)
una costante che denota il numero medio di
volte in cui si verifica l'evento in un inter-
vallo. Se la probabilit che X assuma il valore
x :
e-""l\
P(X = x) = -,-,
x.
si dice che X ha una distribuzione di Poisson
con parametro .. Il simbolo e rappresenta
una costante che approssimata a 2,71828; di
fatto, e la base dei logaritmi naturali. Come
la distribuzione binomiale, la distribuzione di
Poisson implica una serie di assunzioni:
1. La probabilit che un singolo evento si
verifichi in un intervallo proporzio-
nale alla lunghezza dell'intervallo.
DISTRIBUZIONI TEORi CHE DI PROBABIUT
2. Teoricamente, in un singolo intervallo
possibile che l'evento si verifichi un nu-
mero infinito di volte. Non esiste un li-
mite al numero degli esperimenti.
3. Gli eventi si verificano indipendente-
mente nello stesso intervallo e tra inter-
valli consecutivi.
La distribuzione di Poisson pu essere uti-
lizzata per modellare il numero di ambulanze
necessarie in una citti durante una determi-
nata notte, il numero di particelle emesse da
una specifica quantit di materiale radioat-
tivo, o il numero di colonie batteriche che
crescono in una capsula di Petri.
Si ricordi che la media di una variabile ca-
suale binomiale uguale a np e che la sua va-
rianza np(1 - p). Quando p molto piccola,
1 - P vicino a 1 e np(1 - p) approssimati-
vamente uguale a np. In questa situazione, la
media e la varianza della distribuzione sono
uguali e possono essere rappresentate dal-
l'unico parametro A. La propriet che la me-
dia uguale alla varianza una caratteristica
della distribuzione di Poisson.
Supponiamo di voler determinare il nu-
mero di soggetti in una popolazione di 10.000
soggetti coinvolti ogni anno in un incidente
automobilistico. Il numero medio di soggetti
coinvolti sarebbe:
= np
= (10.000)(0,00024)
= 2,4;
questo valore anche la varianza. La probabi-
lit che nessun soggetto di questa popola-
zione sar coinvolto in un incidente in un de-
terminato anno :
P(X = O) = e-
24
(2, 4)O
O!
= 0,091.
La probabilit che un solo soggetto sar
coinvolto :
P(X = I ) = e-
24
(2,4)'
l!
= 0,2 18.
LA DISTRiBUZIONE Di POiSSON
e
Allo stesso modo:
P(X = 2) = e-
2
.4(2,4)2
2!
= 0,261,
P(X = 3) = e- 2.4(2,4 )3
3'
= 0,209,
P(X = 4) = e-
2
.4(2,4)4
4!
= 0,125,
-7
4
(1 4)5
P(X = 5) = e _. - ,
5!
= 0,060
P(X = 6) = e-
2
.4(2,4)6
6!
= 0,024.
Poich i risultati di X sono mutuamente
esclusivi ed esaustivi:
P(X :2: 7) = I - P(X < 7)
= l - (0,091 + 0,218 + 0,261 + 0,209
+ 0,125 + 0,060 + 0,024)
= 0,012.
Invece di eseguire i calcoli a mano, o di uti -
lizzare un programma informatico, possiamo
0.3
><
0.2
" ><;

:.o
'" .D
o
...
0, 1
c...
o
135
usare la Tabella A.2 in Appendice A per otte-
nere le probabilit di Poisson per valori sele-
zionati di IL.. Il numero di successi x ripor-
tato nella prima colonna a sinistra della ta-
bella e nell a riga in alto. Per determinati va-
lori di x e , il valore all'interno della tabella
rappresenta:
- 'x

x.
In una popolazione di 10.000 soggetti, qual
la probabilit che tre di essi saranno coin-
volti in un incidente automobilistico in un
determinato anno? Iniziamo localizzando x =
3 nella prima colonna della Tabella A.2; arro-
tondando 2,4 a 2,5, troviamo la colonna cor-
rispondente a = 2,5. La tabella ci dice che
possiamo approssimare a 0,214 la probabilit
che tre soggetti siano coinvolti in un incidente.
(Ancora una volta questo risultato diverso
da 0,209, la probabilit calcolata prima, per-
ch stato necessario arrotondare il valore
del parametro per poter utili zzare la tabella).
La Figura 7.5 un grafico della distribu-
zione di probabilit di X, il numero di sog-
getti coinvolti ogni anno in un incidente au-
tomobilistico. L'area rappresentata dalle barre
verticali uguale a 1. Come illustrato in Fi-
gura 7.6, la distribuzione di Poisson molto
asimmetrica per piccoli valori di ; all'aumen-
tare di la distribuzione diventa pi simme-
trica.
Figura 7.5 Distribuzione d i probabilit
di una variabi le casuale di Poi sson per
= 2,4
L--L __ ____ L-__ __ __
o 2 3 4 5 6

Numero di soggetti x coinvolti in un incidente
136 DISTRI BUZIONi TEORICH E DI PROBABILIT
.=1 .=4
0,4 0,4
><
0,3 Il 0.3
><;
><;
'l1
:..:l
:ii 0,2 ]0.2
'"
'"
.n
.n
o
o
d:
d:
0,1 0, 1
O

O
O 2 4 6 8 IO 12 14 16 18 20 O 2 4 6 8 lO 12 14 16 18 20
x
x
.=7 . = l O
0,4 0.4
><
0.3 0,3
Il
><;
><;
] 'l1
:ii
0,2 :E 0,2
'"
'"
.n
.n
o
o
d:
d:
0.1
0,1
O O
O 2 4 6 8 lO 12 14 16 18 20 O 2 4 6 8 l O 12 14 16 18 20
x x
Figura 7.6 Distribu zioni di probabilit di vari abili casuali di Poi sson per diversi va lori di
7.4 LA DISTRIBUZIONE NORMALE
Una variabile casual e X, quando segue una
distribuzione binomiale o di Poisson, pu as-
sumere solo valori interi. In circostanze di -
verse, per, i risultati di una vari abile casuale
possono non essere limitati a numeri interi.
Supponiamo che X rappresenti l' altezza. Ra-
ramente un soggetto alto esattamente 67 o
68 pollici (un pollice = 2,54 cm); teorica-
mente, X pu ass umere un numero infinito di
valori intermedi, come 67,04 o 67,8352 pol-
lici. possibile, infatti, trovare sempre un
terzo valore tra due possibili risul tati di X.
Sebbene si possa teoricamente affermare che
possiamo misurare solo risultati discreti a
causa dei limiti dei nostri strumenti di misu-
razione - forse possiamo misurare l'altezza
solo fino ad un decimo di pollice - trattare
una si mile variabile come se fosse continua ci
consente di trarre vantaggio di preziosi risul-
tati matematICI.
Come abbiamo vi sto, la distribuzione di
probabilit di una vari abile casuale di screta
rappresentata da un'equazione per P(X = x) ,
la probabilit che la vari abile casuale X as-
suma un determi nato valore x . Ad esempio,
per una variabi le casuale binomiale con para-
metri n e p:
P(X = x) = C)pr(l - p) /- x.
Ques te probabilit possono essere tracciate
in funzione di x, come in Figura 7.4. Suppo-
niamo che il numero di possi bili risultati di X
sia molto grande e che le ampiezze dei corri-
spondenti intervalli diventino molto piccole.
In Figura 7.7, ad esempio, n = 30 e p = 0, 50.
LA DISTRiBUZiONE NORMALE
Figura 7.7 Distribuzione di probabilit
di una vari abil e casuale binomi ale per n
= 30 e p = 0,50
><
Il
><
~
:.E
'" oD
o
d:
0,15
0,10
0,05
O
In general e, se il numero dei valori possibili
di X si avvicina all'infini to mentre le am-
piezze degli intervalli si avvicinano a zero, il
grafico si avviciner sempre di pi ad una
curva adattata. Una curva adattata utilizzata
per rappresentare la distribuzione di probabi-
lit di una variabile casuale continua; la curva
chiamata densit di probabilit.
In qualsiasi grafico che illustra una distri-
buzione discreta di probabilit, l'area rappre-
sentata dalle barre verticali uguale a 1. Per
una densit di probabilit, l'area totale sotto
la curva deve essere 1. Poich una variabile
casuale conti nua X pu assumere un numero
infinito di valori, la probabi li t associata ad
un qualsiasi risultato uguale a O. La proba-
bilit che X assuma un valore nell'intervallo
compreso tra i ris ultati Xl e X2 uguale all'area
sotto la curva che giace tra questi due valori.
La distribuzione continua pi comune la
distribuzione normale, I,ota anche come di-
stribuzione Gaussiana o curva a campana. La
sua forma quella di una distribuzione bino-
miale per cui p costante ma n si avvicina
all'infinito, o quella di una di stribuzione di
Poisson per cui si avvicina all 'infinito. La
sua densit di probabilit data dall' equa-
zIOne:
l _1-11)2
f(x) = ~ e '1""" ,
y2rc a
O
137
/ \
I
)
J
/"
5 10 15 20 25 30
x
dove -00 < X < 00. Il simbolo re (pi) rappre-
senta una costante approssimata a 3,14159. La
curva normale unimodale e simmetrica ri -
spetto alla sua media J..L (mu); in questo caso
particolare, la media, la mediana e la moda
della distribuzione coincidono. La deviazione
standard, rappresentata da (J (sigma), indica la
quantit di dispersione rispetto alla media. I
due parametri, J..L e (J, definiscono in modo
completo una curva normale.
Il valore della distribuzione normale diven-
ter pi evidente quando ini zieremo ad uti-
li zzare la distribuzione campionaria della me-
dia. Per ora, per, importante notare che
molte variabili casuali - tra cui la pressione
arteriosa, il li vello di colesterolo sierico, l'al -
tezza ed il peso - sono approssimativamente
normalmente distribuite. La curva normale
pu quindi essere utilizzata per stimare le
probabilit associate a queste variabili. In una
popolazione in cui il livell o di colesterolo si e-
rico normalmente distribuito con media J-L e
deviazione standard (J potremmo, ad esem-
pio, voler conoscere la probabilit che un
soggetto selezionato casualmente presenti un
livello di colesterolo sierico maggiore di 250
mg/ 100 mI. Forse ci potrebbe aiutarci nella
pianificazione di unit di cardiologia. Poich
l'area totale sotto la curva normale uguale a
1, possiamo stimare questa probabilit deter-
minando la proporzione dell'area sotto la
curva che giace a destra d i X = 250, o
138
P(X>250). Possiamo, quindi, utilizzare un
programma informatico o la tabella delle aree
calcolate per la curva normale.
Poich una distribuzione normale pu
avere un numero infinito di valori per la sua
media e la sua deviazione standard, impos-
sibile tabulare l'area associata ad ogni singola
curva normale. Pertanto, tabulata una sin-
gola curva - il caso particolare in cui }-L = e O"
= 1. Questa curva nota come distribuzione
normale standardizzata. La Figura 7.8 illu-
stra la curva normale standardi zzata e la Ta-
bella A.3 in Appendice A riporta le aree nella
coda superiore della distribuzione. I risultati
dell a variabile casuale Z sono indicati con z; il
numero intero e la prima cifra decimale di z
sono elencati nella colonna a sinistra della ta-
bella, mentre le seconde cifre decimali sono
riportate nell a riga in alto. Per un part icolare
valore di z, il valore all'interno della tabella
indica l'area sotto la curva a destra di z, o
P(Z>z). Alcuni valori di z e le loro aree corri-
spondenti sono di seguito riportate.
-4
z
0,00
1,65
1,96
2,58
3,00
-3 -2 - I
Area nella coda destra
f(z)
o
z
0,500
0,049
0,025
0,005
0,001
2 3
DiSTRIBUZIONI TEORiCHE DI PROBABILITA
LA
D
Ad esempio, quindi, P(Z>2,58) = 0,005.
Poich la distribuzione normale standardiz-
zata simmetrica rispetto a z = O, l' area sotto
la curva a destra di z uguale all'area a sini-
stra di -z.
-z Area nella coda sinistra
0,00 0,500
- 1,65 0,049
-1,96 0,025
-2,58 0,005
-3,00 0,001
Supponiamo di voler conoscere l'area sotto
Figu
comi
la curva normale standardizzata che giace tra P(_
z = - 1,00 e z = 1,00; poich J1 = O e 0" = 1, que-
sta l'area compresa nell'intervallo p lO", il-
lustrata in Figura 7.9. Di fatto, essa P(-l :5
Z :5 1). Osservando la Tabella A.3, notiamo p,
che l'area a destra di z = 1,00 P(Z > 1) =
star
0,159. Pertanto, anche l' area a sinistra di z =1
a c
-1,00 0,159. Gli eventi che Z > 1 e Z < -ld
ari
sono mutuamente esclusivi e, pertanto, appli- P
cando il principio della somma della probabi-
stra
lit, la somma dell 'area a destra di 1 ed a sini-
star
stra di -1 :
J1
che
l'ar
P(Z > I) + P(Z < -I) = 0,159 + 0,159
= 0.318.
l'ar
Poich l'area totale sotto la curva 1, l'area
tra -1 e 1 deve essere:
P(
4
Figura 7.8 Curva normale standardizzata con Fig
p=O e a = ! oon
LA DISTRIBUZIONE NORMALE
Figura 7.9 Curva normale standardi zzata, area
compresa tra z = - 1,00 c z = 1,00
-4
P( - I :::; Z :::; l) = l - [P(Z > l) + P(Z < - I)]
= l - 0,318
= 0,682.
Pertanto, per la distribuzione normale
standardizzata, circa il 68,2 % dell'area sotto
la curva compreso tra 1 deviazione stan-
dard dalla med ia.
Possiamo inoltre voler calcolare l'area, illu-
strata in Figura 7.1 O, sotto la curva normale
standardizzata che compresa nell'intervallo
J.1 20", o P(-2 :s Z:s 2). La Tabella A.3 indica
che l' area a destra di z = 2,00 0,023; anche
l'area a sinistra di z = - 2,00 0,023. Pertanto,
l'area tra -2,00 c 2,00 deve essere:
P(-2:::; Z:::; 2) = l - [P(Z > 2) + P(Z < -2)]
= 1,000 - [0,023 + 0,023]
= 0,954.
Figura 7.10 urva normale standardi zzata, arca
compresa tra z = -2,00 c z = 2,00
-4
139
-3 -2 -1 o 2 3 4
z
Circa il 95,4% dell'area sotto la curva nor-
male standardizzata compreso tra 2 devia-
zioni standard dalla media. I due calcoli pre-
cedenti formano la base della regola empirica
descritta nel Paragrafo 3.4, la quale afferma
che se una distribuzione di valori simme-
trica e unimodale, circa il 67% delle osserva-
zioni giace all'interno di una deviazione stan-
dard dalla media e circa il 95% giace all'in-
terno di due deviazioni standard.
La Tabella A.3 pu anche essere utilizzata
in un altro modo. Ad esempio, potremmo
voler trovare il valore di z che delimita il 10%
superiore della distribuzione normale stan-
dardizzata, o il valore di z per cui P(Z>z) =
0,10. Localizzando 0,100 all'interno della ta-
bella, osserviamo che il corrispondente valore
di z 1,28. Pertanto, il 10% dell'area sotto la
curva normale standardizzata giace a destra
di z = 1,28; questa area illustrata in Figura
/ 0.954
-3 -2 -1 o 2 3 4
z
140
o
1,28
z
7.11. Allo stesso modo, un altro 10% del-
l' area giace a sinistra di z = -1,28.
Supponiamo ora che X sia una variabi le ca-
suale normale con media 2 e deviazione stan-
dard 0,5. Sottraendo 2 da X otterremo una
variabile casual e normale con media O; come
illustrato in Figura 7. 12, l'intera distribuzione
risulterebbe spostata a sinistra di due unit.
Dividendo (X-2) per 0,5, l'ampi ezza della di -
stribuzione alterata e si ha una variabile ca-
suale normale con deviazione standard 1.
Pertanto, se X una variabile casuale normale
con media 2 e deviazione standard 0, 5, allora:
x - 2
z=--
0,5
x
DI TRIBUZIONI TEORICHE DI PROBABILIT
Figura 7.11 Curva normale standardi zzata, area a
destra di z = 1,28
una variabile casual e normal e standardiz-
zata. In generale, per qualsiasi variabile ca-
suale normale con media J1 e deviazione stan-
dard 0":
X - p
z =--
a
ha una distribuzione normale standardi zzata.
Trasformando X in Z, possiamo utilizzare
una tabella di aree calcolate per la curva nor-
male standardi zzata per stimare le probabilit
associate a X. Il risultato dell a variabile ca-
suale Z, indicato con z, noto come deviata
normale standardizzata o valore z.
Si a X una variabi le casual e che rappresenta,
ad esempio, la pressione sistolica. Per la po-
Figura 7.12 Trasformazione di una curva normale
con medi a 2 e deviazione standard 0,5 in una
curva normale standardi zzata
LA DISTRIBUZIONE NORMALE
polazione maschile degli Stati Uniti di et
compresa tra 18 e 74 anni, la pressione sisto-
lica approssimativamente normalmente di-
stribuita con media 129 millimetri di mercu-
rio (mm H g) e deviazione standard 19,8 mm
Hg (5). Questa distribuzione illustrata in
Figura 7.13. Si noti che:
z = X - 129
19.8
normalmente distribuita con media O e de-
viazione standard 1.
Supponiamo di voler trovare il valore di x
che delimita il 2,5% superiore della curva
della pressione sistolica, o il valore di x per
cui P(X>x) = 0,025. Utilizzando la Tabella
A.3, notiamo che l'area a destra di z = 1,96
0,025. Per ottenere il valore di x che corri-
sponde a z = 1,96, risolviamo l'equazione:
o
z = 1.96
x - 129
19.8
x= 129+(1.96)(19.8)
= 167.8.
Pertanto, circa il 2,5% degli uomini di que-
sta popolazione - una minima percentuale -
ha una pressione sistolica superi ore a 167,8
mm Hg, mentre il 97,5% ha una pressione si-
Figura 7.13 Distribuzione dell a pressione sisto-
li ca della popolazione maschil e di et compresa
tra 18 e 74 anni , Stati Uniti , 1976- 1980
141
stolica inferiore a 167,8 mm Hg. Pertanto, se
selezioniamo casualmente un soggetto da
questa popolazione maschile, la probabilit
che la sua pressione sistolica sia superiore a
167,8 mm Hg 0,025.
Poich la curva normale standardizzata
simmetrica rispetto a z = O, sappiamo che an-
che l'area a sinistra di z = -1,96 0,025. Ri-
solvendo l'equazione:
o
z = -1.96
x - 129
19.8
x = 129 + (-1.96)(19.8)
= 90.2,
rileviamo che il 2,5 % degli uomini ha una
pressione sistolica inferiore a 90,2 mm Hg.
Allo stesso modo, la probabilit che un sog-
getto maschio selezionato casualmente abbia
una pressione sistolica inferiore a 90,2 mm
H g 0,025. Poich il 2,5 % dei soggetti nella
popolazione ha una pressione sistolica supe-
riore a 167,8 mm Hg ed il 2,5 % presenta va-
lori inferiori a 90,2 mm Hg, il restante 95 %
dei soggetti deve avere valori di pressione si-
stolica compresi tra 90,2 e 167,8 mm Hg.
Potremmo anche voler determinare la pro-
porzione di soggetti nella popolazione con
pressione sistolica superiore a 150 mm Hg. In
0,025
\.
90.2 129 167.8
Press ione sistoli ca (mm H g)
0,025
/
142
questo caso, abbiamo il risultato della varia-
bile casuale X e dobbiamo risolvere per la de-
viata normale z:
z=
150 - 129
19,8
1,06.
L'area a destra di z = 1,06 0,145. Pertanto,
circa il 14,5% dei soggetti in questa popola-
zione ha una pressione sistolica superiore a
150 mm Hg.
Consideriamo ora una situazione pi com-
plessa in cui vi siano due variabili casuali nor-
malmente distribuite. In uno studio nazionale
australiano sulla prevalenza dei fattori di ri-
schio sono state esaminate due popolazioni
maschili, la prima costituita da soggetti con
pressione arteriosa normale e non sottoposti
ad alcuna terapia antiipertensiva, la seconda
costituita da soggetti ipertesi, ma in terapia
(6).
Per la popolazione di soggetti non sottopo-
sti a terapia, la pressione diastolica appros-
simativamente normalmente distribuita con
media Iln = 80,7 mm Hg e deviazione stan-
dard (Jn = 9,2 mm Hg. Anche per i soggetti in
terapia antiipertensiva, la pressione diastolica
approssimativamente normalmente distri-
buita con media Ila = 94,9 mm Hg e devia-
zione standard (Ja = 11,5 mm Hg. Queste due
distribuzioni sono illustrate in Figura 7.14. Il
nostro obiettivo quello di determinare se un
soggetto presenti una pressione arteriosa nor-
DISTRIBUzrONI TEORICHE DI PROBABILlTA
male o stia assumendo farmaci antiipertensivi
semplicemente in base al valore della sua
pressione diastolica. Questo esercizio appa-
rentemente inutile in realt prezioso perch
ci fornisce una base per il test di ipotesi.
Bisogna prima di tutto considerare che a
causa della notevole sovrapposizione tra le
due curve normali sar difficile distinguerle.
Tuttavia, vogliamo procedere: se il nostro
obiettivo individuare il 90% dei soggetti in
terapia, quale valore di pressione diastolica
deve essere scelto come punto inferiore di cut
off? Si noti che ci equivale a trovare il valore
di pressione diastolica che delimita il 10% in-
feriore di questa distribuzione. Osservando la
Tabella A.3, troviamo che z = - 1,28 delimita
un' area di 0,10 nella coda inferiore della curva
normale standardizzata. Pertanto, risolvendo
per x:
e
z= - 1,28
x - 94,9
11,5
x = 94,9 + (- 1,28)(11 ,5)
= 80,2.
Circa il 90% dei soggetti in terapia antii-
pertensiva ha una pressione diastolica supe-
riore a 80,2 mm Hg. Se usiamo questo valore
come punto di cut off, il rimanente 10% dei
soggetti - che presentano valori inferiori a
80,2 mm Hg - risultano dei falsi negativi; essi
Non in terapia Terapia antiipertensiva
80,2 80,7 94,9
Pressione diastolica (mm Hg)
Figura 7.14 Distribuzione della pressione diasto-
lica per due popolazioni di soggetti maschi austra-
li ani, J 980
ULTERIORI APPLICAZIONI
sono soggetti in terapia, ma non identificati
come tali.
Quale proporzione di soggetti con pres-
sione arteriosa non in terapia sar erronea-
mente identificata come soggetti in terapia
antiipertensiva? Si tratta, in realt, dei sog-
getti della popolazione non in terapia con
pressione diastolica superiore a 80,2 mm Hg.
Risolvendo per z (si noti che stiamo usando
la medi a e la devi azione standard dei soggetti
che non sono in terapia antiipertensiva):
_ = 80,2 - 80,7
9,2
= -0,05.
Un'area di 0,480 giace a sinistra di -0,05;
pertanto, l'area a destra di z = -0,05 deve es-
sere:
1,000 - OA80 = 0,520.
Circa il 52% dei soggetti con pressione ar-
teriosa normale sar erroneamente classifi-
cato come soggetti in terapia antiipertensiva.
Si noti che questi errori sono dei falsi positivi.
Per ridurre la proporzione di falsi positivi,
necessario innal zare il punto di cut oH per
individuare i soggetti in terapia antiiperten-
siva. Ad esempio, se il cut oH fosse stato di 90
mm Hg, allora:
90 - 80,7
z = 9,2
= 1,01,
e solo il 15,6% dei soggetti con pressione ar-
teriosa normale sarebbe erroneamente classi-
ficato nel gruppo di soggetti in terapia.
Quando si innalza il Funto di cut oH, per,
la proporzione di soggetti correttamente clas-
sificati nel gruppo in terapia diminuisce; si
noti che:
90 - 94,9
z = 11,5
= -OA3.
L'area a sinistra di z = -0,43 0,334, e:
1,000 - 0,334 = 0,666;
143
pertanto, sarebbe identificato solo il 66,6%
dei soggetti che assumono farmaci antiiper-
tensivi. Il rimanente 33,4% di questi soggetti
rappresenterebbe dei falsi negativi.
Facciamo sempre un compromesso quando
cerchiamo di manipolare le proporzioni di
falsi negativi e falsi positivi; lo stesso feno-
meno osservato nell' esame della sensibilit e
della specificit di un test diagnostico. In ge-
nerale, possibile ottenere una proporzione
inferiore di falsi positivi solo aumentando la
probabilit di un falso negativo, e la propor-
zione di falsi negativi pu essere ridotta solo
elevando la probabilit di un falso positivo.
La relazione tra questi due tipi di errore de-
terminata dalla entit della sovrapposizione
delle due popolazioni normali in esame.
7.5 ULTERIORI APPLICAZIONI
Supponiamo di voler esaminare la probabi-
lit che un paziente punto con un ago infetto
dal virus dell' epatite B sviluppi realmente la
malattia. Sia Y una variabile casuale di Ber-
noulli che rappresenta lo stato di malattia di
un paziente punto con un ago infetto; Y as-
sume il valore 1 se il soggetto manifesta l'epa-
tite e O in caso contrario. Questi due risultati
sono mutuamente esclusivi ed esaustivi . Se il
30% di questi pazienti manifesta l'epatite B
(7), allora:
e
P(Y=I)=p
= 0,30
P( Y = O) = I - p
= 1-0,30
= 0,70.
Se abbiamo n osservazioni indipendenti di
una variabile casuale dicotomica tali che cia-
scuna osservazione ha una probabilit co-
stante di 'successo' p, il numero totale di 'suc-
cessi' X segue una distribuzione binomiale.
La variabile casuale X pu assumere qualsiasi
valore intero tra O e n; la probabilit che X as-
144
suma un particolare valore x pu essere
espressa come:
P(X =x) = (:; )pX(1 - p)"-x.
Supponiamo di selezionare cinque soggetti
dalla popolazione di pazienti che sono stati
punti con un ago infetto dal virus dell'epatite
B. Il numero di pazienti in questo campione
che svilupper la malattia una variabile ca-
suale binomiale con parametri n = 5 e p =
0,30. La sua distribuzione di probabilit pu
essere rappresentata nel modo seguente:
e
P(X = O) =
= (l)(1 )(0.70)5
= 0. 168,
P(X = I) = ( D(0.30)'(0.70)5-,
= (5)(0.30)(0.70)4
= 0.360,
P(X = 2) =
= (10)(0.30)2(0.70)3
= 0,309,
P(X = 3) = (;)(0.30)3(0.70)5- 3
= (10)(0.30)3(0.70)2
= 0. 132,
P(X = 4) =
= (5)(0.30)4(0.70)
= 0.028
P(X = 5) = (D(0,3W(0.70)5- S
= ( 1)(0.30)5( 1)
= 0.002.
Invece di calcolare queste probabilit a
mano, potremmo consultare la Tabella A.1 in
Appendice A o usare un pacchetto statistico
DfSTRIBUZIONI TEORfCHE DI PROBABILIT
in grado di produrre probabilit as ociate ad
una variabile casuale binomiale; la Tabella 7.2
mostra i risultati ottenuti con Minitab.
Tabell a 7.2 Risultati di Minitab che illustrano la
distribuzione di probabilit di una
variabile casuale binomiale con para-
metri n = 5 e p = 0,30
BINOMIAL WITH N=5 P=O 30
K P\X=K)
O 0.1681
1 0.3601
2 O 3087
3 O 1323
4 O 0284
5 O 0024
La probabilit che almeno tre soggetti tra
cinque sviluppino l'epatite B :
P(X 3) = P(X = 3) + P(X = 4) + P(X = 5)
= 0.132 + 0.028 + 0.003
= 0. 163;
la probabilit che al massimo un paziente svi-
luppi la malattia :
P(X $ 1) = P(X = O) + P(X = l )
= 0.168 + 0,360
= 0.528.
Inoltre, il numero medio di persone che
svilupperanno la malattia in campioni ripe-
tuti di dimensione uguale a 5 np = =
1,5 e la deviazione standard \ np (1 - p) =
Js (0,3) (0,7) = !1:05 = 1,03.
Se X rappresenta il numero di volte in cui si
verifica un evento in un determinato inter-
vallo di tempo o di spazio tale che il numero
medi o di volte in cui l'evento si verifica e la
varianza della popolazione siano uguali a ,
allora X ha una distribuzione di Poisson con
parametro . La variabil e casuale X pu assu-
mere qualsiasi valore intero tra O e 00; la pro-
babilit che X ass uma un particolare valore x
:
ULTERIORI APPLICAZION I
Supponiamo di voler esaminare la possibile
diffusione di difterite e sapere quanti casi
possono verificarsi in un determinato anno.
Sia X il numero di casi di difterite registrati
negli Stati Uniti in un determinato anno tra il
1980 ed il 1989. La variabile casuale X ha una
distruzione di Poisson con parametro IL = 2,5
(8); la distribuzione di probabilit di X pu
essere espressa come:
e-
25
(2,5).\
P(X = x) = -----'-"---'-
x!
Pertanto, la probabilit che non sia regi-
strato alcun caso di difterite in un determi-
nato anno :
P(X = O) = e-
2
.
5
(2,5)o
O!
= 0,082.
La probabilit che sia registrato un solo
caso :
P(X = l ) = e-
2
's(2,5)1
l!
= 0,205;
allo stesso modo:
e
P(X = 2) = e-
2
,5(2 ,5)2
2
1
= 0,257.
P(X = 3) = e-
25
(2,5)3
3!
= 0,214,
P(X = 4) = e-
2
,5(2,5)4
4!
= 0,134
P(X = 5) = e-
2
,5(2,5)5
5!
= 0,067.
Avremmo potuto consultare la Tabella A.2
in Appendice A per determinare queste pro-
babilit o utilizzare un pacchetto statistico.
145
Poich i risultati di X sono mutuamente
esclusivi ed esaustivi:
P(X 2: 4) = l - P(X < 4)
= 1- (0,082 + 0,205 + 0,257 + 0,214)
= 0,242.
C' una probabilit del 24,2% che si verifi-
chino quattro o pi casi di difterite in un de-
terminato anno. Allo stesso modo, la proba-
bilit di osservare sei o pi casi :
P(X 2: 6) = l - P(X < 6)
= l - (0,082 + 0,205 + 0,257 + 0,214
+ 0,134+ 0,067)
= 0,04l.
Il numero medio di casi anno IL = 2,5
e la deviazione standard J IL = h,5 = 1,58.
Se X pu assumere qualsiasi valore in uno
specifico intervallo invece di essere ristretto
solo a valori interi, X una variabile casuale
continua. La distribuzione continua pi co-
mune la distribuzione normale. La distribu-
zione normale definita da due parametri -la
sua media J1 e la sua deviazione standard (J.
La media indica il centro della distribuzione;
la deviazione standard quanti zza l'ampiezza
della dispersione rispetto alla media. La
forma della distribuzione normale suggerisce
che pi probabile che si verifichino i risul-
tati della variabile casuale X vicini alla media
piuttosto che i valori lontani da essa.
La distribuzione normale con media J1 = O e
deviazione standard (J = 1 nota come distri-
buzione normale standardizzata. Poich la
sua area stata tabulata, essa utili zzata per
ottenere le probabilit associate a variabili ca-
suali normali. Ad esempio, supponiamo di
voler conoscere l'area sotto la curva normale
standardizzata compresa tra z = -3,00 e z =
3,00 o, in modo analogo, l'area nell'intervallo
J1 3(J. Questa area illustrata in Figura 7.15.
Osservando la Tabella A.3, troviamo che
l'area a destra di z = 3,00 0,001. Poich la
curva normale standardizzata simmetrica,
anche l'area a sinistra di z = -3,00 0,001.
Pertanto, l'area tra - 3,00 e 3,00 :
146
-4 -3 -2 -1 o 2 3
z
P( -3:::; Z:::; 3) = 1- [P(Z < -3) + P(Z > 3)]
= 1-0,001-0,001
= 0,998;
circa il 99,8% dell'area sotto una curva nor-
male standardizzata compreso tra 3 devia-
zioni standard dalla media.
Se X una qualsiasi variabile casuale nor-
male con media J1 e deviazione standard (J, al-
lora:
X-J1
2=--
(5
una variabile casuale normale standardiz-
zata. Trasformando X in Z, possiamo utiliz-
zare la tabella delle aree della curva normale
standardizzata per stimare le probabilit as-
sociate a X.
0,876
/
60 63,9 68
Altezza (polli ci)
4
DISTRIBUZIONI TEORICHE DI PROBABILlTA
Figura 7.15 Curva normal e standardizzata, area
compresa tra Z = -3,00 e z = 3,00
Ad esempio, supponiamo che X sia una va-
riabile casuale che rappresenta l'altezza. Per
la popolazione di donne degli Stati Uniti di
et compresa tra 18 e 74 anni, l' altezza nor-
malmente distribuita con media J1 = 63,9 pol-
lici e deviazione standard (J = 2,6 pollici (9).
Questa distribuzione illustrata in Figura
7.16. Si osservi che:
Z = X - 63,9
2,6
una variabile casuale normale standardiz-
zata.
Se selezioniamo casualmente da questa po-
polazione una donna, qual la probabilit
che la sua altezza sia compresa tra 60 e 68
pollici? Per x = 60:
Figura 7.16 Di stribuzione dell'altezza in donne di
et compresa tra 18 e 74 anni , Stati Uniti, 1976-
1980
ESERCIZI
60 - 63,9
z ::= 2,6
::= - 1,50,
e per x = 68:
68 - 63,9
z ::= 2,6
::= 1,58.
Pertanto, la probabilit che x - l'altezza
:lella donna - sia compresa tra 60 e 68 pollici
uguale all a probabilit che z si trovi tra
-1,50 e 1,58 per la curva normale standardiz-
L'area a sinistra di z = -1,50 0,067 e
l'area a des tra di z = 1,58 0,057. (Invece di
Jsare la Tabella A.3, potremmo usare un pac-
:hetto statistico per calcolare queste probabi-
it). Poich l'area totale sotto la curva 1,
.'area tra -1,50 e 1,58 deve essere:
P(60 :s X:s 68) ::= P( -l,50 :s Z :s 1,58)
= ) - [P(Z < - ),50) + P(Z > 1,58)]
= l - [0,067 + 0,057]
=0,876.
La probabilit che l' altezza della donna sia
:ompresa tra 60 e 68 pollici 0,876.
Potremmo anche voler sapere quale valore
li altezza delimita il 5% superiore della di -
;tribuzione. Dalla Tabella A.3, osserviamo
:he l'area di una coda di 0,050 corrisponde a
= 1,645. Risolvendo per x:
z ::= 1,645
x - 63,9
2,6
x::= 63,9 + ( 1,645)(2,6)
::= 68,2.
Circa il 5% delle donne di questa popola-
pi alta di 68,2 pollici.
147
7.6 ESERCIZI
1. Che cos' una distribuzione di probabi-
lit? Quali forme pu assumere?
2. Quali sono i parametri di una distribu-
zione di probabilit?
3. Quali sono le tre propriet associate alla
distribuzione binomiale?
4. Quali sono le tre propriet associate alla
distribuzione di Poisson?
5. Quando la distribuzione binomiale ap-
prossimata in modo soddisfacente dalla di -
stribuzione di Poisson?
6. Quali sono le propriet della distribu-
zione normale?
7. Illustrare l'importanza della distribuzio-
ne normale standardizzata.
8. Sia X una variabile casuale discreta che
rappresenta il numero di esami diagnostici
che un bambino riceve nel corso di una visita
pediatrica, quali, ad esempio, l'esame del san-
gue e delle urine. La distribuzione di proba-
bilit per X di seguito riportata (10).
x P(x = x)

0,671
1 0,229
2 0,053
3 0,031
4 0,010
2:5 0,006
Totale 1,000
a. Disegnare un grafico della distribuzione di
probabilit di X.
b. Qual la probabilit che un bambino ri-
ceva esattamente tre esami diagnostici du-
rante una visita pediatrica?
c. Qual la probabilit che un bambino ri-
ceva almeno un esame diagnostico? E
quattro o pi esami?
d. Qual la probabilit che un bambino ri-
148
ceva esattamente tre esami di agnostici, po-
sto che abbia ricevuto almeno un esame?
9. Supponiamo di voler monitorare l'inqui -
namento dell'aria a Los Angeles in California
nell'arco di una settimana. Sia X una variabile
casuale che rappresenta il numero di giorni su
sette in cui la concentrazione di monossido di
carbonio supera un determinato livello. Rite-
nete che X abbia una distribuzione bino-
miale? Spiegare.
lO. Si consideri un gruppo di sette soggetti
selezionati dalla popolazione degli Stati Uniti
di et compresa tra 65 e 74 anni. Il numero di
soggetti di abetici in questo campione una
variabile casuale binomi ale con parametri n =
7 ep = 0,125 (1 1).
a. Se si volesse fare un elenco dei sette sog-
getti selezionati, in quanti modi essi pos-
sono essere ordinati?
b. Senza considerare l'ordine, in quanti modi
possibile selezionare quattro soggetti da
questo gruppo di sette?
c. Qual la probabilit che esattamente due
soggetti del campi one siano diabetici?
d. Qual la probabilit che quattro soggetti
siano diabetici?
Il . In accordo con la ational Health Sur-
vey, il 9,8% della popolazione di soggetti de-
gli Stati Uniti di et compresa tra 18 e 24 anni
mancina (9).
a. Supponiamo di selezionare dieci soggetti
da questa popolazione. In quanti modi
possono essere ordinati?
b. Senza considerare l'ordine, in quanti modi
possibile selezionare quattro soggetti da
questo gruppo di dieci?
c. Qual la probabi lit che esattamente tre di
questi dieci soggetti siano mancini?
d. Qual la probabilit che almeno sei dei
dieci soggetti siano mancini?
e. Qual la probabilit che al massimo due
soggetti siano mancini?
12. In accordo con il Behavioral Risk Fac-
tor Surveillance System, il 58% degli ameri-
cani ha uno stile di vi ta sedentario (12) .
DISTRIBUZIONI TEOR ICHE DI PROBABILIT
a. Se si selezionano campioni ripetuti di do-
dici soggetti dalla popolazione, quale sar
il numero medio di soggetti per campione
che non svolgono una regolare attivit fi-
sica? Quale sar la deviazione standard?
b. Supponiamo di selezionare un campione di
dodici soggetti e di trovare che di eci di essi
non svolgono una regolare attivit fisica.
Assumendo che il Surveillance System sia
corretto, qual la 'probabi lit di ottenere
ri sultati uguali o peggiori di quelli osser-
vati?
13. In accordo con il Massachusetts De-
partment of Health, 224 donne che hanno
partorito nello Stato del Massachusetts nel
1988 erano posi tive al test per gli anticorpi
anti-HIV. Si assuma che, con il tempo, i125%
dei bambini nati da queste madri risulti posi-
tivo al virus HIV.
a. Se campioni di dimensione uguale a 224
fossero ripetutamente selezionati dalla po-
polazione di bambini nati da madri HIV
positive, quale sarebbe il numero medio di
bambini infetti per campione?
b. Quale sarebbe la deviazione standard?
c. Usare la disuguaglianza di Chebychev per
descrivere questa distribuzione.
14. Il numero di casi di tetano registrati ne-
gli Stati Uniti durante un singolo mese nel
1989 ha una distribuzione di Poisson con pa-
rametro = 4,5 (8).
a. Qual la probabilit che esattamente un
caso di tetano sia registrato durante un de-
terminato mese?
b. Qual la probabilit che siano registrati al
massimo due casi di tetano?
c. Qual la probabilit che siano registrati
quattro o pi casi?
d. Qual il numero medio di casi di tetano
registrati in un mese? Qual la deviazione
standard?
15. In una particolare contea, il numero
medio di suicidi registrati ogni mese 2,75
(13) . Si assuma che il numero di suicidi segua
una distribuzione di Poisson.
ESERCIZI
a. Qual la probabilit che non si registri al-
cun suicidio in un determinato mese?
b. Qual la probabilit che siano registrati al
massimo quattro sui cidi?
c. Qual la probabilit che siano registrati sei
o pi suicidi?
16. Sia X una variabile casuale che rappre-
senta il numero di neonati in un gruppo di
2.000 che muore prima del primo com-
pleanno. Negli Stati Uniti, la probabilit che
un bambino muoia durante il primo anno di
vita 0,0085 (14).
a. Qual il numero medi o di neonati che
muore in un gruppo di questa dimensione?
b. Qual la probabilit che al massi mo cin-
que neonati su 2.000 muoiano nel primo
anno di vi ta?
c. Qual la probabilit che tra 15 e 20 neo-
nati muoiano nel primo anno di vita?
17. Si consideri la distribuzione normale
standardi zzata con medi a f..L = O e deviazione
standard CI = 1.
a. Qual la probabilit che un risultato z sia
maggiore di 2,60?
b. Qual la probabilit che z sia minore di
1,35 ?
c. Qual la probabilit che z sia compreso
tra - 1,70 e 3,10?
d. Quale valore di z delimita i115% superi ore
dell a di stribuzione normale standardiz-
zata?
e. Quale valore di z delimita il 20% inferiore
della distribuzione?
18. Tra le donne degli Stati Uniti di et
compresa tra 18 e 74 anf).i, la pressione diasto-
lica normalmente distribuita con media f..L =
77 mm Hg e deviazione standard CI = 11,6
mm Hg (5).
a. Qual la probabilit che una donna sel e-
zionata casualmente abbia una pressione
diastolica inferiore a 60 mm Hg?
b. Qual la probabilit che la donna abbia
una pressione diastolica superi ore a 90 mm
Hg?
c. Qual la probabilit che la donna abbia
149
una pressione diastolica compresa tra 60 e
90 mm Hg?
19. La distribuzione del peso della popola-
zione maschile degli Stati Uniti approssima-
tivamente normale con media f..L = 172,2 libbre
e deviazione standard CI = 29,8 libbre (una
libbra = 454 grammi ) (9).
a. Qual la probabilit che un soggetto sele-
zionato casualmente pesi meno di 130 lib-
bre?
b. Qual la probabilit che il soggetto pesi
pi di 21 0 libbre?
c. Qual la probabilit che tra cinque sog-
getti maschi selezionati casualmente dalla
popolazione, almeno uno abbia un peso
non compreso tra 130 e 210 libbre?
20. Nel Framingham Study, sono stati mi-
surati i livelli di colesterolo sierico per un ele-
vato numero di maschi sani. La popolazione
stata poi seguita per 16 anni. Alla fine di que-
sto periodo, i soggetti sono stati divisi in due
gruppi: coloro che avevano sviluppato una
cardiopatia coronarica e coloro che erano an-
cora sani. Le distribuzioni dei livelli iniziali di
coles terolo sierico per ciascun gruppo erano
approssimativamente normali. Tra i soggetti
che svilupparono una cardi opatia coronarica,
il livello medio di colesterolo sierico era f..Lm=
244 mg/ 100 mi e la deviazione standard era
CI
m
= 51 mg/ 100 mi; per coloro che non ave-
vano sviluppato la malatti a, il livello medi o di
colesterolo sierico era f..Lnm= 219 mg/100 mi e
la deviazione standard era CI
nm
= 41 mg/ 100
mi (1 5).
a. Supponiamo che si utili zzi un livello ini-
ziale di colesterolo sierico superiore o
ugual e a 260 mg/100 mi per predire cardio-
patie coronariche. Qual la probabilit di
predire la malattia per un soggetto che la
svilu pper?
b. Qual la probabilit di predire la malattia
per un soggetto che invece non la svilup-
per ?
c. Qual la probabilit di non predire la ma-
lattia per un soggetto che invece la svilup-
per?
150
d. Che cosa accadrebbe alle probabilit di
falsi positivi e falsi negativi se il punto di
cut oH per predi re cardiopatie coronariche
fosse ridotto a 250 mg/ 100 mI?
e. In questa popolazione, il livello iniziale di
colesterolo sierico sembra essere utile per
predire cardiopatie coronariche? Perch o
perch no?
Bibliogra fi a
1. ATIO AL CENTER FOR H EALTH STATISTI S:
Supplemems to the Monthly Vital Statistics
Reports: Advance Reports, 1986. Vital and
Health Statistics, Series 24, umber 3, March
1990.
2. CENTERS l'OR DISEASE CONTRO L: The Surgeon
General's 1989 Report on reducing the hcalth
consequences of smoking: 25 years of pro-
gress. Morbidity and Mortality Weekly Report
Supplement, Volume 38, March 24, 1989.
3. Ross S.M.: Introduction to probability models.
Academic Press, Orlando, FL, 1985.
4. WILSON R., CROUCH E.A.C.: Risk assessment
and comparisons: an introduction. Science,
236:267-270,1987.
5. N ATIONAL CE TER FOR H EALTH STATISTICS,
DRIZD T., DANNENBERG A.L., E GEL A.: Blood
pressure levels in persons 18-74 years of age in
1976-1980, and trends in blood pressure from
1960 to 1980 in the U nited States. Vital and
Health Statistics, Series Il, umber 234, Jul y
1986.
6. CASTELLI W.P., ANDERSON K. : Amihyperten-
sive treatmem and plasma lipoprotein levels:
the associations in data from a population
study. American Journal oj Medicine Supple-
ment, 80:23-32, 1986.
7. TYE L.: Many states tackling issue of AIDS- i n-
fected health care workers. The Boston Globe,
May 27:29-30, 1991.
DISTRIBUZIONI TEORICHE DI PROBABILIT
8. CENTERS FOR DISEASE CONTRO L: Summary of
notifiable diseases, United States, 1989. Morbi-
dity and Mortality Weekly Report, Volume 39,
October 5, 1990.
9. ATI O AL CE TER l'OR H EALTH STATISTICS,
AJJAR M.F. , RO\XILA D M.: Anthropometric
reference data and prevalence of overweight:
United States, 1976- 1980. Vital and Health
Statistics, Seri es Il,
1987.
umber 238, October
lO. N ATIONAL CENTER 'FOR H EALTH STATISTICS,
WOOD\XIELL D.: Office visits to pediatric spe-
cialists, 1989. Vital and Health Statistics. Ad-
vance Data Report Numbcr 208, January 17,
1992.
Il. CENTERS l'OR DISEASE Co ROL: Regional va-
riation in diabetcs melliws prevalence - Uni-
ted States, 1988 and 1989. Morbidity and Mor-
tality Weekly Report, Volume 39, November
16,1990.
12. CENTERS l'OR DISEASE CONTROL: Coronary
heart disease attributable to sedentary lifestyle
- selected states, 1988. Morbidity and Morta-
lity Weekly Report, Volume 39, August 17,
1990.
13. GIBBONS R.D., CLARK D.C., FA\XICEn].: A sta-
tistical method for evaluating suicide clusters
and implementing cluster surveillance. Ameri-
can Journal oJ Epidemiology Supplement,
132:183-191, 1990.
14. N ATI0NAL CENTER FOR H EALTH STATISTICS,
KOCHA EK D., H UDSON B.L.: Advance report
of final mortal ity statist ics, 1992. Monthly Vi-
tal Statistics Report, Volume 43, Number 6,
March 22, 1995
15. MACMAHON S.W., MACDoNALD G.].: A popu-
lation at risk: prevalence of hi gh cholesterol le-
vels in hypertensive patients in the Framin-
gham Study. American Journal oJ Medicine
Supplement, 80:40-47, 1986.
8
Distribuzione campionaria della media
Nel capitolo precedente abbiamo esami-
nato diverse distribuzioni teoriche di proba-
bilit, come la distribuzione binomiale e la di-
stribuzione normale. In tutti i casi abbiamo
assunto di conoscere i principali parametri
della popolazione; ci ci ha consentito di de-
scrivere le distribuzioni e di calcolare le pro-
babilit associate ai vari risultati. Nelle appli-
cazioni pratiche, per, quasi sempre i valori
di questi parametri non sono noti. In questi
casi dobbiamo tentare di descrivere o stimare
alcune caratteristiche di una popolazione,
come la media o la deviazione standard, uti-
lizzando le informazioni contenute in un
campione di osservazioni. Il processo attra-
verso il quale si traggono conclusioni su
un'intera popolazione in base ad un cam-
pione noto come inferenza statistica.
8.1 DISTRIBUZIONI CAMPIONARIE
Supponiamo di voler stimare la media di al-
cune variabili casuali continue. Potremmo
voler formulare, ad esempio, delle ipotesi sul
livello medio di colesterolo sierico degli uo-
mini residenti negli Stati Uniti in base ad un
campione estratto da questa popolazione.
L'approccio pi naturale sarebbe quello di
utilizzare la media del campione come stima
della media Il non nota della popolazione. La
quantit X uno stimato re del parametro Il.
Ci sono diversi approcci al processo di stima;
poich si assume che la popolazione sia nor-
malmente distribuita, la media del campione
X uno stimatore di massima verosimiglianza
(1). Il metodo dell a massima verosimiglianza
trova il valore del parametro che pi verosi-
milmente ha prodotto il campione osservato.
Questo metodo genera stimatori ragionevoli.
probabile, per, che due differenti cam-
pioni producano medie diverse; pertanto, si
ha un certo grado di incertezza. Prima di ap-
plicare questa procedura, pertanto, esami-
niamo alcune propriet della media campio-
naria ed i modi in cui essa pu variare.
La popolazione in esame pu essere rap-
presentata da un qualsiasi gruppo da noi sele-
zionato. In genere, possiamo stimare la media
Il di una popolazione con maggiore preci-
sione quando il gruppo relativamente omo-
geneo. Se c' solo una modesta variabilit tra
i soggetti, possiamo essere pi sicuri che le
osservazioni in un qualsiasi campione sono
rappresentative dell'intera popolazione.
Un campione deve fornire una rappresenta-
zione accurata della popolazione da cui
stato selezionato. In caso contrario, le con-
clusioni che vengono tratte sulla popolazione
possono essere distorte. Se vogliamo determi-
nare, ad esempio, il livello medio di coleste-
rolo sierico della popolazione maschile degli
Stati Uniti di et compresa tra 20 e 74 anni,
ma selezioniamo solo i soggetti maschi oltre i
60 anni, probabile che la nostra stima della
media della popolazione risulti troppo ele-
vata. importante che il campione selezio-
nato sia casuale o random; ogni soggetto della
popolazione deve avere la stessa probabilit
di essere selezionato. Questo punto sar ulte-
riormente discusso nel Capitolo 22. Inoltre,
prevedibile che maggiore la dimensione del
152
campione, pi affidabil e sar la nostra stima
dell a media della popolazione.
Assumiamo che, in una determinata popo-
lazione, la media della variabil e casuale conti -
nua livell o di coles terolo sierico J1 e la de-
viazione standard (J. Selezioniamo un cam-
pione casuale di n osservazioni dalla popola-
zione e calcoliamo la medi a di questo
campione. Indichiamo la media del campione
con XI ' Selezioni amo, poi, un secondo cam-
pione casuale di n osservazioni e calcoliamo
la media del nuovo campione. Indichiamo
questa seconda media del campione con x2'
poco verosimile che Xl sia uguale a Xz, a meno
che tutti i membri della popolazione abbiano
lo stesso livello di colesterolo sierico. Se ese-
guissimo ques ta procedura all'infinito - sele-
zionando tutti i possibili campioni di dimen-
sione n e calcolando le loro medie - otter-
remmo una serie di valori costituiti da medie
campionarie. Lo stimatore X una variabile
casuale con risultati Xl' Xz, X3' e cos via.
Se ciascuna media della serie considerata
come una singola osservazione, la di st ribu-
zione di probabilit di queste medie - la di -
stribuzione di probabilit di X - denomi-
nata distribuzione campionaria delle medie
dei campioni di dimensione n. Se selezio-
niamo, ad esempio, campioni ripetuti di di-
mensione uguale a 25 dalla popolazione ma-
schile degli Stati Uniti e calcoliamo il livello
medio di colesterolo sierico per ciascun cam-
pione, otterremo la di stribuzione campiona-
ria dei livelli medi di colesterolo sierico di
campioni di dimensione uguale a 25. ell a
pratica non si selezionano campioni ripetuti
di dimensione n da una popolazione; la com-
prensione delle propriet della distribuzione
teorica delle loro medie, per, ci consente di
fare inferenze in base ad un singolo campione
di dimensione n.
8.2 IL TEOREMA DEL LIMITE CEN-
TRALE
Posto che la distribuzione dei livelli di cole-
sterolo sierico nell a popolazione originaria ha
una media J1 ed una deviazione standard (J, la
DISTRIBUZI ONE CA MPI ONARIA DEL LA MEDIA
di stribuzione delle medi e campi onarie calco-
late per campi oni di dimensione n ha tre im-
portanti propriet:
1. La media della di stribuzione campiona-
ria uguale all a media J.1 dell a popola-
ZlOne.
2. La deviazione standard della distribu-
zione delle medie campionarie uguale
a (J/ m . Questa quantit nota come er-
rore standard dd la media.
3. La forma dell a di stribuzione campiona-
ria appro si mativamente normale, po-
sto che n sia sufficientemente grande.
Intuitivamente, ci aspettiamo che le medie
dei nostri campioni si raccolgano intorno alla
media della popolazione. Sebbene la devia-
zione standard dell a distribuzione campiona-
ria sia correlata all a deviazione standard (J
dell a popolazione, c' una minore variabilit
tra le medie campi onarie che tra le osserva-
zioni individuali. Anche se un determinato
campi one contiene uno o due valori estremi,
probabile che essi siano controbi lanciati
dalle altre misurazioni del gruppo. Pertanto,
quando n maggiore di 1, l'errore standard
della media sempre pi piccolo dell a devia-
zione standard dell a popolazione. Inoltre,
all'aumentare di n, diminuisce l'entit della
variabi lit campionaria. Infine, e n suffi-
cientemente grande, la distribuzione delle
medie campi onarie approssimativamente
normale. Questo importante risultato noto
come il teorema del limite centrale; esso si ap-
plica ad ogni popolazione con una deviazione
standard fi nita, indipendentemente dalla
for ma della distribuzione originaria (2). Pi la
popolazione originaria si allontana da una di-
stribuzione normale, per, maggiore sar il
valore di n necessario ad assicurare la norma-
lit della distribuzione campionaria. Se la po-
polazione originaria normale, anche i cam-
pioni di dimensione uguale a 1 sono suffi-
cientemente ampi. Anche nel caso in cui la
popolazione bimodale o notevolmente
asimmetrica, spesso sufficiente un campione
di dimensione pari a 30.
Il teorema del limite centrale molto po-
tente. valido non solo per i livelli di cole-
APPLICAZi ONi DEL TEOREMA DEL LiMITE CENTRALE 153
sterolo sierico, ma per quasi tutti i tipi di mi-
surazione, e si applica anche alle vari abili ca-
suali discrete. Il teorema del limite centrale
consente di quantizzare l' incertezza insita
nell'inferenza statistica senza fare molte as-
sunzioni che non possono essere verificate.
Indipendentemente dalla distribuzione di X,
poich la distribuzione delle medie campio-
narie approssimativamente normale con
media J..l e deviazione standard (5/.Jn, sap-
piamo che se n sufficientemente grande:
X - JI
z = a/,fo
normalmente distribuita con media O e de-
viazione tandard l. Abbiamo semplicemente
standardizzato la variabi le casuale normale X
nel modo soli to. Pertanto, possiamo utili z-
zare le tabelle della di stribuzione normal e
standardizzata - come la Tabella A.3 in Ap-
pendice A - per fare inferenze sul valore della
media dell a popolazione.
8.3 APPLICAZIONI DEL TEOREMA
DEL LIMITE CENTRALE
Si consideri la distribuzione dei livelli di
colesterolo sieri co della popolazione ma-
schile negli Stati Uniti di et compresa tra 20
e 74 anni. La media di questa popolazione
J..l = 211 mg/100 mI e la deviazione standard
(5 = 46 mg/100 mI (3). Se selezioniamo cam-
Figura 8.1 Distribuzioni dell e si ngole osserva-
zioni e delle medie di campi oni di dimensione
uguale a 25 dei li velli di colesterolo sieri co dell a 73
popolazione maschil e di et compresa tra 20 e 74
anni, Stati Uniti , 1976-1980
piani ripetuti di dimensi one uguale a 25 dalla
popolazione, quale proporzione dei campioni
avr un valore medio maggiore o uguale a 230
mg/ 100 mI?
Assumendo che un campione di dimen-
sione ugual e a 25 sufficientemente grande, il
teorema del limite centrale afferma che la di-
stribuzione delle medi e di campioni di di-
mensione uguale a 25 approssimativamente
normale con media J..l = 211 mg/100 mI e
deviazione standard (5/.Jn = 46/ 55 = 9,2
mg/ 100 mI. Questa distribuzione campiona-
ria e la di stri buzione dell a popolazione origi-
naria sono illustrate in Figura 8.1. Si noti che:
Z = X - 2l 1
9,2
una variabile casuale normale standardiz-
zata. Se x = 230, allora:
230 - 211
z=
9,2
= 2,07.
In accordo con la Tabella A.3, l'area a de-
stra di z = 2,07 0,019. Solo circa 1' 1,9% dei
campioni avr una media maggiore di 230
mg/ 100 mI. Allo stesso modo, se selezio-
niamo un singolo campione di dimensione
uguale a 25 dalla popolazione maschi le di et
compresa tra 20 e 74 anni, la probabilit che il
livello medio di colesterolo sierico di questo
119 165 211
Distribuzione
campionaria
Distribuzione
della popolazione
257 303
Livello d i colesterolo sierico (mg/l 00 mI)
349
154
campione sia maggiore o uguale a 230 mg/ 100
mi 0,019.
Quale valore medio di colesterolo sierico
delimita il 10% inferiore della distribuzione
campionaria delle medie? Locali zzando 0,100
all'interno della Tabella A.3, osserviamo che
esso corrisponde al valore z = -1,28. Risol-
vendo per x:
e
z = - 1,28
x - 2 11
9,2
x = 211 + (- 1,28) (9,2)
= 199,2.
Circa il 10% dei campioni di dimensione
uguale a 25 ha medie minori o uguali a 199,2
mg/1 00 mI.
Calcoliamo ora i limiti superiore ed infe-
riore che comprendono il 95% delle medie di
campioni di dimensione uguale a 25 estratti
dalla popolazione. Poich il 2,5% dell'area
sotto la curva normale standardi zzata giace al
di sopra di z = 1,96 ed un altro 2,5% si trova
al di sotto di z = - 1,96:
P(-1 ,96:5 Z:s 1,96) = 0,95.
Pertanto, siamo interessati ai risultati di Z
per i quali:
-1,96:S Z:5 1,96.
Vorremmo trasformare questa espressione
in termini di X. Sostituendo (X-211)/ 9,2 a Z:
< X -211
-1,96 - 9,2 :s 1,96.
Moltiplicando i tre termini della di sugua-
glianza per 9,2 ed addi zionando 211 si ha:
211 - 1,96(9,2):S X:5 211 + 1,96(9,2)
o
193,0:S X:5 229,0.
Circa il 95% delle medie dei campioni di
dimensione uguale a 25 compreso tra 193,0
e 229,0 mg/100 mI. Pertanto, se selezioniamo
-
DISTRI BUZIONE CAMPIONARIA DELLA MEDIA
un campione casuale di dimensione uguale a
25 dalla popolazione dei livelli di colesterolo
Slenco della popolazione maschil e di et
compresa tra 20 e 74 anni , sarebbe strano che
la media del campIOne fosse maggiore di
229,0 o minore di 193,0 mg/100 mI. In questo
caso il campione casuale stato es tratto da
un'altra popolazione o SI verificato un
evento raro. In queste situazioni , un 'evento
raro' definito come un risultato che si veri-
fica meno del 5% delle volte.
Se avessimo selezionato dalla popolazione
campioni di dimensione uguale a lO piuttosto
che campioni di dimensione uguale a 25, l'er-
rore standard di X sarebbe 46/ J1O = 14,5
mg/100 mI, e avremmo la disuguagli anza:
X - 21 1
- 1,96 :S 14,5 :s 1.96.
I limiti superiore ed inferiore che compren-
dono il 95% delle medie sarebbero:
182,5 :s X:s 239,5.
Si noti che questo intervallo pi ampio di
quello calcolato per campioni di dimensione
uguale a 25. Ci aspettiamo che l'entit della
variabilit campionaria aumenti al diminuire
delle dimensioni del campione. Selezionare
dei campioni di dimensione uguale a 50 por-
terebbe a limiti superiore ed inferiore:
198,2:S X:s 223,8;
non sorprendentemente, ques to intervallo
pi ristretto di quell o per campioni di dimen-
sione uguale a 25. Per campioni di dimen-
sione uguale a 100 i limiti sono:
202,0 :s X :s 220,0.
In si ntesi, se includi amo il caso in cui n = 1,
abbiamo i seguenti risultati:
Intervallo che comprende
n a/In il 95% delle medie
1 46, 0 120,8 s X s 301,2
lO 14,5 182,5 s X s 239,5
25 9,2 193,0 s X s 229,0
50 6,5 198,2 s X s 223,8
100 4,6 202,0 s X s 220,0
Ampiezza
dell' intervallo
180,4
57,0
36,0
25,6
18,0
-
APPLICAZIONI DEL TEOREMA DEL LIMITE CENTRALE 155
All' aumentare dell a dimensione dei cam-
pioni, diminuisce la variabi lit tra le medie
campionari e, quantificata dall' errore standard
rJUn; pertanto, i limiti che comprendono il
95% di queste medie si avvicinano. La lun-
ghezza di un intervall o sempli cemente il li-
mite superiore meno il limite inferiore.
Si noti che tutti gli intervalli che abbiamo
calcolato erano simmetrici rispetto alla media
della popolazione di 211 mg/lOO mI. Chiara-
mente, ci sono anche altri intervalli che com-
prenderebbero la proporzione appropriata
delle medie campionarie. Supponiamo di vo-
ler calcolare un intervallo che conti ene il 95%
delle medie di campioni di dimensione uguale
a 25. Poich l' l % dell'area sotto la curva nor-
male standardizzata giace al di sopra di z =
2,32 ed il 4% si trova al di sotto di z = - 1,75,
sappiamo che:
P( - 1,75 :S Z:S 2,32) = 0.95.
In questo caso, siamo interessati ai risultati
di Z per i quali :
- 1,75 :s Z :s 2,32.
Sostituendo (X-2 11 )/ 9,2 a Z, troviamo l'in-
tervallo:
194,9 :s X :s 232,3.
Pertanto, possiamo dire che circa i195% del-
le medie dei campioni di dimensione uguale a
25 compreso tra 194,9 e 232,3 mg/100 mI.
di solito preferibile calcolare un intervall o
simmetrico perch l'intervallo pi stretto che
comprende la proporzione appropriata delle
medie. (Una eccezione a questa regola l'in-
tervallo unilaterale; ci ritorneremo tra poco).
In questo esempio, l'ampiezza dell'intervallo
asimmetrico pari a 232,3 - 194,9 = 37,4
mg/100 mI; l'ampi ezza dell' intervallo si mme-
trico 229,0 - 193,0 = 36,0 mg/ 100 mI.
Affrontiamo ora un problema pi com-
plesso. Quale dovrebbe essere la dimensione
dei campioni affinch il 95% delle loro medie
sia compresa entro 5 mg/100 mi della media
Il della popolazione? Per ri spondere a questa
domanda, non necessari o conoscere il va-
lore del parametro Il. oi dobbiamo trovare
la dimensione n del campi one per cui:
P(f1 - 5 :s X :s f1 + 5) = 0.95
o
P(-5:s X - Il:S 5) = 0,95.
Prima di tutto, dividiamo i tre termini della
di suguaglianza per l'errore standard (5/.Jii =
46/ .Jii; il risultato :
(
-5 X - f1 5)
P 46/ Jii :s 46/ Jii :s 46/ Jii = 0,95.
Poich Z uguale a (X - Il) /( 46/.Jii) :
(
-5 5 )
P 46/ Jii :s Z :s 46/ Jii = 0,95.
Si ricordi che il 95% dell'area sotto la curva
normale standardi zzata compresa tra z
= -1,96 e z = 1,96. Pertanto, per trovare la di-
mensione n del campione possiamo utilizzare
il limite superiore dell'intervall o e risolvere
l' equazione:
Z = 1,96
5
= 46/Jii;
all o stesso modo, possiamo utili zzare il limite
inferiore e risolvere:
z = -1 ,96
-5
= 46/Jii'
Considerando:
e moltiplicando entrambi i termini dell' equa-
zione per 46/ 5, troviamo che:
e
Jii = 1,96(46)
5
n = r
= 325,2.
Quando calcoliamo la dimensione dei cam-
plOlll, comunemente apprOSSImIamo per ec-
cesso. Pertanto, sono necessari campioni di
156
dimensione uguale a 326 affinch il 95% delle
medie campionarie siano comprese entro 5
mgl l00 mI dalla media J.1 della popolazione.
Allo stesso modo, se selezioniamo dalla po-
polazione un campione di dimensione uguale
a 326 e calcoliamo la sua media, la probabilit
che la media campionaria sia compresa entro
5 mgl l00 mI dalla media reale J.1 della popo-
lazione 0,95.
Fino ad ora abbiamo considerato intervalli
bilaterali ed abbiamo trovato i limiti supe-
riore ed inferiore che comprendono una de-
terminata proporzione delle medie campio-
narie. In alcuni casi, per, siamo interessati ad
un intervallo unilaterale. Possiamo voler tro-
vare, ad esempio, il limite superiore per il
95 % dei livelli medi di colesterolo sierico di
campioni di dimensione uguale a 25. Poich il
95% dell ' area sotto la curva normale standar-
dizzata giace al di sotto di z = 1,645:
P(Z :s 1,645) = 0,95.
Pertanto, siamo interessati ai risultati di Z
per i quali:
Z:S 1,645.
Sostituendo eX - 211)/9, 2 a Z si ha:
X - 211 :s I 645
9,2 '
o
X:s 226,1.
Circa il 95% dei campioni di dimensione
uguale a 25 ha medie minori o uguali a 226,1
mgl l00 mI.
Se vogliamo calcolare il limite inferiore per
il 95% dei livelli medi di colesterolo sierico,
ci interessano i valori di Z che si trovano al di
sopra di - 1,645; in questo caso, risolviamo:
x - 211 ~ _ I 645
9,2 '
per trovare:
x 195,9.
Circa il 95% dei campioni di dimensione
uguale a 25 ha medie maggiori o uguali a
195,9 mgl l00 mI.
DISTRIBUZIONE CAMPIONARIA DELLA MEDIA
necessario essere prudenti nel trarre
troppe conclusioni sulla di tribuzione cam-
pionaria delle medie. Per campioni di livelli di
colesterolo sierico di dimensione uguale a 25,
troviamo che la probabilit 0,95 che una
media campionaria sia compresa nell' inter-
vallo:
(193,0, 229,0) .
Abbiamo anche e t ~ o che la probabilit che
la media sia minore o uguale a 226,1 mgl l00
mio maggiore o uguale a 195,9 mgl l00 mI
0,95. Queste tre conclusioni sono corrette se
considerate singolarmente, mentre non sono
valide se considerate contemporaneamente. I
tre eventi non sono indipendenti. Affinch
essi si verifichino contemporaneamente, la
media campionaria dovrebbe essere compresa
nell'intervallo:
(195 ,9,226,1);
la probabilit che ci si verifi chi non uguale
a 0,95.
8.4 ULTERIORI APPLICAZIONI
Si consideri la distribuzione delle et al mo-
mento della morte dell a popolazione degli
Stati Uniti negli anni 1979-1981. Questa di-
stribuzione illustrata in Figura 8.2; essa ha
una media J.1 = 73,9 anni ed una deviazione
standard (J = 18,1 anni e non normalmente
distribuita e 4). Che cosa accade se selezio-
niamo un campione da questa popolazione di
et?
Anzich estrarre materialmente dei cam-
pioni dalla popolazione, possiamo utilizzare
il computer per condurre una simulazione. In
una simulazione, si utilizza un programma
informatico per modellare un esperimento o
una procedura secondo una determinata di-
stribuzione di probabilit; nel nostro esem-
pio, la procedura consiste nel selezionare una
singola osservazione dalla distribuzione illu-
strata in Figura 8.2. Il computer ripete, poi, la
procedura per un determinato numero di
volte registrando i risultati ottenuti.
ULTERIORI APPLICAZIONI 157
f(x)
Figura 8.2 Di stribuzione dell e et al mo-
mento dell a morte, Stati Uniti, 1979-1981
o lO 20 30 40 50 60 70 80 90 100110
Per illustrare questa tecnica, possiamo uti-
lizzare il computer e simulare la selezione di
quattro campioni casuali di dimensione
uguale a 25 dalla popolazione delle et al mo-
mento della morte per la popolazione degli
Stati Uniti. Gli istogrammi di questi cam-
pioni sono illustrati in Figura 8.3; le loro me-
die e le loro deviazioni standard sono di se-
gUlto nportate.
Campione di dimensione x
uguale a 25
1 71,3 18,1
2 69,2 25,6
3 74,0 14,0
4 76,8 15,0
Si noti che i quattro campioni casuali non
sono uguali. Ogni volta che selezioniamo
dalla popolazione una serie di 25 misurazioni,
le osservazioni incluse nel campi one cam-
biano. Pertanto, i valori di x e s - le nostre
stime della media della popolazione J..L e della
deviazione standard (J - differiscono da cam-
pione a campione. Questa variazione casuale
nota come variabilit campionaria. Nei
quattro campioni di dimensione uguale a 25
selezionati in precedenza, le stime di J..L va-
riano tra 69,2 e 76,8 anni . Allo stesso modo,
le stime di (J variano tra 14,0 e 25,6 anni.
Supponiamo adesso, invece di selezionare
campioni di dimensione uguale a 25, di sele-
zionare quattro campioni casuali di dimen-
Et x (anni )
sione uguale a 100 dalla popolazione delle et
al momento della morte. Utilizziamo ancora
una volta il computer per simulare il pro-
cesso. Gli istogrammi di questi campioni
sono illustrati in Figura 8.4 e le loro medie e
deviazioni standard sono di seguito riportate.
Campione di dimensione x
uguale a 100
1 75,4 16,5
2 75,0 19,9
3 73,5 18,1
4 72,1 20,2
Per questi campioni, le stime di J..L variano
tra 72,1 e 75, 4 anni e le stime di (J tra 16,5 e
20,2 anni . Questi intervalli sono inferiori agli
intervalli dei campioni di dimensione uguale
a 25: all'aumentare delle dimensioni del cam-
pione, diminuisce l'entit di variabilit cam-
pIOnana.
Selezioniamo, poi, quattro campioni casuali
di dimensione uguale a 500 dalla popolazione
delle et al momento della morte. Gli isto-
grammi sono illustrati in Figura 8.5 e le loro
medie e deviazioni standard sono di seguito
riportate.
Campione di dimensione x
uguale a 500
1 74,3 17,1
2 73,4 18,1
3 73,5 18,6
4 74,2 17,8
158 DISTRIBUZIONE CAMPIONAR IA DELLA MEDIA
0.25 0.25
0.20 0.20
]
0.15
]
0.15
:ii :ii
'" '"
..o ..o
o
0. 10
o
0. 10
.... ....
P-. P-.
0.05 0.05
O
I I
O 10 20 30 40 50 60 70 80 90 100 110 O 10 20 30 40 50 60 70 80 90 100 llO
Et (anni) Et (anni )
0.25 0.25
0.20 0.20
]
0. 15 ~ 0.15
:ii :ii
'" '" ..o ..o
o
0.10
o
0. 10
....
d:::
P-.
0.05 0.05
O O
O 10 20 30 40 50 60 70 80 90 100 110 O 10 20 30 40 50 60 70 80 90 100 110
Et (anni) Et (anni )
Figura 8.3 Istogrammi di quattro campi oni di dimensione uguale a 25
Ancora una volta, gli intervalli delle stime
di Il e (J diminuiscono.
Osservando le Figure 8.3-8.5, notiamo che
all'aumentare della dimensione dei campioni,
le loro distribuzioni si avvicinano alla forma
della distribuzione della popolazione illu-
strata in Figura 8.2. Sebbene ci sia ancora una
certa differenza tra i campioni, la variabilit
nelle stime x e s diminuisce. Questa propriet
denominata consistenza; all'aumentare pro-
gressivo della dimensione dei campioni sele-
zionati, le stime dei parametri della popola-
zione si avvicinano ai valori desiderati.
La popolazione delle et al momento della
morte pu essere anche utilizzata per illu-
strare un'applicazione del teorema del limite
centrale. Selezioniamo campioni ripetuti di
dimensione n dalla popolazione con media Il
= 73,9 anni e deviazione standard (J = 18,1
anni ed esaminiamo la distribuzione delle
loro medie. Teoricamente, dobbiamo estrarre
tutti i possibili campioni casuali; per ora,
per, selezioniamo 100 campioni di dimen-
sione uguale a 25. La Figura 8.6 illustra un
istogramma delle medie dei 100 campioni.
In accordo con il teorema del limite cen-
trale, la distribuzione delle medie campiona-
rie ha tre propriet. La prima che la sua me-
dia deve essere uguale alla media della popo-
lazione Il = 73,9 anni. In realt, la media delle
medie dei 100 campioni 74,1 anni. La se-
conda che ci aspettiamo che l'errore stan-
dard delle medie campionarie sia (JU n =
18,11$ = 3,6 anni. In realt, l'errore stan-
dard 3,7 anni. Infine, la distribuzione delle
medie campionarie deve essere approssimati-
ULTERIORI APPLI CAZIONI
0.25
0.20
] 0.15
:E
"
2 O IO
~ .
0.05
O
0.25
0.20
:g 0. 15
:E
'"
2 0,10
~
0.05
o
O 10 20 30 40 50 60 70 80 90 100 110
Et (anni )
O 10 20 30 40 50 60 70 80 90 100 110
Et (anni )
0.25
0, 20
] 0, 15
:.o
'" ...o
o
d:: 0. 10
0,05
159
O l.
0,25
0.20
] 0, 15
:.o
'" ...o
2 0. 10
a...
0,05
O 10 20 30 40 50 60 70 80 90 100 110
Et (anni)
o I .1

o 10 20 30 40 50 60 70 80 90 100 11 0
Et (anni )
Figura 8.4 Istogrammi di quattro campioni di dimensione uguale a 100
vamente normale. La forma dell ' istogramma
in Figura 8.6 - e la distribuzione normale teo-
rica sovrapposta all'istogramma - suggerisce
che anche questa terza propriet soddi-
sfatta. Si noti che questa distribuzione si al-
lontana molto dalla distribuzione della popo-
lazione illustrata in Figura 8.2 e da tutti i
campioni di dimensione uguale a 25 illustrati
in Figura 8.3.
Basandoci sulla distribuzione campionaria,
possiamo calcolare le probabilit associate ai
vari risultati della media del campione. Tra i
campioni di dimensione uguale a 25 estratti
dalla popolazione delle et al momento della
morte, quale proporzione ha una media com-
presa tra 70 e 78 anni? Per rispondere a que-
sta domanda dobbiamo trovare P(70 :s; X :s;
78).
Il teorema del limite centrale afferma che la
distribuzione delle medie campionarie per
campioni di dimensione uguale a 25 appros-
simativamente normale con media f1 = 73,9
anni ed errore standard cr/,Jri = 18,1IJ25 =
3,62 anni. Pertanto:
z=X-/1
(J j..fo
_ X -73,9
3,62
una variabile casuale normale standardiz-
zata. Se rappresentiamo la disuguaglianza
nell' espressione:
P(70 ~ ~ 78)
in termini di Z piuttosto che di X, possiamo
160 DISTRIBUZIONE CAMPIONARIA DELLA MEDIA
0.25 0.25
0.20 0.20
] 0. 15 ] 0.15
:.E
:.E
'"
'" .LO
.LO
2 0. 10
o
0. 10
...
o..
o..
0,05 0,05
O

O
.-
-
O IO 20 30 40 50 60 70 80 90 100 110 O lO 20 30 40 50 60 70 80 90 100 11 0
Et (anni) Et (anni)
0,25 0,25
0,20 0.20
] 0. 15
]
0.15
:.E
:.E
'"
'"
.LO
.LO
o
o
d: 0.10
....
0.10
o..
0.05 0,05
O
._-
O
O lO 20 30 40 50 60 70 80 90 100 110 O 10 20 30 40 50 60 70 80 90 100 110
Et (anni)
Et (anni)
Figura 8.5 Istogrammi di quattro campioni di dimensione uguale a 500
utili zzare la Tabella A.3 per trovare la pro-
porzione di campioni che hanno un valore
medio compreso in questo intervallo.
Prima di tutto sottraiamo 73,9 da ciascun
termine della disuguaglianza e dividiamo per
3,62; cos, possiamo esprimere:
P(70:::: X:::: 78)
come:
p(70 - 73,9 :::: X - 73,9 :::: 78 - 73,9)
3,62 3,62 3,62
o
P(-1,08:::: Z:::: 1,13).
Sappiamo che l'area totale sotto la curva
normale standardizzata uguale a 1. In ac-
cordo con la Tabella A.3, ['area a destra di z =
1,13 0,129 e l'area a sinistra di z = -1,08
0,140. Pertanto:
P(-1,08:::: Z:::: 1,13) = l - 0,129 - 0,140
= 0,731.
Circa il 73,1 % dei campioni di dimensione
uguale a 25 ha una media compresa tra 70 e 78
annI.
Quale proporzione dei campioni di dimen-
sione uguale a 100 ha una media compresa tra
70 e 78 anni? Dobbiamo calcolare di nuovo
P(70",X"'78). Questa volta, per, X ha una di-
stribuzione normale con media f..l = 73,9 anni
ed errore standard (j/Jii = 18,1/ Mo = 1,81
anni. Calcoliamo, pertanto, la disuguaglianza:
ESERCI ZI 161
0,3
0,2
0, 1
o
~ - - - - - - - - ~ - - - - - - ~ - - - - - - ~ - - - - - - - - ~
Figura 8.6 Istogramma di 100 medie di
campi oni di dimensione uguale a 25
p(70 - 73,9 ~ X - 73,9 ~ 78 - 73.9)
1,81 1,81 1,81
o
P( -2,15 ~ Z ~ 2,27).
In accordo con la Tabella A.3, l'area a de-
stra di z = 2,27 0,012 e l' area a sinistra di z =
-2,15 0,016. Pertanto:
P(-2,15 ~ Z ~ 2,27) = l - 0,0 12 - 0,016
= 0,972.
Circa il 97,2% dei campioni di dimensione
uguale a 100 ha una media compresa tra 70 e
78 anni. Se selezioniamo un singolo campione
casuale di dimensione uguale a 100 sarebbe
strano che la medi a del campione fosse x = 80
anni. In questo caso il campione casuale
stato estratto da una popolazione con media
diversa - maggiore di Il' = 73,9 anni - o si ve-
rificato un evento raro.
Quali sono i limiti superi ore ed inferiore
che comprendono 1'80% delle medie di cam-
pioni di dimensione uguale a 100? In accordo
con la Tabell a A.3, troviamo che il 10%
dell' area sotto la curva normale standardiz-
zata giace al di sopra di z = 1,28 ed un altro
10% giace al di sotto di z = -1,28. Poich
1'80% dell'area compresa t ra -1,28 e 1,28,
siamo interessati ai valori di Z per i quali:
Et media al momento della mort e (anni )
-1,28 ~ Z ~ 1,28,
ed ai valori di X per i quali:
- I 28 ~ X - 73,9 ~ l 28
, 1,81 ..
Moltiplicando i tre termini della disugua-
glianza per 1,81 ed addi zionando 73,9, si ha:
73,9 + (- I ,28)(1 ,81) X 7 3 , 9 (1 ,28)(1.8 1),
o, allo stesso modo:
71 ,6 ~ X 76,2.
Pertanto, 1'80% dell e medi e di campioni di
dimensione uguale a 100 compreso tra 71,6
e 76,2 anni .
8.5 ESERCIZI
1. Che cos' l' inferenza statistica?
2. Perch importante che un campione
estratto da una popolazione sia casuale?
3. Perch necessari o comprendere le pro-
priet di una distribuzione teorica di medie di
campioni di dimensione uguale a n quando
nelle applicazioni pratiche si seleziona un sin-
golo campi one?
162
4. Che cos' l'errore standard di una media
campionari a? Come si collega alla deviazione
standard della popolazione?
5. Illustrare il teorema del limite centrale.
6. Che cosa accade all'entit di variabilit
campionaria in una serie di medie campiona-
rie XI' Xz, x3, ... all'aumentare della dimen-
sione dei campioni?
7. Che cos' la consistenza?
8. La distribuzione dei livelli di albumina
(una proteina) nel liquido cerebrospinale de-
gli adulti degli Stati Uniti pi o meno sim-
metrica con media /1 = 29,5 mg/ 100 011 e de-
viazione standard (J = 9,25 mg/100 011 (5).
Supponiamo di selezionare campioni ripetuti
di dimensione uguale a 20 dalla popolazione e
di calcolare la media di ciascun campione.
a. Se si seleziona un ampio numero di cam-
pioni casuali di dimensione uguale a 20,
quale sarebbe la media delle medie cam-
pionarie?
b. Quale sarebbe la loro deviazione standard?
Come si pu definire diversamente questa
deviazione standard delle medie dei cam-
pioni?
c. Come si collega la deviazione standard
delle medie dei campioni alla deviazione
standard dei livelli di albumina?
d. Se si disegna un istogramma con tutte le
medie dei campioni, quale sarebbe la for-
ma della loro distribuzione?
e. Quale proporzione delle medie di cam-
pioni di dimensione uguale a 20 maggiore
di 33 mg/ 100 mI?
f. Quale proporzione delle medie minore
di 28 mg/100 ml?
g. Quale proporzione delle medie compresa
tra 29 e 31 mg/ 100 mi?
9. Si consideri la variabile casuale X che ha
una distribuzione normale standardizzata
con media /1 = O e deviazione standard (J = 1.
a. Che cosa si pu affermare relativamente
alla distribuzione del le medie di campioni
di dimensione uguale a 10 estratti da que-
sta popolazione? Elencare tre propriet.
DISTRIBUZIONE CAMPIONARIA DELLA MEDIA
b. Quale proporzione delle medie d i cam-
pioni di dimensione uguale a 10 maggiore
di 0,60?
c. Quale proporzione delle medie inferiore
a-0,75?
d. Quale valore delimita il 20% superiore
della distribuzione delle medie di campioni
di dimensione uguale a lO?
e. Quale valore delimita il 10% inferiore
della distribuzione delle medie?
10. A Denver, Colorado, la distribuzione
delle misure giornali ere di acido nitrico
nell'ambiente asimmetrica a destra, con me-
dia /1 = 1,81 /1g/ m
3
e deviazione standard (J =
2,25 f.1g/ m
3
(6). Descrivere la distribuzione
delle medie di campi oni di dimensione uguale
a 40 selezionati da questa popolazione.
11. In Norvegia, la distribuzione del peso
alla nascita di neonati la cui et gestazionale
40 settimane approssimativamente normale
con media /1 = 3.500 grammi e deviazione
standard (J = 430 grammi (7).
a. Se un neonato ha un'et gestazionale di 40
settimane, qual la probabilit che il suo
peso alla nascita sia inferiore a 2.500
grammi?
b. Quale valore delimita il 5% inferiore della
distribuzione dei pesi alla nascita?
c. Descrivere la distribuzione delle medie di
campioni di dimensione uguale a 5 estratti
da questa popolazione. Elencare tre pro-
priet.
d. Quale valore delimita il 5% inferiore della
distribuzione dei campioni di dimensione
uguale a 5?
e. In un campione di cinque neonati con et
gestazionale di 40 settimane, qual la pro-
babilit che il loro peso medio alla nascita
sia inferiore a 2.500 grammi?
f. Qual la probabilit che solo uno dei cin-
que neonati abbia un peso alla nascita infe-
riore a 2.500 grammi?
12. Per la popolazione di donne di et com-
presa tra 3 e 74 anni che hanno partecipato
alla ational Health Interview Survey, la di-
BIBLiOGRAFIA
stribuzione dei livelli di emoglobina ha una
media J..l = 13,3 gllOO mI ed una deviazione
standard (J= 1,12 gllOO mI (8).
a. Se si selezionano da questa popolazione
campioni ripetuti di dimensione uguale a
15, quale proporzione dei campioni avr
un livello medio di emoglobina compreso
tra 13,0 e 13,6 gllOO mI?
b. Se i campioni ripetuti sono di dimensione
uguale a 30, quale proporzjone avr una
media compresa tra 13,0 e 13,6 gllOO mI?
c. Quale deve essere la dimensione dei cam-
pioni affinch il 95% dell e loro medie
siano comprese entro 0,2 gllOO mI dalla
media della popolazione J..l?
d. Quale deve essere la dimensione dei cam-
pioni affinch il 95% delle loro medie
siano comprese entro O,l gl lOO mI dalla
media della popolazione?
13. Nei Paesi Bassi, la popolazione ma-
schile sana di et compresa tra 65 e 79 anni ha
una distribuzione dei livelli di acido urico sie-
rico approssimativamente normale con media
J..l = 341 J..lmolll e deviazione standard (J = 79
J..lmolll (9).
a. Quale proporzione di soggetti ha un li-
vello di acido uri co sierico compreso tra
300 e 400 J..lmolll?
b. Quale proporzione dei campioni di di-
mensione uguale a 5 ha un livello medio di
acido uri co sierico compreso tra 300 e 400
J..lmolll?
c. Quale proporzione dei campioni di di-
mensione uguale a lO ha un livello medio
di acido urico sierico compreso tra 300 e
400 J..lmolll?
d. Calcolare un intervailo che comprende il
95% delle medie dei campioni di dimen-
sione uguale a lO. Sarebbe pi corto un in-
tervallo simmetrico o uno asimmetrico?
14. Per la popolazione di maschi adulti ne-
gli Stati Uniti, la distribuzione del peso ap-
prossimativamente normale con media J..l =
172,2 libbre e deviazione standard (J = 29,8
libbre (lO).
a. Descrivere la distribuzione delle medie dei
163
campioni di dimensione uguale a 25
estratti da questa popolazione.
b. Qual il limite superiore per il 90% dei
pesi medi dei campioni di dimensione
uguale a 25?
c. Qual il limite inferiore per 1'80% dei pesi
medi?
d. Supponiamo di selezionare un singolo
campione casuale di dimensione uguale a
25 e di trovare che il peso medio degli uo-
mini del campione x = 190 libbre. Il risul-
tato verosimile? Che cosa si pu conclu-
dere?
15. Alla fine del Paragrafo 8.3, abbiamo os-
servato che per campioni dei livelli di coleste-
rolo sierico di dimensione uguale a 25 -
estratti da una popolazione con media J..l =
211 mgl 100 mi e deviazione standard (J = 46
mgl100 mI - la probabilit che una media
campionaria x sia compresa nell'intervallo
(193,0, 229,0) 0,95. Inoltre, la probabilit
che la media sia minore o uguale a 226,1
mgl 100 mI 0,95 e che sia maggiore o uguale
a 195,9 mgllOO mI 0,95. Perch questi tre
eventi avvengano contemporaneamente, la
media campionaria x dovrebbe essere com-
presa nell'intervallo (195,9, 226,1). Qual la
probabilit che ci si verifichi?
Bibliografia
1. LINDGREN B.W.: Statistical theary. Macmill an,
N ew York, 1976.
2. SNEDECOR G.W., COCHRAN W.G.: Statistical
methads. lowa State University Press, Ames,
lA, 1980.
3. N ATIONAL CENTER FOR H EALTH STATISTICS,
FULWOOD R., KALSBEEK W., RIFKIND B., Rus-
SELL-BRIEFEL R., MUESING R., LARoSA J., LIP-
PEL K.: Total serum cholesterollevels of adults
20-74 years of age: United States, 1976-1980.
Vital and Health Statistics, Series 11, Number
236, May 1986.
4. N ATIONAL CENTER l'OR H EALTH STATISTICS:
United States decennial life tables far 1979-
1981. Volume l, Number 1, August 1985.
5. SCULLY R.E., Mc N EELY B.U., MARK E.J.: Case
record of the Massachusetts Generai Hospital:
164
weekly clinieopathol ogieal exereises. The New
EnglandJaurnal a[ Medicine, 314:39-49, 1986.
6. aSTRO B.D., LIPSETI M.l, WI ENER M.B., SEL-
NER ]. e.: Asthmatie responses to airbo rne aeid
aerosols. American Jaurnal a[ Public Health,
81:694- 702, 1991.
7. WI LCOX A.l, SKjAlRVEN R.: Birt h weight and
perinatal mortality: the effeets of gestational
age. American Jaurnal a[ Public Health, 82:
378-382, 1992.
8. ATIO AL CENTER FOR H EALTl-l STATISTICS,
FULWOOO R., JOl-l NSON e.L., BRYNER ].D.,
GUNTER E.W., Mc GRATl-l e.R.: H ematologieal
and nutritional bi oehemistry referenee data for
persons 6 months-74 years of age: United Sta-
DISTRIBUZI ONE CAMPIONA RIA DELLA MEDIA
t es, 1976- 1980. Vital and H ealth Statistics, Se-
ri es 11, umber 232, Deeember 1982.
9. LOENEN H .M.].A., ESl-lUIS H ., LOWIK M.R.H.,
SCl-lOUTEN E.G., H ULSl-lOF K.F.A.M., O OINK
J., KOK F.J. : Serum uri e aeid eorrelates in el-
de rl y men and women with sp eeial reference
to body eomposition and dietary intake (Dutch
utrition Surveill anee System). Jaurnal a[ Cli-
nical Epidemialagy, 43:1297-1303, 1990.
10. ATIONAL CENTER FOR H EALTl-l STATISTICS,
AjjAR M. F., ROWLJ\NO M.: Anthropo metric
referenee data and prevalenee of overweight:
United States, 1976-1980. Vital and Health
Statistics, Seri es 11, umber 238, Oetober
1987.
Intervalli di confidenza
Dopo aver esaminato le propriet teoriche
di una distribuzione di medie campionarie,
applichiamo ora questi risultati al processo
dell'inferenza statistica. Il nostro obiettivo
quello di descrivere o stimare alcune caratte-
ristiche di una variabile casuale continua -
come la sua media - utili zzando le osserva-
zioni contenute in un campione di osserva-
ZIonI.
Di solito sono utilizzati due metodi di
stima. Il primo denominato stima puntuale
ed implica il calcolo di un singolo numero per
stimare il parametro in esame. Possiamo uti -
lizzare, ad esempio, la media x del campione
per stimare la media J..l della popolazione.
probabile, per, che due campioni diversi
producano medie diverse e che una stima
puntuale non fornisca alcuna informazione
sulla variabili t dello sti matore; non sap-
piamo quanto x sia vicina a J..l. Mentre pro-
babile che x sia vicina alla media reale della
popolazione se il campione su cui si basa
ampio - si ricordi la propriet della consi-
stenza - una stima puntale non fornisce
informazioni in merito alla dimensione del
campione. Pertanto, spesso si preferisce un
secondo metodo, denominato stima inter-
vallare. Questa tecnica fornisce un range di
possibili valori entro i quali si ritiene sia com-
preso il parametro in esame - in questo caso
la media J..l della popolazione - con un certo
grado di confidenza. Questo range di valori
denominato intervallo di confidenza.
9
9.1 INTERVALLI DI CONFIDENZA BI-
LATERALI
Per calcolare un intervallo di confidenza
per J..l, ci basiamo sulla distribuzione della
media campionaria. Data una variabile ca-
suale X con media J..l e deviazione standard 0',
il teorema del limite centrale afferma che:
X-Il
z=--
a/.,fii
ha una distribuzione normale standardizzata
se X normalmente distribuita e una distri -
buzione normale standardizzata approssima-
tiva se non lo , ma n sufficientemente
grande. Per una vari abil e casual e normale
standardi zzata, il 95% delle osservazioni
compreso tra -1,96 e 1,96. In altre parole, la
probabilit che Z assuma un valore compreso
tra -1,96 e 1,96 :
P( - 1,96 :s Z :s 1,96) = 0,95.
Allo stesso modo, possiamo sostituire la
quantit (X-J..l)/(O'/.Jii) a Z e scrivere:
(
X- Il )
P -1,96 :s a/.,fii :s 1,96 = 0,95.
Possiamo, quindi, manipolare la disugua-
glianza all'interno dell e parentesi senza mo-
dificare la probabilit. Prima di tutto, molti-
plichiamo i tre termini della disuguaglianza
per l'errore standard 0'/ m; pertanto:
(
a - a)
P -1,96-:SX - Il:Sl ,96- =0,95 .
.,fii fii
166
Sottraiamo, poi, X da ciascun termine, cos
che:
(
a - a - )
p -1.96--X:5 -J-I:5 1,96--X =0.95.
fo fo
Infine, moltiplichiamo per -1. Si ricordi che
moltiplicare una disuguaglianza per un nu-
mero negativo inverte la direzione della disu-
guaglianza. Pertanto:
e, riorganizzando i termini:
(
- a - a)
p X - 1,96-:5 J-I:5X + 1,96- = 0,95.
fo fo
Si noti che X non pi il centro della di-
suguaglianza e che la probabilit fornisce
qualche informazione su J.l. Le quantit X -
1,96(CI/Jn) e X + 1,96(CI/Jn) sono i limiti
dell'intervallo di confidenza al 95 % per la
media J.l della popolazione; siamo confidenti
al 95% che l'intervallo:
(
X - l 96.!!...- X + 1 96.!!...-)
' fo' , fo
comprender J-I. Questa conclusione non im-
plica che J-I una variabile casuale che assume
un valore compreso nell'intervallo il 95%
delle volte, n che il 95% dei valori della po-
polazione sono compresi entro questi limiti;
essa significa che se selezioniamo 100 cam-
pioni casuali dalla popolazione ed utiliz-
ziamo questi campioni per calcolare 100 di-
versi intervalli di confidenza per J.l, circa 95
intervalli comprenderanno la media reale
della popolazione e 5 no.
Si ricordi che lo stimatore X una variabile
casuale, mentre il parametro J.l una costante.
Pertanto, l'intervallo:
(
X - l 96.!!...- X + l 96.!!...-)
' fo' , fo
casuale e ha una probabilit del 95% di
comprendere J.l prima che il campione sia se-
lezionato. Poich J.l ha un valore fisso, dopo
i NTERVAL LI Dr CONFIDENZA
aver selezionato un campione ed aver calco-
lato i limiti dell'intervallo di confidenza:
(
X - l 96.!!...- X + l 96.!!...-)
, fo ' , fo
J.l pu essere compresa o meno nell'intervallo.
Sebbene l'intervallo di confidenza pi ap-
plicato sia quello al 95%, esso non l'unico
utilizzabile. Potremmo preferire un maggior
grado di confide nza relativamente al valore
della media della popolazione; in questo caso,
potremmo scegliere di calcolare un intervallo
di confidenza al 99%. Poich il 99% delle os-
servazioni in una distribuzione normale stan-
dardizzata compreso tra -2,58 e 2,58, un in-
tervallo di confidenza al 99% per J.l :
(X - 2,58 ;, X + 2,58 ;).
Circa 99 dei 100 intervalli di confidenza ot-
tenuti da 100 campioni casuali indipendenti
di dimensione n selezionati da questa popo-
lazione comprenderanno la media reale Il.
Come atteso, l' intervallo di confidenza al
99% pi ampio dell'intervallo al 95 %; mi-
nore il range di valori che consideriamo,
meno confidenti saremo che l'intervallo com-
prenda Il.
Un intervallo di confidenza generico per Il
pu essere ottenuto introducendo calcoli
nuovi. Sia Za/2 il valore che delimita un'area
di al2 nella coda superiore della distribu-
zione normale standardizzata e -ZW2 il valore
che delimita un'area di al2 nella coda infe-
riore della distribuzione. Se a = 0,05, ad
esempio, ZO,05/2 = 1,96 e -ZO,05/2 = -1,96. Per-
tanto, la formula generale per un intervallo di
confidenza al 100% x (l-a) per Il - un inter-
vallo di confidenza al 95 % se a = 0,05 - :
(
- a - a)
X - Za/2 fo ' X + Zo/2 fo .
Questo intervallo ha una probabilit del
100% x (l-a) di comprendere J.L prima di se-
lezionare un campione casuale.
Se vogliamo restringere un intervallo senza
ridurre il livello di confidenza, abbiamo biso-
gno di maggiori informazioni sulla media Il
della popolazione; pertanto, dobbiamo sele-
INTERVALLI DJ CONFIDENZA BiLATERALI
zionare un campione pi ampio. All'aumen-
tare della dimensione n del campione, l'errore
standard (J/.Jn diminuisce; ci determina un
intervallo di confidenza pi ristretto. Si con-
siderino i limiti dell'intervallo di confidenza
al 95% X 1,96((Jl..Jn). Se selezioniamo un
campione di dimensione uguale a lO, i limiti
di confidenza dell ' intervallo sono X
1,96((J/JiO) . Se il campione selezionato di
dimensione uguale a 100, i limiti sono X
1,96((JN100) . Per un campione ancora pi
grande di dimensione uguale a 1.000, i limiti
dell'intervallo sono X 1,96((JN1.000). Rias-
sumendo questi calcoli, abbiamo:
Intervallo Ampiezza
n
di confidenza al 95% per Il dell'intervallo
lO X 0,620(J 1,240(J
100 X 0,196(J 0,392(J
1.000 X 0,062(J 0,124(J
Selezionando campioni casuali sempre pi
grandi, la variabilit di X- il nostro stimatore
della media J.1 della popolazione - diminuisce.
La variabilit della popolazione originaria,
misurata da (J, comunque sempre presente.
Si consideri la distribuzione dei livelli di
colesterolo sierico della popolazione ma-
schile negli Stati Uniti di ipertesi e fumatori.
Questa di stribuzione approssimativamente
normale con una media J.1 non nota ed una de-
viazione standard (J = 46 mg/100 m!. (Anche
se la media pu essere diversa, assumiamo per
ora che (J sia uguale a quell a della popola-
zione generale di maschi adulti negli Stati
Uniti). Siamo interessati a stimare il livello
medio di colesterolo sierico di questa popola-
zione. Prima di selezionare un campione ca-
suale, la probabilit che l'intervallo:
(
X - I 96 46 X + l 96 46)
, fo' ' fo
comprenda la media reale della popolazione
0,95.
Supponiamo di selezionare un campione di
dimensione uguale a 12 dalla popolazione di
ipertesi fumatori e che questi soggetti ab-
biano un li vello medio di colesterolo sierico
di x = 217 mg/ 100 mI (1). In base a questo
campione, l'intervallo di confidenza al 95%
per la media J.1 della popolazione :
167
(
46 46 )
217 - 1,96 {ti ' 217 + 1,96 {ti
o
(191 , 243).
La nostra mi gliore stima per il livello medio
di colesterolo sierico della popolazione ma-
schile di ipertesi fumatori 217 mg/ 100 mi;
tuttavia, l'intervallo da 191 a 243 ci fornisce
un range di valori accettabili per J.1. Si noti che
questo intervallo comprende il valore 211
mg/100 mI, il livello medio di colesterolo per
tutti i maschi di et compresa tra 20 e 74 anni
negli Stati Uniti, indipendentemente dal-
l'ipertensione o dall 'atteggiamento nei con-
fronti del fumo (2). Siamo confidenti al 95 %
che i limiti 191 e 243 comprendano la media
reale J.1. Non di ciamo che c' una probabilit
del 95 % che J.1 sia compresa tra questi valori;
il valore di J.1 fisso e pu essere o meno com-
preso tra 191 e 243.
Come detto in precedenza, anche l'inter-
vallo di confidenza ha un'interpretazione di
frequenza. Supponiamo che il reale livello
medio di colesterolo sierico della popola-
zione maschile di ipertesi fumatori sia uguale
a 211 mg/ 100 mI, uguale cio allivello medio
della popolazione maschile negli Stati Uniti.
Se dovessimo selezionare da questa popola-
zione 100 campioni casuali di dimensione
uguale a 12 e calcolassimo per ognuno di essi
un intervallo di confidenza al 95%, ci aspette-
remmo che, in media, 95 intervalli compren-
dano la media reale J.1 = 211 della popolazione
e 5 no. Questa procedura stata simulata ed i
risultati sono illustrati in Figura 9.1. L'unico
valore che varia da campione a campione X.
Sebbene i centri degli intervalli siano diffe-
renti, essi hanno tutti la stessa lunghezza. Gli
intervalli di confidenza che non compren-
dono il valore reale di J.1 sono contrassegnati
da un punto; si noti che esattamente cinque
intervalli sono contrassegnati.
Invece di calcolare un intervallo di confi-
denza al 95 % per il livello medio di coleste-
rolo sierico, potremmo calcolare un inter-
vallo di confidenza al 99% per il parametro J.1.
168
150 200 250
Figura 9.1 Serie di intervalli di confidenza al 95% calco-
lat i da campioni di dimensione uguale a 12 selezionati da
una popolazione normale con medi a 211 (indi cata dalla
li nea verticale) e deviazione standard 46
Utilizzando lo stesso campione di 12 ipertesi
fumatori, troviamo che i limiti sono:
(
46 46 )
217 - 2,58 Jl2' 217 + 2,58 Jl2
o
( 183,251 ).
Siamo confidenti al 99% che questo inter-
vallo comprende il reale livello medi o di cole-
sterolo sierico della popolazione. Come no-
tato in precedenza, questo intervallo pi
ampio dell'intervallo di confidenza al 95 %.
Nell' esempio precedente, l'ampi ezza del-
l'intervallo di confidenza al 99% 251- 183 =
68 mg/100 mI. Quanto dovrebbe essere gran-
de un campione per ridurre l'ampi ezza del-
l' intervall o a 20 mg/ l00 mI? Poich l'inter-
INTERVALLI DI CONFIDENZA
vall o centrato all a media del campione x =
217 mg/100 mI, vogli amo calcolare la dimen-
sione del campi one necessaria a produrre l'in-
tervall o:
(217 - 10,217 + IO)
o
(207,227).
Si ricordi che l'interyallo di confidenza al
99% ugual e a:
(
46 46)
217 - 2.58-.217 + 2,58- .
fo n
Pertanto, per trovare la dimensione n del
campione richi es ta, dobbiamo ri solvere
l'equazione:
IO = 2.58(46) .
fo
Moltiplicando entrambi i termini dell' equa-
zione per ..rn e d.ividendo per 10, troviamo
che:
e
fo = 2.58(46)
10
n = 140,8.
Per ridurre l'ampi ezza dell ' intervall o di
confidenza al 99% a 20 mg/ l 00 mI dobbiamo
selezionare un campi one di 141 soggetti ma-
schi. Sebbene la medi a del campione di 217
mg/100 mI sia al centro dell'intervall o, essa
non ha alcun ruolo nel determinare la sua am-
piezza; l'ampi ezza una funzione di G, n e
del livell o di confidenza.
9.2 INTERVALLI DI CONFIDENZA
UNILA TERALI
In alcune situazioni siamo interessati al li -
mite inferiore o superiore per la medi a f.1 della
popolazione, ma non ad entrambi. Si consi -
deri la distribuzione dei livelli di emoglobina
- una proteina che trasporta l'ossigeno e che
si trova nei globuli rossi - dell a popolazione
DISTRiBUZIONE t DI STUDENT
di bambini al di sotto di 6 anni esposti ad ele-
vati li velli di piombo. Questa distribuzione
ha una media 11 non nota ed una deviazione
standard (J = 0,85 g/ 100 mi (3). Sappiamo che
i bambini con intossicazione da piombo pre-
sentano, in genere, livelli molto pi bassi di
emoglobina rispetto ai bambini sani. Pertan-
to, siamo interessati al limite superiore per j.1.
Per calcolare un intervallo di confi denza
unilaterale, consideriamo l'area in una sola
coda della distribuzione normale standardiz-
zata. In accordo con la Tabella A.3, rileviamo
che il 95 % delle osservazioni per una varia-
bile casuale normale standardi zzata giace al di
sopra di z = - 1,645. Pertanto:
P(Z 2': -1,645) = 0,95.
Sostituendo (X - j.1) / ((JI ..Jn) a Z:
(
X - /1 )
p -- 2': - l 645 = 95
a/fo ' , .
Moltiplicando entrambi i termini della di-
suguaglianza per (JI,Jri e sottraendo poi X,
troviamo che:
e
p(/1 ::5 X + 1,645 ;) = 0,95.
Pertanto, X + 1,645((JI ..Jn) il limite supe-
riore per 11 con un li vello di confidenza del
95%. Possiamo dimostrare allo stesso modo
che X -1,645((JI ..Jn) il limite inferiore corri-
spondente.
Supponiamo di selezionare un campione di
74 bambini esposti ad elevati livelli di piom-
bo; questi bambini hanno un livello medio di
emoglobina x = 10,6 g/100 mi (4). In base a
questo campione, l' intervallo di confidenza
unilaterale al 95 % per j.1- solo il limite supe-
riore - :
/1::5 10,6 +
::5 10,8.
169
Siamo confidenti al 95% che il reale li vello
medio di emoglobina per questa popolazione
di bambini non pi di 10,8 g/100 mI. In
realt, poich il valore di 11, fisso, la media
reale inferiore o uguale a 10,8 oppure non lo
. Tuttavia, se selezioniamo 100 campioni ca-
suali di dimensione uguale a 74 e usiamo cia-
scun campione per calcolare un intervallo di
confidenza unilaterale al 95%, circa 95 degli
intervalli comprender la media reale j.1.
9.3 DISTRIBUZIONE t DI STUDENT
N el calcolare gli intervalli di confidenza per
una media j.1 non nota di una popolazione ab-
biamo sempre assunto che (J, la deviazione
standard della popolazione, sia nota. In
realt, ci improbabile; se j.1 non nota,
probabile che anche (J non sia nota. In questo
caso, gli intervalli di confidenza sono calco-
lati in modo simile. Invece di utilizzare la di-
stribuzione normale standardizzata, per,
l'analisi si basa su una nuova distribuzione di
probabi lit nota come distribuzione t di Stu-
dent. Il nome Student lo pseudonimo usato
dallo statistico che ha scoperto questa distri -
buzione.
Per calcolare un intervallo di confidenza bi-
laterale per la media {L della popolazione, no-
tiamo prima di tutto che:
Z =x/-:
a " n
ha una approssimata distribuzione normale
standardizzata se n sufficientemente grande.
Quando la deviazione standard della popola-
zione non nota, sembra logico sostituire 5,
la deviazione standard di un campione sele-
zionato dall a popolazione, a (J. Ci in realt
quello che viene fatto. Tuttavia, il rapporto:
X - /1
t = s/Jii
non ha una distribuzione normale standar-
di zzata. Oltre alla variabilit campionaria in-
sita in X - che utilizziamo come stima della
media j.1 della popolazione - c' anche una
certa variabilit in 5. probabile che il valore
170
di 5 vari da campione a campione. Dobbiamo
considerare, cio, che 5 pu non essere una
stima affidabile di (), soprattutto quando il
campione in esame piccolo.
Se X normalmente distribuita ed un cam-
pione casuale di dimensione n selezionato
da questa popolazione originaria, la distribu-
zione di probabilit della variabile casuale:
X-Il
t=--
s/fo
nota come distribuzione t di Student con n
- 1 gradi di libert. Utilizziamo in questo
caso la notazione t
n
_,. Come la distribuzione
normale standardizzata, la distribuzione t
unimodale e simmetrica intorno alla sua me-
dia che O. L'area totale sotto la curva
uguale a 1. Essa ha per code pi spesse e va-
lori estremi sono pi probabili. Questa diffe-
renza illustrata in Figura 9.2. La forma della
distribuzione t riflette l'ulteriore variabilit
introdotta dalla stima s. Inoltre, la distribu-
zione t ha una propriet denominata gradi di
libert, in forma abbreviata gl. I gradi di li-
bert misurano la quantit di informazioni
disponibili nei dati che possono essere utiliz-
zate per stimare ()2; pertanto, essi misurano la
affidabilit di 52 come stima di ()2. (I gradi di
libert sono n-l invece di n, perch abbiamo
perso 1 gl per stimare la media del campione
x). Si ricordi che gl = n-l la quantit per la
quale abbiamo di viso le devianze rispetto alla
media, I 7= , (x,-x)2, per ottenere la varianza
del campione.
- Normale
INTERVALLI DI CONFIDENZA
Per ogni possibile valore dei gradi di li-
bert, c' una di versa distribuzione t. Le di-
stribuzioni con pochi gradi di libert hanno
una maggiore dispersione; all'aumentare dei
gl, la distribuzione t si avvicina alla normale
standardizzata. Ci si verifica perch, all 'au-
mentare della dimensione del campione, 5 di-
venta una stima pi affidabile di (); se n
molto grande, conoscere il valore di 5 equi-
vale quasi a conoscere il valore di ().
Poich c' una d i ~ e r s distribuzione t per
ciascun valore dei gradi di libert, sarebbe al-
quanto complesso avere una tabella completa
delle aree corrispondenti a ciascun possibile
valore. Pertanto, di solito utilizziamo un pro-
gramma informatico o una tabella ridotta che
riporta le aree sotto la curva solo per selezio-
nati percentili della distribuzione; ad esem-
pio, il 5,0, 2,5, 1,0, 0,5 e 0,05% superiore delle
distribuzioni. Quando non si dispone di un
computer, le tabelle ridotte sono sufficienti
per la maggior parte delle applicazioni che
implicano il calcolo degli intervalli di confi-
denza.
La Tabella A.4 in Appendice A una ta-
bella ridotta delle aree calcolate per le distri-
buzioni t. Per un determinato valore di gl, il
valore nella tabella rappresenta il valore di
t
n
-
1
che delimita l'area specificata nella coda
superiore della distribuzione. Ad esempio,
data una distribuzione t con 10 gradi di li-
bert, t,o = 2,228 delimita il 2,5 % superiore
dell'area sotto la curva. Poich la distribu-
zione simmetrica, t
lO
= -2,228 delimita il
-4 -2 - 1
o 2 3 4
Figura 9.2 Distribuzione normale standardizzata e distribu-
zione t di 5tudcnt con J grado di libert
DISTRIBUZIONE t DI STUDENT
2,5% inferiore. I valori di t n_ l che delimitano
il 2,5 % superiore delle distribuzioni con di-
versi gradi di libert sono di seguito riportati .
gl (n -1)
tn_ l
1 12,706
2 4,303
5 2,571
10 2,228
20 2,086
30 2,042
40 2,021
60 2,000
120 J,980
00
1,960
Per la curva normale standardi zzata, z =
1,96 delimita il 2,5% superiore della distribu-
zione. Si osservi che, all'aumentare di n, t n_ l si
avvicina a questo valore. In realt, quando
abbiamo pi di 30 gradi di libert, possiamo
sostituire la distribuzione normale standar-
di zzata all a t; in questo caso, la nostra impre-
cisione sar minore del 5%.
Si consideri un campione casuale di di eci
bambini selezionati dall a popolazione di neo-
nati che assumono anti acidi contenenti allu-
minio. Questi antiacidi sono spesso utili zzati
per il trattamento dei disturbi gastrici. Sap-
piamo che la di stribuzione dei li velli plasma-
tic i di allumini o approssimat ivamente nor-
mal e, ma non sono note la sua media J1 e la
sua deviazione standard (J. Il li vell o medio di
alluminio per il campione di dieci neonati x
= 37,2,LLg/l e la deviazione standard s = 7,13
pg/l (5).
Poich la devi azione standard (J della popo-
lazione non nota, per calcolare i limiti di
confidenza al 95% p er J1' utili zziamo la distri-
buzione t . Per una distribuzione t con 10-1 =
9 gradi di libert, il 95 % dell e osservazioni
compreso tra -2,262 e 2,262. Pertanto, sosti-
tuendo (J con s, un intervall o di confidenza al
95 % per la medi a J1 della popolazione :
(X - 2,262 Jw, X + 2.262/w).
Sostituendo i valori di x e s, l'i ntervallo di-
venta:
171
(37,2 - 2,262 Fa' 37,2 + 2,262 Fa)
o
(32,1,42,3).
Siamo confidenti al 95% che questi li miti
comprendono il reale livell o medio di allumi -
nio plasmati co per la popolazione di neonati
in trattamento con antiacidi. Se sapessimo che
il livell o medio di alluminio pl asmati co nell a
popolazione di neonati che non assumono
antiacidi 4,13 J1g/ l - un valore non proba-
bile di J1 per i neonati che invece assumono
antiacidi in base all' intervallo di confidenza al
95% - ci suggerirebbe che la somministra-
zione di anti acidi aumenta notevolmente i li -
velli di alluminio plasmatico nei bambini.
Se la deviazione standard (J della popola-
zione fosse nota ed uguale a quella del cam-
pione (7,13 J1g/ l), l'intervallo di confidenza al
95% per J1 sarebbe:
o
(32,8,41 ,6).
In questo caso, l'intervall o di confidenza
leggermente pi stretto. In genere, gli inter-
valli di confi denza basati su Il a distribuzione t
sono pi ampi dei corrispondenti intervalli
basati sulla distribuzione normale standar-
di zzata. Questo principi o, per, non si ap-
plica sempre; per la variabilit campionaria,
possibile che per un determinato campione il
valore della stima s sia considerevolmente pi
piccolo di (J.
In un precedente esempio, abbiamo esami-
nato la di stribuzione dei li velli di colesterolo
sierico della popolazione maschil e negli Stati
Uniti di ipertesi e fumatori . Si ricordi che la
deviazione standard di questa popolazione
46 mg/ 100 mI. La Figura 9.3, a sinistra, ri -
porta gli intervalli di confidenza al 95 % per J1
calcolati da 100 campioni casuali e preceden-
temente illustrati in Figu l'a 9.1. La Figura 9.3,
172
INTERVALLI DI CONFIDENZA
150 200 250
150 200 250
Figura 9.3 Due seri e di intervalli di confi-
denza al 95% calcolati da campi oni di dimen-
sione uguale a 12 selezionati da popolazioni
normali con medi a 211 (indi cata dall e linee
verti cali), una con deviazione standard di 46 e
l'altra con deviazione standard non nota
a destra, riporta 100 ulteriori intervalli calco-
lati utilizzando gli stessi campioni; in ciascun
caso, per, stato assunto che la deviazione
standard non fosse nota. Ancora una volta, 95
intervalli comprendono la media reale f.1,
mentre 5 no. Si noti che questa volta, per, gli
intervalli variano in ampiezza.
9.4 ULTERIORI APPLICAZIONI
Si consideri la distribuzione delle altezze
della popolazione di soggetti di et compresa
tra 12 e 40 anni affetti da sindrome alcolica
fetale. Questa sindrome l'esito grave di una
serie di disabilit causate dall 'assunzione ma-
terna di alcoli ci durante la gravidanza. La di-
stribuzione dell e altezze approssimativa-
mente normale con una media f.1 non nota.
Vogliamo trovare la stima puntuale per f.1 e un
intervallo di confidenza in grado di fornire
un range ragionevole di valori per il parame-
tro in esame.
Quando calcoliamo un intervallo di confi-
denza per la media di una variabile casuale
continua, la tecnica usata diversa se si cono-
sce o meno la deviazione standard della po-
polazione originaria. Per i dati relativi all'al-
tezza, si assume che la devi azione standard sia
(5 = 6 centimetri (6). Usi amo, pertanto, la di-
stribuzione normale standardizzata per cal-
colare un intervallo di confidenza al 95%.
Prima che un campione sia selezionato dalla
popolazione, l'intervallo:
(
- 6 - 6)
X - l 96 - X + l 96-
, .fii ' ' .fii
ha una probabilit del 95% di comprendere la
media reale f.1 della popolazione.
Selezioniamo dalla popolazione originaria
un campione casual e di 31 pazienti; l' altezza
media di questi soggetti x = 147,4 cm. Que-
sta la stima puntuale per la media f.1 della
popolazione. Pertanto, un intervallo di confi-
denza al 95% basato su questo campione :
ULTERIORI APPLICAZION I
(1 47,4 - 1.96 fit , 147,4 + 1,96 fit)
o
(145,3, 149,5).
Siamo confidenti al 95 % che ques ti limiti
comprendono la reale altezza media della po-
polazione di et compresa tra 12 e 40 anni af-
fetta da i ndrome alcolica fetale. In realt,
per, il valore fisso di Il pu essere o meno
compre o tra 145,3 cm e 149, 5 cm.
Invece di calcolare a mano l'intervallo di
confidenza, avremmo potuto uti lizzare un
computer. La Tabell a 9.1 mostra i risultati ot-
tenuti con Minitab. Oltre all a dimen ione del
campione, la tabell a ill ustra la medi a campio-
naria, la deviazione standard assunta, l'errore
standard della media e l' intervallo di confi-
denza al 95%. anche possibil e calcolare in-
tervalli con livelli di versi di confidenza. La
Tabella 9.2 illustra un intervallo di confi -
denza al 90% per JL. L' intervallo di confi-
denza al 90% un po' pi stretto di quell o al
95%; in ques to caso siamo meno confidenti
che questo intervallo comprenda la media
reale Il.
I! metilfenidato un farmaco ampi amente
utilizzato nei di sturbi dell' attenzione. el-
l'ambito di uno studio crossover, a di eci bam-
bini di et compresa tra 7 e 12 anni affetti da
questo dis turbo, stato somministrato il far-
maco, mentre altri di eci bambini hanno rice-
vuto placebo (7). Dopo un dato periodo di
tempo, unti i 20 bambini hanno sospeso il
173
trattamento; in segui to, i bambini che ave-
vano assunto metilfenidato hanno ricevuto
placebo ed i bambini cui era stato sommini-
strato placebo hanno iniziato la terapi a con
metilfenidato. (Ques to ci che si intende
per studio crossover). La valutazione del li-
vello di attenzione e del comportamento di
ciascun bambino sono stati valutati con uno
strumento chiamato Parent Rating Scale. Le
di stribuzioni dei punteggi ottenuti sono ap-
prossimativamente normali, ma non sono
note le medi e e le deviazioni standard. In ge-
nerale, i punteggi pi bassi indicano un au-
mento nel livello di attenzione. Vogliamo sti -
mare i punteggi medi ottenuti da ciascun
gruppo di bambini .
Poich la deviazione standard di entrambe
le popolazioni non nota, usiamo la di stribu-
zione t per calcolare intervalli di confidenza
al 95 %. In una di stribuzione t con 20 - 1 = 19
gradi di libert, il 95% delle osservazioni
compreso tra - 2,093 e 2, 093. Pertanto, prima
di selezionare dall a popolazione un campione
di dimensione uguale a 20, l' intervallo:
(
X - 2,093 b., X + 2,093 /::;: )
'1
20
y20
ha una probabilit del 95 % di comprendere la
medi a reale Il.
I! campi one casuale di 20 bambini incluso
nell o studio presenta punteggi medi di atten-
zione xM = 10,8 e deviazione standard SM =
2,9 se in terapia con metilfenidato, ma xp =
14,0 e deviazione standard Sp = 4, 8 con pia-
Tabell a 9.1 Risultati di Minitab che illustrano un intervallo di confidenza al 95%,
con deviazione tandard nota
THE ASSUMED SI GMA = 6.000
HEIGHT
N
31
MEAN
147 .4
STDEV
6 . 000
SE MEAN
1. 078
95.0 PERCENT C.I.
(145.288, 149 . 512)
Tabell a 9.2 Risultati di Mini tab che illustrano un intervall o di confidenza al 90%,
con deviazione standard nota
THE ASSUMED SIGMA = 6.000
HEIGHT
N
31
MEAN
147.4
STDEV
6. 000
SE MEAN
1 . 078
90.0 PERCENT C.I .
(145.627,149 . 173)
174
cebo. Pertanto, un intervallo di confidenza al
95 % per J.1M, il punteggio medio di attenzione
per i bambini in terapia con metilfenidato, :
(10,8 - 2,093 J!o' 10,8 + 2,093 J!o)
o
(9,44, 12,16),
e un intervallo di confidenza al 95% per J.1P, il
punteggio medio di attenzi one per i bambini
che hanno ricevuto il placebo, :
(14,0 - 2,093 , 14,0 + 2,093 ~
o
(11 ,75, 16,25).
La Tabella 9.3 riporta i risultati ottenuti
con Stata per entrambi gli intervalli. Esami-
nando gli intervalli, osserviamo che il livello
medio di attenzione dei bambini in cura con
metilfenidato pi basso, ad indicare un mi-
glioramento del disturbo. Esiste, tuttavia, un
certo grado di sovrapposizione tra i due in-
tervalli.
9.5 ESERCIZI
1. Spiegare la differenza tra stima puntuale
e stima intervallare.
2. Descrivere l'intervallo di confidenza al
95% per la media J.1 di una popolazione.
Come si interpreta l' intervallo?
iNTERVALLI Di CONFiDENZA
3. Quali sono i fattori che infl uenzano la
lunghezza di un intervall o di confidenza?
Spiegare.
4. Descrivere le simili tudini e le differenze
tra la distribuzione t e la distribuzione nor-
male standardi zzata. Se si dovesse calcolare
un intervallo di confidenza, quando sarebbe
opportuno utilizzare l' una invece dell 'altra?
5. Le medie delle distribuzioni della pres-
sione sistolica e diastolica dell e donne diabe-
tiche di et compresa tra 30 e 34 anni non
sono note. Tuttavia, le loro deviazioni stan-
dard sono rispettivamente (}s = 11,8 mm Hg e
(}d = 9,1 mm H g (8).
a. Un campione casual e di dieci donne sele-
zionato da ques ta popolazione. La pres-
sione sistolica medi a del campione X
s
=
130 mm Hg. Calcolare un intervall o di
confidenza bilaterale al 95% per J.1" la reale
pressione sistolica media.
b. Interpretare l'intervallo di confidenza cal-
colato.
c. La pressione diastolica media di un cam-
pione di dimensione uguale a lO xd = 84
mm H g. Calcolare un intervallo di confi -
denza bilaterale al 90% per J.1d, la reale
pressione di astolica medi a della popola-
ZlOne.
d. Calcolare un intervall o di confidenza bila-
terale al 99% per J.1d'
e. Quanto differisce l'intervallo di confi-
denza al 99% dall'intervall o di confidenza
al 90% ?
6. Si consideri la distribuzione t con 5 gradi
di libert.
Tabella 9.3 Risultati dello Stata che illustrano un intervall o di confidenza al
95%, con deviazione standard non nota
Variable Obs Mean std. Err. [95% Conf. Interval]
rating 20 10. 8 .6484597 9.442758 12.15724
Variable Obs Mean Std. Err. [95% Conf. Interval]
rating 20 14 1. 073313 11. 75353 16.24647
ESERCiZi
a. Quale proporzione dell'area sotto la curva
si trova a destra di t = 2,015?
b. Quale proporzione dell'area si trova a sini-
stra di t = -3,365?
c. Quale proporzione dell'area compresa
tra t = -4,032 e t = 4,032?
d. Quale valore di t delimita il 2,5% supe-
riore della distribuzione?
7. Si consideri la distribuzione t con 21
gradi di libert.
a. Quale proporzione dell'area sotto la curva
si trova a sinistra di t = -2,518?
b. Quale proporzione dell'area si trova a de-
stra di t = 1,323?
c. Quale proporzione dell'area compresa
trat=-1,721 et=2,831?
d. Quale valore di t delimita il 2,5% inferiore
della distribuzione?
8. Prima di iniziare uno studio che esamina
l'efficacia dell'eparina nel prevenire la bron-
cocostrizione, sono stati misurati i valori di
base della funzionalit polmonare in un cam-
pione di 12 soggetti con anamnesi di asma in-
dotta da esercizio fisico (9). Il valore medio
della capacit vitale forzata per il campione
XI = 4,49 litri e la deviazione standard SI =
0,83 litri; il volume espiratorio forzato in un
secondo x2 = 3,71 litri e la deviazione stan-
dard S2 = 0,62 litri.
a. Calcolare un intervallo di confidenza bila-
terale al 95% per f.11, la reale capacit vitale
forzata medi a della popolazione.
b. Calcolare un intervallo di confidenza al
90% per la reale capacit vitale forzata me-
dia. Come varia la lunghezza dell'inter-
vallo?
c. Calcolare un di confidenza al
95% per 112> il reale volume espiratorio for-
zato medio della popolazione.
d. Per calcolare questi intervalli di confi-
denza, quale assunzione necessaria in
merito alle distribuzioni originarie della
capacit vitale forzata e del volume espira-
torio forzato?
9. Nella popolazione di neonati sottoposti
a chirurgia fetale per anomalie congenite, la
175
distribuzione dell' et gestazionale alla nascita
approssimativamente normale, ma non
sono note la media 11 e la deviazione standard
(J. Un campione casuale di 14 di questi neo-
nati ha un'et gestazionale media di X = 29,6
settimane e deviazione standard S = 3,6 setti-
mane (lO).
a. Calcolare un intervallo di confidenza al
95 % per la reale media 11 della popola-
ZIOne.
b. Qual la lunghezza dell'intervallo?
c. Quale dimensione dovrebbe avere un cam-
pione affinch l'intervallo di confidenza al
95% avesse una lunghezza di tre setti-
mane? Si assuma che la deviazione stan-
dard della popolazione sia (J = 3,6 setti-
mane.
d. Quale dimensione dovrebbe avere un cam-
pione affinch l'intervallo di confidenza al
95% avesse una lunghezza di due setti-
mane?
10. Sono state determinate le percentuali di
peso ideale per un campione casuale di 18
diabetici insulino-dipendenti (11). Una per-
centuale di 120 indica che un soggetto pesa il
20% in pi rispetto al suo peso ideale, mentre
una percentuale di 95 indica che il soggetto
pesa il 5% in meno del suo peso ideale. I ri-
sultati sono di seguito riportati.
107119 99114120104 88114124
116101 121 152100125114 95117 (%)
a. Calcolare un intervallo di confidenza bila-
terale al 95% per la reale percentuale me-
dia di peso ideale della popolazione.
b. Questo intervallo di confidenza com-
prende il valore 100%? Che cosa indica?
11. Otto soggetti, nello Stato del Massachu-
setts, hanno presentato un episodio inspie-
gato di intossicazione da vitamina D che ha
reso necessario il ricovero ospedaliero ed
stato ipotizzato che queste rare eventualit
possano essere il risultato di un'aggiunta ec-
cessiva al latte (12). Di seguito sono riportati
i livelli ematici di calcio e di albumina di ogni
soggetto al momento del ricovero.
176
Calcio (m moll i) Albumina (gl i )
2,92 43
3,84 42
2,37 42
2,99 40
2,67 42
3,17 38
3,74 34
3,44 42
a. Calcolare il limite inferiore dell' intervallo
di confidenza unilaterale al 95% per il
reale livello medio di calcio dei soggetti
che hanno presentato intossicazione da vi-
tamina D.
b. Calcolare il limite inferiore di un intervallo
di confidenza al 95% per il reale livello
medio di albumina di ques to gruppo.
c. Nei soggetti sani, i valori normali di calcio
variano tra 2,12 e 2,74 mmolll e i valori di
albumina tra 32 e 55 glI. Ritenete che i pa-
zienti che hanno presentato intossicazione
da vitamina D presentino livelli ematici
normali di calcio e di albumina?
12. I livelli di zinco sierico per 462 maschi
di et compresa tra 15 e 17 anni sono regi-
strati nella variabile zinc nel CD allegato alli-
bro in un fil e chi amato serzinc (3) (Appendice
B, Tabella B.1). L'unit di misura del livello
di zi nco sierico sono i microgrammi per deci-
litro.
a. Calcolare un intervallo di confidenza bila-
terale al 95% per Il, il reale livello medio di
zinco sierico di questa popolazione.
b. Interpretare l'intervallo di confidenza cal-
colato.
c. Calcolare un intervallo di confidenza al
90% per Il.
d. Confrontare i due intervalli di confidenza.
13. Il file chiamato lowbwt, nel CD allegato
al libro, contiene le informazioni relative ad
un campione di 100 neonati con basso peso
alla nascita in due ospedali di Boston, Massa-
chusetts (13) (Appendice B, Tabella B.7). Le
misurazioni della pressi one sistolica sono re-
gistrate nella variabile sbp, mentre gli indica-
INTERVALLI DI CONFIDENZA
tori del sesso - dove 1 rappresenta un ma-
schio e O una femmina - nell a variabile sex.
a. Calcolare un intervallo di confidenza al
95% per la reale pressione sistolica media
dei maschi con basso peso alla nascita.
b. Calcolare un intervallo di confidenza al
95 % per la reale pressione sistoli ca media
dell e femmine con basso peso alla nascita.
c. Ritenete possibile che maschi e femmine
presentino la stessa pressione sistolica me-
dia? Spiegare.
Bibliografia
1. KAPLAN N.M.: Strategies to reduce risk factors
in hypertensive patients who smoke. American
Heart Journa!, 115:288-294, 1988.
2. N ATIONAL CENTER FOR H EALTH STATISTICS,
FULWOOD R., KALSBEEK W., RI FKIND B., Rus-
SELL-BRIEFEL R. , MUESING R., LARosA J., LIP-
PEL K.: Total serum cholesterollevels of adults
20-74 years of age: United States, 1976- 1980.
Vita! and Health Statistics, Seri es Il , Number
236, May 1986.
3. N ATIONAL CENTER FOR H EALTH STATISTI CS,
FULWOOD R., JOHNSON CL., BRYNER J.D.,
GUNTER E. W., McGRATJ-I C R.: H ematological
and nutritional bi ochemi stry r efer ence data for
persons 6 mo nths-74 years of age: United Sta-
tes, 1976-1980. Vita! and H ealth Statistics, Se-
ries Il , Number 232, D ecember 1982.
4. CLARK M., ROYAL J., SEELER R.: Interacti on of
iron d eficiency and lead and the hematologic
findings in children with severe lead poiso-
ning. Pediatrics, 81:247-253, 1988.
5. Tsou V.M., YOUNG R.M., H ART M.H., VAN-
DERHOOF J.A.: Elevated pl asma aluminum le-
vels in normal infants receiving antacids con-
taining aluminum. Pediatrics, 87: 148- 151 , 1991.
6. STREISSGUTH A.P., AASE J.M., CLARREN S.K. ,
RANDELS S.P., LAD uE R.A., SMITH D.F.: Fetal
alcohol syndro me in adolescents and adults.
Journa! oi the American Medica! Association,
265:1961 - 1967, 1991.
7. TIROSH E., EU-IASID R., KAMAI--I S.CB., COHEN
A.: Predictive value of pl acebo methy lpheni-
date. Pediatric Neuro!ogy, 9:131 - 133, 1993.
8. KLEIN B.E.K., KLEIN R. , Moss S.E.: Blood
pressure in a populati on of diabetic persons
diagnosed after 30 years of age. American
Journa! oi Pub!ic Health, 74:336-339, 1984.
BIBLIOGRAFIA
9. AHMED T, GARRIGO J., DANTA 1.: Prevent ing
bronchoco nst ri ction 111 exercise-induced
asthma with inhalcd heparin. The New En-
gland Journal oj Medicine, 329:90-95, 1993.
lO. LONGAKER M.T., G LBUS M.S., FILLY R.A.,
RosEN M.A., CI IA NG S.W., HARRI SON M.R.:
Maternal olltcome after open fetal surgery.
Journal oj the American MedicaI Association,
265:737-741, 199l.
11. SAUDEK C.D., SELAM J. L. , PITI H.A. , WAXMAN
K., RUBlo M., JEANDIOIER N., TUR ER D., FI-
SCHELL R. E., CI IARLE M.A.: A preliminary
tri al of the programmable impl antable medica-
177
tion system for insulin deli very. The New En-
gland Journal oj Medicine, 321:574-579,1989.
12. JA OBUS C. H ., HOLlCK M.F., SHAO Q., CHE
TC., HOLM LA., KOLODNY J. M., FULEIHA
G.E. H ., SEELY E.W.: Hypervitaminosis D as-
sociated with drinking mille The New En-
gland Journal oj Medicine, 326: 1173- 11 77,
1992.
13. LEVITO A. , FENTON T, KUBAN K. C.K., PA-
GANO M.: Labor and deli very characteristics
and the risk of germinaI matrix hemorrhage in
low birth weight infants. Journal oj Child
Neurology, 6:35-40, 1991.
Test di ipotesi
Nel capitolo precedente abbiamo studiato
gli intervalli di confidenza ed abbiamo consi-
derato la distribuzione dei livelli di coleste-
rolo sierico della popolazione maschile di
ipertesi e fumatori negli Stati Uniti. Questa
distribuzione approssimativamente nor-
male con media J1 non nota. Sappiamo, per,
che il livello medio di colesterolo sierico della
popolazione maschile negli Stati Uniti di et
compresa tra 20 e 74 anni 211 mg/l00 mi
(1). Pertanto, potremmo chiederci se anche il
livello medio di colesterolo della popolazione
maschile di ipertesi fumatori sia 211 mg/l00
mI. Se selezioniamo da questa popolazione
un campione casuale di 25 soggetti ed il loro
livello medio di colesterolo sierico x = 220
mg/ l00 mI, questa media del campione
compatibile con una media ipotizzata di 211
mg/ l00 mi? Sappiamo che dobbiamo aspet-
tarci una certa variabilit del campione.
Quale significato avrebbe invece una media
del campione di 230 mg/ l00 mi o 250 mg/lOO
mi? Quanto distante da 211 dovrebbe essere
x per poter concludere che J1 realmente
uguale ad un altro valore?
10.1 CONCETTI GENERALI
Concentriamoci di nuovo sul trarre conclu-
sioni su un parametro della popolazione - in
questo caso la media di una variabile casuale
continua - utilizzando le informazioni conte-
nute in un campione di osservazioni. Come
abbiamo visto nel capitolo precedente, un ap-
proccio calcolare un intervallo di confi-
lO
denza per J1; un altro approccio consiste
nell'esecuzione di un test statistico di ipotesi.
Per eseguire questo test, prima di tutto ipo-
tizziamo che la media della popolazione sia
uguale ad un valore postulato J1o. Questa af-
fermazione sul valore del parametro della po-
polazione denominata ipotesi nulla, o Ho. Se
vogliamo testare, ad esempio, se il livello me-
dio di colesterolo sierico della popolazione
maschile di ipertesi fumatori uguale alla me-
dia della popolazione generale maschile di et
compresa tra 20 e 74 anni, l'ipotesi nulla sar:
Ho : /1 = /10 = 211 mg/100 mI.
L'ipotesi alternativa - rappresentata da HA
- una seconda ipotesi che contraddice Ho.
In questo caso, avremo:
HA : /1 '* 211 mg/lOO mI.
L'ipotesi nulla e l'ipotesi alternativa, in-
sieme, coprono tutti i valori possibili della
media J1 della popolazione; pertanto, una
delle due deve essere vera.
Dopo aver formulato le ipotesi, selezio-
niamo un campione casuale di dimensione n
dalla popolazione in esame. Nel caso degli
ipertesi fumatori, selezioniamo un campione
di dimensione uguale a 12. Confrontiamo la
media di questo campione, X, con la media
postulata J1o; vogliamo sapere se la differenza
tra la media del campione e la media ipotiz-
zata troppo grande per essere attribuita solo
al caso.
Se c' evidenza che il campione non pu
provenire da una popolazione con media J1o,
180
rifiutiamo l'ipotesi nulla. Ci si verifica
quando, posto che Ho sia vera, la probabilit
di avere una media del campi one pari o pi
estrema del valore osservato x sufficiente-
mente piccola. La di zione ' pi estrema' indica
un valore ancora pi lontano dal valore J-l o. In
questo caso, i dati non sono compatibili con
l'ipotesi nulla; essi depongono di pi per
l' ipotesi alternativa. Concludiamo, pertanto,
che la media della popol azione non pu es-
sere f.1o. Questo risultato del test detto stati-
sticamente significativo. Si noti che la signifi -
cativit stati stica non implica che il ri sultato
sia clinicamente o scientifi camente significa-
tivo; il risultato del test potrebbe in realt
avere scarse conseguenze nell a pratica clinica.
Se non c' suffici ente evidenza per mettere
in dubbio la validit dell'ipotesi nulla, non
possiamo rifiutarla. Ammettiamo, invece, che
la medi a della popolazione sia ugual e a ,110.
Tuttavia, non diciamo che accettiamo Ho; il
tes t non conferma l'ipotesi nulla. ancora
possibile che la media della popolazione sia
un valore di verso da Po, ma ci non confer-
mato dal campione casuale selezionato. Que-
sto evento pu verificarsi, ad ese mpio, quan-
do il campione selezionato troppo piccolo.
Questo aspetto sar discusso pi avanti in
ques to capitolo.
In precedenza abbiamo affermato che se la
probabilit di ottenere una media del cam-
pione pari o pi estrema del valore osservato
x sufficientemente piccola, rifi utiamo l' ipo-
tesi nulla. Ma che cosa si intende per probabi-
lit 'sufficientemente piccola'? Nella maggior
parte dei casi, si sceglie 0,05 (2). Cos, rifiu-
tiamo Ho quando la probabilit che il cam-
pi one possa provenire da una popolazione
con media J-lo minore o uguale al 5%. Ci
impli ca che rifiutiamo erroneamente il 5%
delle volte; se conduciamo ripetuti test di si-
gnifi cativit, 5 volte su 100 rifiutiamo erro-
neamente l' ipotesi nulla quando in realt essa
vera. Per essere pi conservativi, talvolta
scegli amo una probabilit di 0,01. In questo
caso, rifiutiamo erroneamente Ho quando
essa vera solo l'l % delle volte. Per essere
meno conservativi, tal volta scegliamo una
TEST DI IPOTE I
probabilit di 0, 10. Il valore di probabilit
che scegli amo - 0,05, 0,01 o un altro valore-
noto come il Livello di significativit del test
di ipotesi. Il livell o di significativit indicato
con ex (la lettera greca alfa) e deve essere spe-
cificato prima di eseguire il test.
Un test di ipotesi pu essere paragonato ad
un processo penale negli Stati Uniti . L'indivi-
duo processato pu essere innocente o colpe-
vole, ma per legge considerato innocente.
Dopo la presentazione delle prove, la giuria
considera l'imputato colpevole o non colpe-
vole. Se l'imputato innocente e la decisione
dell a giuri a di considerarl o innocente,
stato espresso il verdetto giusto. Il verdetto
corretto anche nel caso in cui l' imputato
colpevole e viene di chi arato tale.
Verdetto
della giuria
Non colpevole
Colpevole
Imputato
Innocente
orretto
on corretto
olpevole
011 corretto
Corretto
All o stesso modo, la medi a reale dell a po-
polazione pu essere f.1o o non essere f.1o.
Prima di tutto ass umi amo che l' ipotesi null a:
Ho: Il = 110
sia corretta, e quindi consideri amo la ' prova'
rappresentata da un campi one di dimensione
n. In base ai nostri risultati, l' ipotesi nulla
pu essere rifi utata o non rifiutata. Anche in
questo caso ci sono due situazioni in cui la
conclusione raggiunta corretta: quando la
media dell a popolazione J-l o e l' ipotesi nulla
non rifiutata e quando la media dell a popo-
lazione non J-l o e Ho rifiutata.
Risultato del test
Ipotesi non rifiutata
Ipotesi rifi utata
Popolazione
COlTetto 11 conetto
0 11 COlTetto Corretto
Come il processo penal e, anche il test di
ipotesi non perfetto; possi bile commettere
due tipi di errore. In particolare, potremmo
rifiutare l' ipotesi nulla quando P uguale a 110
o non rifiutarla quando P non uguale a flu.
Questi due tipi di errore - che hanno molto
TEST DI IPOTESI BILATERA LI
in comune con i ris ultati falsi positi vi e fa lsi
negativi ch si verificano nei test diagnostici -
sono discussi pi in dettagli o nel Paragrafo
10.4.
La probabil it di ottenere una media pari o
pi es trema della media os ervata x del cam-
pione, posto che l'ipotesi null a:
Ho: 11 = 110
sia vera, denominata valore p del test, o
semplicemente p. Il valore p confrontato
con il livell o predeterminato di signi ficativit
a per decidere e l'ipotesi nulla deve essere ri-
fiutata. Se p minore o uguale a a, rifi uti amo
Ho. Se p maggiore di ex, non rifiutiamo Ho.
Il valore p viene spesso riportato in lettera-
tura insieme all e concl usioni tratte dal test di
ipotesi effett uato.
10.2 TEST DI IPOTESI BILATERALI
Per eseguire un test di ipotesi, ci basiamo an-
cora una volta sull e nostre conoscenze sull a
distribuzione campionaria della media. Assu-
miamo che la vari abil e casuale continua X ab-
bia una media f.1o ed una deviazione standard
(J nota. In accordo al teorema del limite cen-
trale:
x - fio
z =- -
o/Jn
ha una distribuzione apprOSSImatiVamente
normale standardizzata se il valore di n suf-
ficientemente grande. Per un dato campi one
con media X, possiamo calcolare il risultato Z,
denominato test statistico. Possiamo utili z-
zare un programma infor matico o la tabell a
dell a curva normal e standardizzata - come la
Tabella A.3 in Appendice A - per detenni-
nare la probabi lit di ottenere un valore di Z
che sia pari o pi estremo del valore os er-
vato. Per pi estremo si intende pi lontano
da f.1{J nell a di rezione dell'ipotesi alternativa.
Poich si basa sull a di stribuzione normale
standardi zzata, questo tipo di test denomi-
nato test z.
Quando la deviazione standard della popo-
lazione non nota, sostitui amo a (J il valore s
181
del campione. Se la popolazione originaria
normalmente distribuita, la variabi le casuale:
x - 11 0
t=---
s/Jn
ha una di stribuzione t con n- I gradi di li-
bert. In questo caso, possiamo calcolare il ri -
sultato di t corri spondente ad un dato valore
di x e consultare un programma informatico o
la Tabell a A.4 per trovare la probabilit di ot-
tenere una media del campi one che sia pi
estrema di quella osservata. Questa proce-
dura nota come test t.
Consideriamo ancora la distribuzione dei
livelli di colesterolo sieri co della popolazione
maschile negli Stati Uniti di ipertesi e fuma-
tori. Si assuma che la deviazione standard
della di stribuzione sia (J = 46 mg/l00 mi ;
l' ipotesi nulla da testare :
Ho: 11 = 211 mgllOO ml ,
dove f.10 = 211 mg/ l00 mi il livello medi o di
colesterolo sierico dei soggetti maschi di et
compresa tra 20 e 74 anni. Poich la media
della popolazione di ipertesi fumatori pu es-
sere minore o maggiore di f.1o, siamo interes-
sati alle deviazioni che si verificano in en-
trambe le direzioni. Pertanto, eseguiamo un
test bilaterale ad un livello di significativit a
= 0,05. L' ipotesi alternativa per il test bilate-
rale :
Il campi one casuale indicato in precedenza
di 12 ipertesi fumatori ha un livello medio di
colesterolo sierico x = 217 mg/ 100 mi (3).
verosimile che questo campione derivi da una
popolazione con media 211 mg/100 mI? Per
ri spondere a questa domanda, calcoliamo il
test statlstl co:
x - fi o
z = o/Jn
217-211
46/[0.
= 0,45.
182
Se l'ipotesi nulla vera, questa statistica il
risultato di una variabile casuale normale
standardizzata. In accordo con la Tabella A.3,
l'area a destra di z = 0, 45 - cio la probabilit
di osservare un valore di Z maggiore o uguale
di 0,45, posto che Ho sia vera - 0,326. Anche
l'area a sinistra di z = - 0,45 0,326. L'area
nelle due code della distribuzione normale
standardizzata uguale a 0,652; questo il
valore p del test. Poich p > 0,05, non rifiu-
tiamo l'ipotesi nulla. In base a questo cam-
pione, non abbiamo sufficiente evidenza per
concludere che il livello medio di colesterolo
sierico della popolazione di ipertesi fumatori
diverso da 211 mg/100 mI.
Sebbene non appaia immediatamente ov-
vio, vi in realt una equi valenza matematica
tra gli intervalli di confidenza ed i test di ipo-
tesi. Poich abbiamo condotto un test bilate-
rale, qualsiasi valore di z compreso tra -1,96
e 1,96 produrrebbe un valore p maggiore di
0,05. In tutti questi casi, l'i potesi nulla non
sarebbe rifiutata. D'altro canto, Ho sarebbe
rifiutata per qualsiasi valore di z minore di
-1,96 o maggiore di 1,96. I valori -1,96 e 1,96
sono i valori critici del test statistico, in
quanto essi indicano quando rifiutiamo o non
rifiutiamo l'ipotesi nulla.
Un altro approccio notare che l' ipotesi
nulla non rifiutata quando il valore di Jlo
compreso nell'intervallo di confidenza al
95% per Jl. Si ricordi che nel Capitolo 9 ab-
biamo trovato che un intervallo di confidenza
al 95 % per il livello medio di colesterolo sie-
rico di ipertesi fumatori era uguale a:
(191 , 243).
Qualsiasi valore di Jlo che giace in questo
intervallo produrrebbe un test statistico com-
preso tra -1,96 e 1,96. Pertanto, se l'ipotesi
nulla fosse stata:
Ho : f-l = 240 mgllOO mi ,
Ho non sarebbe stata rifiutata. Allo stesso
modo, l' ipotesi nulla non sarebbe stata rifiu-
tata per f-lo = 195 mg/ 100 mI. Al contrario, per
qualsiasi valore di Jlo che si trovi al di fuori
dell'intervallo di confidenza al 95 % per Jl -
TEST DI IPOTESI
ad esempio, Jlo = 260 mg/ 100 mI - l'ipotesi
nulla sarebbe rifiutata ad un li vello ex = 0,05.
Questi valori producono test statistici minori
di -1,96 o maggiori di 1,96.
Anche se intervalli di confidenza e test di
ipotesi portano alle stesse conclusioni, le
informazioni fornite sono alquanto diverse.
L'intervallo di confidenza fornisce un range
di valori accettabili per il parametro Jl e ci
dice qualcosa sull'incertezza insita nella no-
stra stima puntuale x. Il tes t di ipotesi ci aiuta
a decidere se il valore assunto della media
possa essere corretto o meno, e fornisce uno
specifico valore p.
Il valore Jlo = 211 mg/ 100 mI stato scelto
per l' ipotesi nulla perch il livell o medio di
colesterolo sierico della popolazione maschi-
le di et compresa tra 20 e 74 anni. Pertanto,
l'ipotesi nulla sostiene che il livello medio di
colesterolo sierico della popolazione maschi-
le di ipertesi fumatori uguale a quello della
popolazione maschile generale. L'ipotesi
stata formulata al fine di trovare l'evidenza
statistica per rifiutarl a in favore dell'alternati-
va; se l'ipotesi nulla fosse rifiutata, potremmo
affermare che il livello medio di colesterolo
sierico dei soggetti ipertesi fumatori non
uguale alla media della popolazione generale.
Come ulteriore esempio, si consideri il
campione casuale di dieci bambini selezio-
nato dall a popolazione di neonati che assu-
mono antiacidi contenenti alluminio. La di-
stribuzione dei livelli di allumi nio plasmatico
di questa popolazione approssimativamente
normale con media Jl e deviazione standard (J
non note. Sappiamo, per, che il livello medio
di alluminio plasmatico del campione di dieci
neonati x = 37,20 ,LIg/l e che la sua devia-
zione standard s = 7,13 Jlg/i (4). Il li vello
medio di alluminio plasmatico della popola-
zione di neonati che non assumono antiacidi
4,13 ,ug/i. verosimile che i dati del nostro
campione provengano da una popolazione
con media Jlo = 4,13 ,ug/l? Per rispondere a
questa domanda, eseguiamo un test di ipotesi;
l'ipotesi nulla :
Ho: f-l = 4,13 f-lg/1 ,
e l'ipotesi alternativa :
TEST DI IPOTESI UNILATERALI
Siamo interessati all e deviazioni dall a media
in entrambe le direzioni; vogliamo sapere se Il
maggiore o minore di 4,13. Pertanto, ese-
guiamo un tes t bilaterale ad un livello di si-
gnificativit ex = 0,05.
Poich non conosciamo la deviazione stan-
dard (5 della popol azione, utili zziamo un test
t piu ttosto che un test z. Il test statisti co :
x - Il O
t = ---
si Ji7
o
37,20 - 4,13
t=--'--;::::'-
7,131Fo
= 14,67.
Se l'ipotesi nulla vera, questo ri sultato ha
una distribuzione t con 10 - 1 = 9 gl. In ac-
cordo con la Tabell a A.4, osserviamo che
l' area totale a destra di t
9
= 14,67 ed a sinistra
di t
9
= -14,67 minore di 2(0,0005) = 0,001.
Pertanto, p < 0,05 e rifiutiamo l' ipotesi nulla:
Ho: Jl = 4, 13 Jlg/i.
Questo campione di neonati fornisce suffi-
ciente evidenza che il livello medio di allumi-
nio plasmatico dei bambini che assumono an-
tiacidi non uguale a quello dei bambini che
non ne assumono. Infatti, poich la media del
campione x maggiore di Po, il reale livello
medio di allumini o maggiore di 4,13 I1gl l.
10.3 TEST DI IPOTESI UNILATERALI
Prima di eseguire un 'test di ipotesi, dob-
biamo decidere se siamo interessati alle devia-
zioni da 110 che possono verificarsi in en-
trambe le direzioni - cio maggiori o minori
di 110 - o in una sola di esse. In base a questa
scelta consideriamo l'area in una sola o nelle
due code della curva appropriata quando cal-
coliamo il valore p. La decisione deve essere
presa prima di selezionare un campione ca-
suale, in quanto la scelta non deve essere in-
fl uenzata dal risultato del campione. Se sap-
183
piamo a priori che Il non pu essere minore
di Po, i valori di x che forniranno evidenza
contraria all 'ipotesi null a:
Ho: Jl=Jlo
sono solo quelli molto maggiori di 110' In que-
sto caso, l'ipotesi nulla pi correttamente
definita come:
H o J l ~ J l o
e l' ipotesi alternativa come:
HA: Jl>Jlo
on ragionevole ntenere, ad esemplO,
che l'esposizione ad una sostanza tossica
- come il monossido di carbonio o l'anidride
solforosa - possa essere di beneficio all'uo-
mo. Pertanto, prevediamo soltanto gli effetti
dannosi ed eseguiamo un test unilaterale. Un
test bilaterale sempre la scelta pi conserva-
tiva; in generale, il valore p di un test bilate-
rale due volte pi grande di quell o del test
unilaterale.
Si consideri la distribuzione dei livelli di
emoglobina della popol azione di bambini al
di sotto di 6 anni che sono stati esposti ad ele-
vati livelli di piombo. Questa distribuzione
ha una media P non nota; si assuma che la sua
deviazione standard sia (5 = 0,85 gl 100 mI (5).
Potremmo voler sapere se il livello medio di
emoglobina di questa popolazione uguale a
queUo della popolazione generale di bambini
al di sotto di 6 anni, cio Il = 12,29 gl 100 m\.
Tuttavia, poi ch riteniamo che i li velli di emo-
globina dei bambini esposti siano in media in-
feriori a quelli dei bambini non esposti, siamo
interessati solo alle deviazioni dalla media al
di sotto di 110. Pertanto, l'ipotesi nulla :
Ho: Jl?' 12,29 glIOO mi
e l' ipotesi alternativa unilaterale :
HA: Jl < 12,29 g/lOO mI.
L'ipotesi nulla sarebbe rifiutata per valori
di x minori di 12,29, ma non per valori mag-
giori. Eseguiamo un test unilaterale ad un li-
vello di si gnificativit ex = 0,05; poich (5
nota, utilizziamo la distribuzione normale e
non la distribuzione t .
184
Un campIOne casuale di 74 bambini che
sono stati esposti ad elevati livelli di piombo
ha un livello medio di emoglobina x = 10,6
gl 100 mI (6). Pertanto, l'appropriato test sta-
tlStlCO :
x - J.1.o
z=---
a/Jfi
10,6 - 12,29
0,85/fi4
= - 17, 10.
In accordo con la Tabella A.3, l'area a sini-
stra di z = - 17,10 minore di 0,001. Poich
questo valore p minore di a = 0,05, rifiu-
ti amo l'ipotesi nulla:
Ho : Jl?:' 12,29 gllOO mi
in favore dell'alternativa. Poich abbiamo
eseguito un test unilateral e, qualsiasi valore di
z inferiore o uguale al valore critico -1,645 ci
avrebbe portato a rifiutare l' ipotesi nulla. (Si
noti inoltre che 12,29 maggiore di 10,8, l' in-
tervallo di confidenza unilaterale al 95% per
Il calcolato nel Capitolo 9).
In questo esempio, l'ipotesi nulla stata
scelta per testare se il livello medio di emo-
globina della popolazione di bambini che
sono stati esposti al piombo uguale al valore
di 12,29 gl 100 mI della popolazione generale.
Rifiutando Ho, concludiamo che non cos; il
livello medio di emoglobina dei bambini che
sono stati esposti al piombo in realt mi-
nore del livello medio dei bambini che non
sono stati esposti.
La scel ta tra un test unilaterale o bilaterale
pu essere estremamente controversa. Non di
rado, il test unilaterale raggiunge la significa-
tivit quando il test bilaterale non la rag-
giunge. Pertanto, la decisione spesso presa
su basi non scientifiche. Per questo motivo,
alcune riviste scientifiche sono riluttanti a
pubblicare studi che utilizzano test unilate-
rali. Questa pu essere una reazione ecces-
siva, considerata la capacit di un lettore in-
telligente di valutare l'opportunit di tale
scelta. In ogni caso, preferiamo evitare ulte-
riori discussioni su questo tema.
TEST DI IPOTESI
10.4 TIPI DI ERRORE
Come abbiamo gi osservato nel Paragrafo
10.1, quando eseguiamo un tes t di ipotesi,
possono essere commessi due tipi di errore. Il
primo denominato errore di I tipo, noto an-
che come errore a. Si commette un errore di I
tipo se rifiutiamo l' ipotesi nulla:
Ho: J.1. = J.1. o
quando Ho vera. La' probabilit di commet-
tere un errore di I tipo determinata dal li-
vell o di significativit del test; si ricordi che:
a = P(rifi utare Ho I Ho vera).
Se esegui ssimo ripetuti ed indipendenti test
di ipotesi fissando il livell o di signifi cativit a
0,05, rifiuteremmo erroneamente un'ipotesi
nulla vera il 5% dell e volte.
Si consideri il caso di un farmaco che si ri-
velato efficace nel trattamento dell 'iperten-
sione. Dopo il trattamento con questo far-
maco per un determinato periodo di tempo,
una popolazione di soggetti ipertesi ha una
pressione dias tolica media J-Ld, un valore cli ni -
camente inferiore a quello di soggetti ipertesi
non sottoposti ad alcun trattamento. Sup-
poniamo ora che un'altra ditta produca una
seconda versione dello stesso farmaco. Vo-
gliamo sapere se questo farmaco efficace nel
ridurre la pressione arteriosa quanto la ver-
sione ori ginale. Esaminiamo, quindi, la distri-
buzione delle pressioni diastoliche di un cam-
pione di soggetti trattati con il secondo far-
maco; se Il la media di questa popolazione,
utilizziamo il campione per testare l'ipotesi
nulla:
Ho: J.1.= J.1. o
Che cosa accade se il produttore del se-
condo farmaco sottopone al test il prodotto
originale? Ci quanto stato fatto in quat-
tro diverse occasioni dalla Vi tarine Pharma-
ceuticals, un'azienda farmaceutica con sede a
New York (7). In una situazione come que-
sta, sappiamo che l' ipotesi nulla deve essere
vera - stiamo testando il farmaco che esso
stesso lo standard. Pertanto, se il test di ipo-
TIPI DI ERRORE
tesi ci porta a rifiutare Ho ed affermare che il
secondo farmaco pi o meno efficace della
versione originale, stato commesso un er-
rore di I tipo.
I! secondo tipo di errore che pu essere
commesso eseguendo un test di ipotesi l'er-
rore di II tipo, noto anche come errore [3 (la
lettera greca beta). Si commette un errore di
II tipo quando non rifiutiamo l'ipotesi nulla:
Ho: f.1. = f.1. o
quando Ho falsa. La probabilit di commet-
tere un errore di II tipo :
[3 = P(non rifiutare Ho I Ho falsa).
Ad esempio, se [3 = 0,10, la probabilit di
non rifiutare l'ipotesi nulla quando Il .. Ilo
0,10, o il10%. I due tipi di errore sono di se-
guito riportati.
Popolazione
Risultato del test
Ipotesi non rifiutata
Ipotesi rifi utata
Corretto
Errore
di I tipo
Errore
di II tipo
Corretto
Si ricordi la distribuzione dei livelli di cole-
sterolo sierico della popolazione maschile ne-
gl i Stati Uniti di et compresa tra 20 e 74 anni.
La media di questa popolazione Il = 211
mg/ 100 mi e la deviazione standard (J = 46
mg/ 100 mI. Supponiamo di non conoscere la
media reale di questa popolazione; sappiamo,
per, che il livello medio di colesterolo sie-
rico della popolazione maschile di et com-
presa tra 20 e 24 anni 180 mg/100 mI. Poi-
ch i soggetti anziani tendono ad avere in me-
dia livelli di pi elevati rispetto ai
giovani, ci aspetteremmo che il livello medio
di colesterolo della popolazione di soggetti di
et compresa tra 20 e 74 anni sia pi elevato
di 180 mg/ 100 mI. Pertanto, se eseguissimo
un test unilaterale per testare l'ipotesi nulla:
Ho: f.1. =5 180 mg/IOO mI
contro l'ipotesi alternativa:
HA: f.1. > 180 mglIOO mI ,
185
ci aspetteremmo di dover rifiutare Ho. pos-
sibile, per, che ci non si verifichi. La pro-
babilit di trarre questa erronea conclusione
[3, un errore di II tipo.
Qual il valore di [3 associato ad un test di
ipotesi nulla:
Ho: f.1. =5 180 mg/lOO mI,
in un campione casuale di dimensione uguale
a 25? Per determinarlo, dobbiamo prima tro-
vare per quale valore medio del livello di co-
lesterolo sierico del nostro campione rifiute-
remmo l'ipotesi nulla. Poich stiamo ese-
guendo un test unil aterale ad un livello di si-
gnificativit ex = 0,05, l' ipotesi null a sarebbe
rifi utata per z 1,645; questo il valore cri-
tico del test. Scrivendo il test statistico:
x - f.1.o
z=(J/fo'
abbiamo:
I 645 = x - 180 ,
, 46/fiS
e, risolvendo per X:
x = 180 + I ,6Jis46)
25
= 195, 1.
Come si pu osservare in Figura 10.1, l'area
a destra di x = 195,1 corrisponde al 5% supe-
riore della distribuzione delle medie di cam-
pioni di dimensione uguale a 25 quando Il =
180. Pertanto, l'ipotesi nulla:
Ho: f.1. =5 180 mg/ lOO mI
sarebbe rifiutata se il nostro campione avesse
una media x maggiore o uguale a 195,1
mg/100 mI. Un campione con una media mi-
nore non fornirebbe sufficiente evidenza per
rifiutare Ho in favore di H A ad un livello di si-
gnificativit di 0,05.
Si ricordi che la probabilit di commettere
un errore di II tipo, o [3, la probabilit di
non rifiutare l'ipotesi nulla dato che Ho
falsa. Pertanto, la probabilit di ottenere
una media del campione minore di 195,1
mg/ 100 mI posto che la media reale della po-
186
180 195,1
Livello di colesterolo sierico (mg/l00 mI)
polazione non sia 180, ma bens 111 = 211
mg/100 mI. Per trovare il valore di [3, consi-
deriamo di nuovo la distribuzione delle me-
die dei campioni di dimensione uguale a 25;
questa volta, per, sia Il = 211. Questa distri-
buzione illustrata a destra in Figura 10.2.
Poich una media del campione minore di x =
195,1 mg/ 100 mI non ci farebbe rifiutare Ho,
vogliamo sapere quale proporzione di questa
nuova distribuzione centrata a 211 mg/100
mI minore di 195,1. Si osservi che:
195,1 -211 ,0
z=
46/fiS
= -1 ,73.
L'area sotto la curva normale standardiz-
180 195,1 211
Livello di colesterolo sierico (mg/l00 mI)
TEST DI IPOTESI
Figura 10.1 Distribuzione dell e medie di cam-
pioni di dimensione uguale a 25 per i li velli di co-
lesterolo sierico della popolazione maschile di et
compresa tra 20 e 74 anni , Il = 180 mg/ l 00 mI
zata a sinistra di z = -1,73 0,042. Pertanto,
[3 -la probabilit di non rifiutare:
Ho: p ::::; 180 mg/lOO mi
quando la media reale della popolazione
Il, = 211 mg/ 100 ml- uguale a 0,042.
Mentre a, la probabilit di commettere un
errore di I tipo, si veri fica quando Ho vera e
Il uguale a 11o, [3 si verifica quando Ho falsa
e Il non uguale a 110' Se Il non uguale a 11o,
per, esiste un numero infinito di valori che Il
potrebbe assumere. L'errore di II tipo cal-
colato per uno solo di questi valori, Il,; nel-
l'esempio precedente 111 era uguale a 211 mgl
100 ml. (Abbiamo scelto 211 perch nel no-
stro esempio sapevamo che tale valore era la
Figura 10.2 Distribuzione delle medie di cam-
pioni di dimensione uguale a 25 per i li velli di co-
lesterolo sierico della popolazione maschile di et
compresa tra 20 e 74 anni, Il = 180 mg/ l OO mI e
Il = 211 mg/ lOO mI
POTENZA
media reale della popolazione). Se avessimo
scelto una diversa media alternativa della po-
polazione, avremmo calcolato un diverso va-
lore di {3. Quanto pi tll vicina a tlo, tanto
pi difficile rifiutare l'ipotesi nulla.
10.5 POTENZA
Se {3 la probabilit di commettere un er-
rore di II tipo, 1 - {3 la potenza del test di
ipotesi. La potenza la probabilit di rifiutare
Ho quando l'ipotesi nulla falsa. In altre pa-
role, la probabilit di evitare un errore di II
tipo:
potenza = P(rifiutare Ho I Ho falsa).
La potenza pu anche essere intesa come la
probabilit che un particolare studio sia in
grado di individuare una deviazione dall'ipo-
tesi nulla nel caso in cui esista. Come {3, la po-
tenza deve essere calcolata per una particolare
media alternativa della popolazione tll '
N ell' esempio precedente del colesterolo
sierico, la potenza del test di ipotesi unilate-
rale :
I - fJ = I - 0,042
= 0,958.
Pertanto, c' una probabilit del 95,8%, per
un test condotto ad un livello di significati-
Figura 10.3 Curva di potenza per ).lo = 180,
a = 0,05 e n = 25
u
'"
H
"iJ
"O
'"
N
c:
<!)
o
r:o...
0,8
0,6
0,4
0.2
O
180
187
vit di 0,05 con un campione di dimensione
uguale a 25, di rifiutare l'ipotesi nulla:
Ho : f.1:S 180 mg/IOO mi
posto che Ho sia falsa e che la media reale
della popolazione sia tll = 211 mg/100 mI. Si
noti che ci potrebbe anche essere espresso
nel modo seguente:
potenza = P(rifiutare tl :5 180 I tl = 211)
= P(X 2: 195,1 I tl = 211)
= P(Z 2: -1,73)
= 1 - P(Z < -1,73)
= 1 - 0,042
= 0,958.
La quantit 1 - {3 avrebbe assunto un valore
diverso se avessimo fissato tll uguale a 200
mgll00 mI ed ancora un altro valore se aves-
simo fissato tll a 220 mgll00 mI. Se traccias-
simo i valori di 1 - {3 in funzione di tutte le
possibili medie alternative della popolazione,
otterremmo una curva nota come curva di
potenza. Una curva di potenza per il test con
ipotesi nulla:
Ho: f.1:S 180 mg/IOO mi
illustrata in Figura 10.3. Si noti che quando
tll = 180:
potenza = P(rifiutare tl:5 180 I tl = 180)
= P(rifiutare tl:5 180 I Ho vera)
=a
= 0,05.
190 200 210 220 230
Media alternativa della popolazione (mg/l00 mi)
188
La potenza del test si avvicina a 1 quando la
media alternativa si allontana progressiva-
mente dal valore nullo di 180 mgl 100 mI.
I ricercatori, in genere, cercano di program-
mare test di ipotesi con una elevata potenza.
Non sufficiente sapere che abbiamo una ri-
dotta probabilit di rifiutare Ho quando essa
vera; vorremmo che vi fosse anohe una ele-
vata probabilit di rifiutare l'ipotesi nulla
quando falsa. In quasi tutte le applicazioni
pratiche, considerata insufficiente una po-
tenza inferiore all'80%. Un modo per au-
mentare la potenza di un test aumentare il
livello di significativit a. Se aumentiamo a,
delimitiamo una porzione minore della coda
della distribuzione campionaria centrata in
J.11. In tal modo, {3 diventa pi piccolo e la po-
tenza, 1 - {3, aumenta. Se a fosse stato uguale
a 0,10 per il test di ipotesi nulla:
Ho : J.I 180 mg/lOO mi,
ad esempio, {3 sarebbe stato 0,018 e la potenza
0,982. Questa situazione illustrata in Figura
10.4; confrontiamola con la Figura 10.2, dove
a era uguale a 0,05. Si ricordi, per, che au-
mentando a aumenta la probabilit di com-
mettere un errore di I tipo.
Questo compromesso tra a e {3 simile a
quello tra sensibilit e specificit di un test
diagnostico. Si ricordi che aumentando la
sensibilit di un test diagnostico, automatica-
mente diminuisce la specificit e viceversa.
180 191,8 21 1
Livello di colesterolo sierico (mg/100 mi)
TEST DI IPOTESI
Ci si verifica anche per a e {3. L'equilibrio
tra i due tipi di errore delicato e la loro im-
portanza varia a seconda della situazione. Nel
1692, durante il periodo dei processi alle stre-
ghe a Salem, Increase Mather pubblic un
sermone, firmato insieme ad altri 14 parroci,
in cui affermava (8):
Sarebbe preferibile che dieci donne sospettate di
stregoneria riuscissero a salvarsi piuttosto che
una sola innocente venisse condannata.
Nel diciottesimo secolo, Benjamin Franklin
disse:
meglio che 100 colpevoli riescano a salvarsi
piuttosto che un solo innocente debba soffrire.
Pi recentemente, per, un editoriale sul-
l'abuso ai minori ha affermato che 'ugual-
mente importante' individuare e punire i col-
pevoli di molestie ai bambini e scagionare co-
loro che sono stati ingiustamente accusati (9).
Maggiori informazioni abbiamo - cio pi
grande il campione - minori saranno le pro-
babilit di commettere errori. Nonostante le
migliori intenzioni, per, esiste sempre la
possibilit di aver commesso un errore.
I! solo modo per diminuire contempora-
neamente a e {3 ridurre la sovrapposizione
tra le due distribuzioni normali, quella cen-
trata in J.1o e quella centrata in J.11. Un modo
per ottenere ci considerare solo ampie de-
viazioni da J.1o. Pi distanti sono i valori di J.1o
Figura 10.4 Distribuzioni dell e medie di cam-
pioni di dimensione ugual e a 25 per i li vell i di
colesterolo sierico della popolazione maschile di
et compresa tra 20 e 74 anni, f.1 = 180 mg/100 mi
e f.1 = 211 mg/ 100 mi
STIMA DELLA DIMENSI ONE DEL CAMPIONE
e J11' maggiore la potenza del tes t. Un'alter-
nativa aumentare la dimensione del cam-
pione n. Aumentando n, riduciamo l'errore
standard (5IJn; ci determina una riduzione
dell' ampi ezza dell e due distribuzioni cam-
pionarie e, pertanto, una riduzione della so-
vrapposizione. L'errore standard si riduce,
inoltre, se riduciamo la deviazione standard (5
della popolazione, ma ci non di solito pos-
sibile. Un'altra possibilit che non abbiamo
esaminato quella di trovare un test stati stico
' pi potente'. Ques to argomento sar ap-
profondito nel Capitolo 13.
10.6 STIMA DELLA DIMENSIONE DEL
CAMPIONE
Nel paragrafo precedente abbiamo studi ato
come calcolare la potenza di un test condotto
ad un livello ex usando un campione di di -
mensione n. Nella pianificazione di uno stu-
dio, i ricercatori devono ribaltare la situa-
zione e determinare la dimensione del cam-
pione necessaria a fornire una determinata
potenza. Ad esempio, supponiamo di voler
testare l'ipotesi null a:
Ho: Il:S 180 mg/lOO mi
ad un livello di signifi cativit ex = 0,01. An-
cora una volta, J1 il livello medio di coleste-
rolo sierico della popolazione maschile negli
Stati Uniti di et compresa tra 20 e 74 anni; la
deviazione standard (5 = 46 mgl 100 mI. Se la
media reale dell a popolazione pari a 211
mgl 100 mI, vogliamo correre un rischi o non
superiore al 5% di non rifiutare l'ipotesi
nulla; pertanto, fissiamo f3 uguale a 0,05 e la
potenza del test a 0,95. In queste circostanze,
quanto deve essere grande il campione?
Poich ex = 0,01, prima di tutto notiamo che
Ho sarebbe rifiutata per Z 2,32. Sostituendo
(x - 180)/ ( 46/Jn) alla deviata normale z, ab-
biamo:
z = 2,32
x - 180
- 46/..fo .
Risolvendo per X:
189
x = 180 +
Pertanto, rifiuteremmo l'ipotesi nulla se la
media del campione x fosse maggiore o
uguale a 180 + 2,32 (46/Jn).
Consideriamo ora la potenza desiderata del
test. Se il reale livello medio di colesterolo
sierico fosse J11 = 211 mgl 100 mI - cos che la
deviata normale z potesse essere espressa
come (x - 211) /(46/Jn) - vogliamo rifiutare
l'ipotesi nulla con una probabilit 1 - f3 = 1 -
0,05 = 0,95. Il valore di z che corrisponde a f3
= 0,05 z = -1,645; pertanto:
e
z = - 1,645
x - 2 11
- 46/.jfi
x = 211 -
Uguagliando le due espressioni per la me-
dia del campione X:
180 + 2,32(46) = 211 - 1,.645(46).
.jfi ..fo
Moltiplicando entrambi i termini dell'equa-
zione per Jn e raggruppando i termini:
.jfi(211 - 180)= [2,32 - (- 1,645)](46)
e
= [(2,32 + 1,645)(46) J
2
n (211 - 180)
= 34,6.
Per convenzione, nel calcolo della dimen-
sione del campione si arrotonda sempre alla
cifra intera superiore. Pertanto, necessario
un campione di dimensione uguale a 35.
Utilizzando la notazione introdotta nel Ca-
pitolo 9, possibile scrivere una formula pi
generale per calcolare la dimensione del cam-
pione. Si ricordi che Za rappresenta il valore
che delimita un'area di ex nella coda superiore
della distribuzione normale standardizzata,
mentre - za il valore che delimita un'area
di ex nella coda inferiore della distribuzione.
Se eseguiamo un test unilaterale per l' ipotesi
nulla:
190
Ho: J1.:S J1. o
contro l'alternativa:
Ho : J1.>J1.o
a livello ex di significativit, Ho sarebbe rifiu-
tata per qualsiasi test statistico che assume un
valore di Z ~ Za' Allo stesso modo, conside-
rando la potenza desiderata del test 1 - [3, il
valore generico di Z che corrisponde ad una
probabilit [3 Z = -z fi' Le due espressioni per
.\:sono:
e
ed uguagliandole:
11 = [[Zo - (-Zp)](0') J
2
CJ1.\ - J1.o)
= [(Zo + Zp)(0' )J
2
Vii - J1. o)
Questa la dimensione del campione ne-
cessaria per ottenere una potenza di 1 - [3
quando eseguiamo un test unilaterale ad un
livello ex.
Diversi fattori influenzano la dimensione di
n. Se riduciamo l'errore ex di I tipo, allora Zw
il punto di cut off per rifiutare Ho, aumenta e
ci si traduce in un aumento della dimensione
del campi one. Allo stesso modo, se ridu-
ciamo l' errore [3 di II tipo o aumentiamo la
potenza, il corrispondente valore di -zp di -
venta pi piccolo o pi negativo. Ancora una
volta ci richiederebbe un valore pi elevato
di n. Se consideriamo una media alternativa
della popolazione pi vicina al valore ipotiz-
zato, la differenza 111 - 110 diminuisce e la di-
mensione del campione aumenta. D'altra par-
te logico aspettarsi di avere bisogno di un
campione pi grande per evidenziare una dif-
ferenza pi piccola. Infine, maggiore la va-
riabilit della popolazione originaria 0', tanto
maggiore sar la dimensione del campione.
N elI' esempio del livello di colesterolo si e-
TEST DJ JPOTESr
rico, sapevamo che la media ipoti zzata della
popolazione 110 doveva essere minore della
media alternativa 111; pertanto, abbiamo ese-
guito un test unilaterale. Se non si sa se 110
maggiore o minore di 111' pi appropriato
un test bilaterale. In questo caso, dobbiamo
modificare il valore critico di Z che detenni-
nerebbe il rifiuto dell'ipotesi nulla. Ad esem-
pio, quando ex = 0,01:
Ho: J1. = 180 mglIOO mi
sarebbe rifiutata per Z ~ 2,58 e non per z ;:;,
2,32. Sostituendo questo valore nell'equa-
zione precedente:
Il = [ (2,58 + 1,645)(46) J2
(21 1 - 180)
= 39,3,
sarebbe necessario un campione di dimen-
sione uguale a 40. Pi generalmente, Ho sa-
rebbe rifiutata ad un livell o ex per Z ;:;, za/2 (ed
anche per Z :5 -Za/2) e la formula dell a dimen-
sione del campione diventa:
11 = [ ~ 0 / 2 + 213)(0') J2
CJ1.1 - Po)
Si noti che la dimensione del campione per
un test bilaterale sempre maggiore della
corrispondente dimensione del campione per
un tes t unilaterale.
10.7 ULTERIORI APPLICAZIONI
Si consideri nuovamente la distribuzione
dell e altezze della popolazione di soggetti di
et compresa tra 12 e 40 anni affetti da sin-
drome alcolica fetal e. La distribuzione ap-
prossimativamente normale con media Il non
nota e deviazione standard O' = 6 centimetri
(lO). Potremmo voler sapere se l'altezza me-
dia di questa popolazione uguale all'altezza
media di soggetti dello stesso gruppo di et
non affetti da sindrome alcolica fetale.
Prima di eseguire un test di ipotesi neces-
sario stabilire il valore di 110' Poich l'altezza
media dei soggetti non affetti da sindrome al-
colica fetale di questa fascia di et 160,0 cm,
l'ipotesi nulla :
ULTERIORI APPLICAZION I
Ho: J1 = 160,0 cm.
Siamo interessati alle deviazioni da f.1o che
potrebbero verificarsi in entrambe le dire-
zioni; pertanto, eseguiamo un test bilaterale
ad un livello di significativit o:: = 0,05. L'ipo-
tesi alternativa :
HA: Il =1= 160,0 cm.
Per un campione casuale di 31 soggetti sele-
zionati dalla popolazione di et compresa tra
12 e 40 anni affetti da sindrome alcolica fetale,
l'al tezza media x = 147,4 cm. Se l'altezza
media reale di questo gruppo j1. = 160,0 cm,
qual la probabilit di selezionare un cam-
pione casuale con una medi a di 147,4? Per ri-
spondere a questa domanda, calcoliamo il test
statistico:
x - J10
z=---
a/,;n
_ 147,4 - 160,0
- 6/[31
= -11 ,69.
Utilizziamo un test z anzich un test t per-
ch il valore di (J noto. Poich z il risultato
di una variabile casuale normale standardiz-
zata, consultiamo la Tabella A.3 e troviamo
che l'area a sinistra di z = - 11,69 ed a destra
di z = Il,69 molto minore di 0,001. Poich P
< 0,05, rifiutiamo l'ipotesi nulla ad un livello
di significativit di 0,05. Il campione casuale
fornisce suffici ente evidenza che l'altezza me-
dia della popolazione di soggetti affetti da
sindrome alcolica fetale diversa dall'altezza
media dei soggetti sani; i soggetti con sindro-
me alcolica fetale tendono ad essere pi bassi.
Per eseguire il test di i.potesi avremmo po-
tuto utilizzare il computer. La Tabella 10.1
mostra i risultati ottenuti con Minitab, che
riaffermano l'ipotesi nulla e l'ipotesi alterna-
tiva e la deviazione standard (J presunta; esso
191
fornisce poi varie misure di sintesi, il test sta-
tistico z ed il valore p del test. Minitab non ci
offre, per, alcuna conclusione, che lasciata
all'utente.
Un altro approccio al problema consiste nel
calcolare un intervallo di confidenza per j1.,
l'altezza media reale della popolazione di
soggetti di et compresa tra 12 e 40 anni af-
fetti da sindrome alcolica fetale. Nel Capitolo
9, un intervallo di confidenza bilaterale al
95% per !l. era:
(145,3, 149.5).
Poich questo intervallo non contiene il va-
lore 160,0, sappiamo che l'ipotesi nulla:
Ho: J1 = 160,0 cm
sarebbe rifiutata in favore di HA ad un livello
di significativit o:: = 0,05.
Quando non nota la deviazione standard
di una popolazione, utilizziamo la deviazione
standard 5 del campione al posto di (J per ese-
guire un test di ipotesi. Si con ideri la distri-
buzione della concentrazione di benzene -
una sostanza chimica dannosa per l'uomo -
in una determinata marca di sigari. Questa di-
stribuzione approssimativamente normale
con una media j1. ed una deviazione standard
(J non note. Sappiamo che la concentrazione
media di benzene in una marca di sigarette
utilizzata come standard 81 j1.g/g di tabacco
(11). Vogliamo sapere se la concentrazione
media di benzene nei sigari uguale a quella
nelle sigarette. A tal fine, tes tiamo l'ipotesi
nulla:
Ho: Il = 8 LJ1gJg.
Siamo interessati alle deviazioni dalla media
in entrambe le direzioni e, pertanto, ese-
guiamo un test bilaterale ad un livello di si -
gnificativit o:: = 0,05. L'ipotesi alternativa :
Tabella 10.1 Risultati di Minitab che illustrano il test z
TEST OF MU = 160.0 VS MU N.E. 160.0
THE ASSUMED SIGMA = 6.0
HEIGHT
N
31
MEAN
147.4
STDEV
6.000
SE MEAN
1. 078
Z
-11. 69
P VALUE
0.000
192
Un campione casuale di 7 sigari ha una con-
centrazione media di benzene x = 151 J1g1 g ed
una deviazione standard 5 = 9 J1g/g. possi-
bile che queste osservazioni derivino da una
popolazione con media J1 = 81 J1g/g? A tal
fine, calcoli amo il test statistico:
x - 110
t=--
sl.;n
151 - 81
91n
= 20,6.
Il test statistico t il risultato di una varia-
bile casuale che ha una distribuzione t con
7-1 = 6 gradi di libert. Consultiamo la Ta-
bella A.4 e notiamo che l'area totale sotto la
curva a sinistra di -20,6 ed a des tra di 20,6
minore di 0,001. Poich P < 0,05, rifiutiamo
l'ipotesi null a. Il campione casuale di dimen-
sione uguale a 7 suggerisce che i sigari hanno
una concentrazione di benzene pi elevata ri-
spetto alle sigarette.
La Tabella 10.2 fornisce i risultati ottenuti
con lo Stata. La parte inferiore dell a tabella ri -
porta il test statistico ed il valore p del test per
tre diverse ipotesi alternative; la parte centrale
si riferisce al test bilaterale, mentre ai lati della
tabell a sono riportati i due possibili test uni -
laterali. (Si ricordi che avevamo dovuto preli-
minarmente indicare a quale tipo di test era-
TEST DI fPOTESI
vamo interessati). Inoltre, Stata illustra l' in-
tervallo di confidenza al 95% per la media
reale J1 della popolazione.
Si ricordi la distribuzione dei livelli di emo-
globina dell a popolazione di bambini al di
sotto di 6 anni che sono stati espos ti ad ele-
vati livelli di piombo. La media di questa po-
polazione J1 = 10,60 gl100 mi e la devia-
zione standard (J = 0,85 gl100 ml. Suppo-
niamo di non o n o s ~ r e la media reale J.i, della
popolazione; tuttavia, sappiamo che il livello
medio di emoglobina dell a popolazione gene-
rale di bambini al di sotto di 6 anni 12,29
gl 100 ml. Se dovessimo eseguire un tes t di
ipotesi nulla:
Ho: 11 = 12,29 gli 00 mi ,
ci aspetteremmo che questa falsa ipotesi sia
rifiutata. Assumendo di selezionar e dalla po-
polazione di bambini che sono stati esposti al
piombo un campione casuale molto piccolo di
dimensione uguale a 5, qual la probabi lit di
commettere un errore di II tipo - cio di non
rifiutare Ho quando essa falsa - posto che la
media reale dell a popolazione sia J11 = 10,60
gl 100 mi ?
Per rispondere a questa domanda, prima di
tutto troviamo il livello medio di emoglobina
che il campione deve avere affinch Ho sia
rifiutata. Riteniamo che il livello medio di
emoglobina dei bambini che sono stati espo-
sti al piombo debba essere inferiore a quello
dei bambini non esposti. Se eseguiamo un
Tabella 10.2 Risultati dello Stata che illustrano il test t
One-sample t test Nwnber of obs 7
Variable Mean Std. Err. t P > Itl [95% Conf. Interval]
benzene 151 3.40168 44.3898 0.0000
Degrees of freedom: 6
Ha: mean < 81
t = 20.5781
p < t = 1. 0000
Ho: mean(benzene) 81
Ha: mean -= 81
t = 20.5781
p > Itl = 0.0000
142.6764 159.3236
Ha: mean > 81
t = 20.5781
p > t = 0.0000
ULTERIORI APPLICAZIONI
tes t unilaterale ad un livell o di significativit
iX = 0,05, l' ipotesi null a sarebbe rifiutata per
Z :5 -1,645. Poich:
x - IlO
z= ---
(Jj..fo '
abbiamo:
e
z = - ),645
x - 12,29
0,85 j fS
x = 12,29 - 1,64/s,8S )
= Il ,66.
Pertanto, l'ipotesi null a:
Ho: Il"?. 12,29 gli 00 mi
sarebbe rifi utata in favore dell'alternativa:
HA: Il < 12,29 g/lOO mi
se il campione di dimensione uguale a 5
avesse u na media x minore o uguale a 11,66
gl100 mI. Questa area corrisponde al 5% in-
feriore dell a dis trib uzione dell e medie dei
campioni di dimensione uguale a 5 quando J1
= 12,29 gl100 mI ed illustrata in Figura 10. 5.
[3 la probabilit di commettere un errore
Figu ra 10.5 Distribuzione dell e medi e di cam-
pioni di dimensione uguale a 5 per i li velli di
emoglobina di bambini al di sotto di 6 anni, Il =
10,60 gl lOO mi e .u = 12,29 gl l OO mi
193
di II tipo O non rifiutare Ho posto che essa sia
falsa e che la medi a reale della popolazione sia
J1 , = 10,60 gl 100 mI. Per trovare [3, conside-
riamo la distribuzione delle medi e dei cam-
pioni di dimensione uguale a 5 quando J1 =
10,60 gl 100 mI. Poich una medi a del cam-
pione maggiore di 11 ,66 gl 100 mi ci porte-
rebbe a non rifiutare Ho, dobbiamo determi -
nare qual e proporzione della distribuzione
centrata in 10,60 gl 100 mI si trova alla destra
di 11,66. Si osservi che:
z =
11 ,66- 10,60
0,8s j fS
= 2,79.
In accordo con la Tabella A.3, troviamo che
l'area sotto la curva normale standardizzata
che si trova a des tra di Z = 2,79 0,003. Per-
tanto, [3 uguale a 0,003.
La potenza del test - o la probabilit di ri-
fi utare l' ipotesi nulla posto che Ho sia falsa e
la media reale della popolazione sia J11 = 10,60
gl100 ml - :
I - fJ = l - 0,003
= 0,997.
Anche con un campIOne di dimensione
uguale a 5, siamo quas i certi di rifiutare Ho.
Ci si verifica anche perch la deviazione
standard della popolazione ori ginaria picco-
la ri spetto alla differenza tra le medie J11 - J1o.
10,6 11 ,66 12,29
Livello di emoglobina (gl i 00 mi )
194
Supponiamo di pianificare un nuovo studio
per tentare di determinare il livello medio di
emoglobina per la popolazione di bambini al
di sotto di 6 anni che sono stati esposti ad ele-
vati livelli di piombo. Sappiamo che la popo-
lazione generale di bambini in questo gruppo
di et ha un livello medio di emoglobina 11 =
12,29 gl100 mi e deviazione standard O' = 0,85
gl100 mI. Se il reale livello medio di emoglo-
bina nei bambini esposti 0,5 gl100 mi pi
basso di quello dei bambini non esposti, vo-
gliamo che il test abbia una potenza dell '80%
di individuare questa differenza. Vogliamo
eseguire un test unilaterale ad un livello di si-
gnificativit ex = 0,05. Quale deve essere la di-
mensione del campione?
Poich un test unilaterale sar eseguito ad
un livello di significativit ex = 0,05, z(1 =
1,645. Vogliamo che il test abbia una potenza
di 0,80; pertanto, f3 = 0,20 e z{3 = 0,84. La me-
dia ipotizzata della popolazione 110 = 12,29
gl100 mI e la media alternativa pi piccola
di 0,5 unit, 0111 = 11,79 gl 100 mI. Non co-
nosciamo la deviazione standard dei livelli di
emoglobina nei bambini esposti, ma assu-
miamo che sia uguale a quella dei bambini
non esposti. Pertanto, 0'= 0,85 gl100 mI. Per-
tanto:
11 = [ (l" + ZfJ )(0') J2
CuI - IlO)
= [(1,645 + 0,84)(0,85)J
2
(11 ,79 - 12,29)
= 17,.8.
Sarebbe, pertanto, necessario un campione
di dimensione uguale a 18.
10.8 ESERCIZI
1. Qual l'obiettivo di un test di ipotesi?
2. Il test di ipotesi in grado di provare
un'ipotesi nulla? Spiegare.
3. Che cos' il valore p? Che cosa significa?
4. Illustrare brevemente la relazione tra in-
tervallo di confidenza e test di ipotesi.
TEST Dr IPOTEsr
5. In quali casi possibile utili zzare un test
di ipotesi unilaterale anzich un test bilate-
rale?
6. Descrivere i due tipi di errore che pos-
sibile commettere eseguendo un test di ipo-
tesI.
7. Illustrare l'analogia tra errore di I tipo ed
errore di II tipo in un test di ipotesi e falsi po-
sitivi e falsi negativi nei' test diagnostici.
8. Elencare quattro fattori che influenzano
la potenza di un test.
9. La distribuzione delle pressioni diastoli-
che della popolazione di donne diabetiche di
et compresa tra 30 e 34 anni ha una media I1d
non nota ed una deviazione standard O'd = 9,1
mm Hg. Pu essere utile ai medici sapere se la
media di questa popolazione uguale alla
pressione diastolica media di 74,4 mm Hg
della popolazione generale di donne di questa
fascia di et (12).
a. Qual l'ipotesi nulla del test?
b. Qual l'ipotesi alternativa?
c. Si seleziona un campione casuale di dieci
donne di abetiche; la loro pressione diasto-
lica media xd = 84 mm Hg. Utilizzando
questa informazione, eseguire un test bila-
terale ad un livello di significativit ex =
0,05. Qual il valore p del test?
d. Quale conclusione si pu trarre dai risul-
tati del test?
e. La conclusione sarebbe stata diversa con ex
= 0,01 invece di ex = 0,05?
lO. L'infezione da E. canis una malattia
parassitaria dei cani che talvolta viene con-
tratta dagli uomini. Tra gli uomini infetti, la
distribuzione dei valori dei globuli bianchi ha
una media 11 ed una deviazione standard O'
non note. Nella popolazione generale, i glo-
buli bianchi sono in media 7.250/mm
3
(5). Si
ritiene che i soggetti infetti abbiano, in media,
un numero minore di globuli bianchi.
a. Quali sono le ipotesi nulla ed alternativa
per un test unilaterale?
b. Per un campione casuale di 15 soggetti in-
ESERCIZI
fetti, il numero medio di globuli bianchi
x = 4.767/ mm
3
e la deviazione standard 5
= 3.204/mm
3
(13). Eseguire il test ad un li-
vell o et = 0,05.
c. Che cosa si pu concludere?
11. L'indice di massa corporea calcolato
dividendo il peso di un soggetto per il qua-
drato dell a sua altezza; esso una misura del
grado di sovrappeso di un soggetto. Per la
popolazione di uomi ni di mezza et che svi-
lupperanno il diabete mellito, la distribuzione
degli indici di massa corporea basali appros-
simativamente normale con una media Il ed
una deviazione standard (J non note. Un cam-
pione casuale di 58 soggetti selezionati da
questo gruppo ha una media x = 25,0 kg/ m
2
ed una deviazione standard 5 = 2,7 kg/ m
2
(14).
a. Calcolare un intervallo di confidenza al
95% per la media J1 della popolazione.
b. Ad un li vello di significativit di 0,05, te-
stare se l'i ndi ce medio di massa corporea
basale della popolazione di soggetti di
mezza et che svi lupperanno il diabete
uguale a 24,0 kg/ m
2
, cio il valore medio
della popolazione che non sar affetta da
tale patologia. Q ual il valore p del test?
c. Che cosa si pu concludere?
d. In base all'intervall o di confidenza al 95%,
ci si sarebbe aspettati di dover rifiutare o
meno l'ipotesi null a? Perch?
12. La popolazione di maschi che lavorano
in industria a Londra e che non hanno mai
sofferto di patologia coronarica ha una pres-
sione sistolica media di 136 mm Hg ed una
pressione diastolica medi a di 84 mm Hg (15).
Siamo interessati a determinare se questi va-
lori siano uguali a q uelli di lavoratori maschi
che invece hanno sofferto di patologia coro-
nanca.
a. Un campione di 86 lavoratori che ha sof-
ferto di patologi a coronarica ha una pres-
sione sistolica media X
s
= 143 mm Hg ed
una deviazione standard 5
s
= 24,4 mm H g.
Testare l'ipotesi null a che la pressione si-
stoli ca media dell a popolazione di lavora-
195
tori che hanno sofferto di tale patologia
uguale alla medi a dei lavoratori che invece
non ne hanno sofferto, usando un test bila-
terale ad un livello di signifi cativit et =
0, 10.
b. Lo stesso campione di maschi ha una pres-
sione diastolica media xd = 87 mm Hg ed
una deviazione standard 5d = 16,0 mm Hg.
Testare l'ipotesi null a che la pressione di a-
stolica media della popolazione di lavora-
tori che hanno sofferto di patologia coro-
narica uguale alla media dei lavoratori
che invece non ne hanno sofferto.
c. Che cosa si pu concludere?
13. Nel corso degli anni, la Food and Drug
Administrarion degli Stati Uniti (FDA) ha
fatto molti sforzi per evitare di commettere
errori di II tipo. Un errore di II tipo si veri-
fica quando la FDA approva un farmaco che
poi non si rivela sicuro ed efficace. Malgrado
gli sforzi, tuttavia, sono stati compiuti degli
errori: ad esempio l' antibiotico Omniflox
stato ritirato dal mercato meno di sei mesi
dopo la sua immissione, a causa di gravi ef-
fetti collaterali, tra i quali addirittura alcuni
decessi. Allo stesso modo, stato scoperto
che il Fenoterol, un farmaco spray per la tera-
pia dell'asma, aumentava il rischio di decesso
(16). C' qualche possibilit che la FDA rie-
sca ad eliminare del tutto il rischio di errori di
II tipo? Spiegare.
14. I dati del Framingham Study ci consen-
tono di confrontare le distribuzioni dei livelli
ini ziali di colesterolo sierico per due popola-
zioni maschili: coloro che svilupperanno pa-
tologie coronariche e coloro che non le svi-
lupperanno. Il livello medio di colesterolo
sieri co dell a popolazione maschil e che non
svi lupper patologie coronariche Il = 219
mg/ l00 mi e la deviazione standard (J = 41
mg/100 mi (17). Supponi amo, per, di non
conoscere la media reale dell a popolazione;
ipotizziamo, invece, che Il sia uguale a 244
mg/ l00 mI. Questo il livello medio di cole-
sterolo sierico dei soggetti che probabilmente
svi lupperanno la mal atti a. Poich si riti ene
che il livell o medio di coles terolo sierico dei
196
soggetti che non svilupperanno la malattia
non possa essere superiore allivell o medio di
coloro che la svilupperanno, appropriato
eseguire un test unilaterale ad un livell o di si-
gnifi cativit a = 0,05.
a. Qual la probabilit di commettere un er-
rore di I tipo?
b. Se selezioniamo un campione casuale di di -
mensione uguale a 25 dall a popolazione
maschile che non svilupper patologia co-
ronarica, qual la probabili t di commet-
tere un errore di II tipo?
c. Qual la potenza del test?
d. Come si pu aumentare la potenza del
test ?
e. Testare l' ipotesi nulla:
Ho: /-l;?' 244 mg/lOO mi
contro l'alternativa:
HA: /-l < 244 mgllOO mi
ad un livello di significativit a = 0,05. Se la
media reale della popolazione pari a 219
mg/ l00 mI, si vuole correre un rischio del
5% di non rifiutare Ho. Di quale dimen-
sione deve essere il campi one?
f. Quanto dovrebbe essere grande il cam-
pi one se si volesse correre un rischio del
10% di non rifiutare un' ipotesi nulla falsa?
15. In orvegia, la di stribuzione del peso
alla nascita di neonati a termine la cui et ge-
stazionale 40 settimane approssimativa-
mente normale con media f.1. = 3.500 grammi e
deviazione standard <J = 430 grammi (18). Un
ricercatore decide di condurre uno studio per
determinare se il peso all a nascita di neonati a
termine le cui madri fu mavano durante la
gravidanza ha la stessa media. Se il peso me-
di o alla nascita dei neonati le cui madri fuma-
vano uguale a 3.200-3.800 grammi, il ricer-
catore vuole correre un rischio del 10% di
non scoprire questa differenza. Sar eseguito
un test bilaterale ad un livello di significati -
vi t a = 0,05. Quale deve essere la dimensione
del campione?
TEST DI IPOTE I
16. Le Bayley Scales of Infant Develop-
ment prevedono due criteri di valutazione -
l' Indi ce di Svil uppo Psicomotorio (PDI) e
l'Indi ce di Sviluppo Mentale (MDI) - che
possono essere utili zzati per valutare le pre-
stazioni di bambi ni di circa un anno di et.
N ei neonati nor mali, entrambi gli indici
hanno un valore medio di 100. Come parte
dello studi o te o a valutare lo sviluppo e lo
status neurologico di bambini che sono tati
sottoposti a chirurgia cardiaca riparativa du-
rante i primi tre mesi di vi ta, le Bail ey Scale
sono state sommini strate ad un campi one di
bambini di un anno con cardi opatia conge-
nita. I dati sono registrati nel CD all egato al
libro in un fi le chi amato heart (19) (Appen-
dice B, Tabella B.12); i punteggi PDI sono re-
gistrati nella variabile pdi, mentre i punteggi
MDI nell a var iabile mdi.
a. Ad un li vell o di signifi cativit a = 0,05, te-
stare l' ipotesi nulla che il punteggio medi o
PDI dei bambini con cardi opatia congenita
sottoposti a chirurgia cardiaca riparat iva
durante i pri mi tre mesi di vita sia uguale a
100, il punteggio medi o dei bambini sani .
Eseguire un tes t bilaterale. Qual il valore
p? Che cosa si pu concludere ?
b. Eseguire un analogo test di ipotesi per il
punteggio medi o MDI. Che cosa si pu
con cl udere?
c. Calcolare un intervallo di confidenza al
95% per il reale punteggio medi o PDI ed il
reale punteggio medio MDI per la popola-
zione di bambini con cardiopatia conge-
nita. Gli intervalli contengono il valore
100? Che cosa vi sareste aspettati?
Bibliografi a
1. NATI NAL E TER FOR HEALTI-I STATISTI ,
FULWOOD R., KALSBEEK W., RIFKIND B. , Rus-
SELL-BRIEFEL R., MUESI G R. , LAR A J., LI P-
PEL K.: Toral serum cholesteroll evels of adll lrs
20-74 years of age: Unired Srares, 1976-1980.
Vital and Health tatistics, Seri es 11 , Nllmber
236, May 1986.
2. GAUVREAU K., PAGANO M. : Why 5%? Nutri-
tian, 10:93-94, 1994.
BI BLIOGRAFIA
3. KAPLAN .M.: Strategies to reduce risk factors
in hypertensive patients who smoke. American
Heart Journal, 115:288-294, 1988.
4. Tsou V.M., YOUNG R.M., H ART M.H. , VAN-
DERHOOF l A.: Elevated plasma aluminum
levels in no rmal infants recei vi ng antacids
contall1l11 g aluminul1l . Pediatrics, 87: 148- 151,
1991.
5. N ATIONAL CENTER FOR H EALTH STATISTICS,
FULWO D R., ] 01-1 so c.L., BRYNER lD.,
GUNTER E.W., MCGRATI-l C.R.: H el1l atological
and nutritional biochemistry reference data for
person 6 mo nths-74 years of age: U nited Sta-
tes, 1976- 1980. Vital and H ealth Statistics, Se-
ries Il , umber 232, December 1982.
6. CLARK M., ROYAL J., SEELER R.: Interact ion of
iron deficiency and lead and t he hematologic
find ings in children with sever e lead po iso-
ning. Pediatrics, 81:247-253, 1988.
7. Firl1l adl1lits usi ng rival' s drug in test . The Bo-
ston Globe,]ul y 1:41, 1989.
8. DAVIDS lW., Lnu M.H. : Ajter the jact:
the art oj historical detection. Third Ed iti on,
Volume 1, ew York: McGraw Hill , Inc.
1992,26.
9. C hi ld abusc-and tri al abuse. The New York
Times, ] anuary 20:24, 1990.
10. STREISSGUTH A.P. , AAsE lM. , C LARREN S.K.,
RA DELS S.P. , LAD uE R.A., SMITI-l D .F.: Fetal
alcohol syndro me in adolescents and ad ults.
Journal oj the American Medical Associa.tion,
265:1961 - 1967, 1991.
11. ApPEL B.R., GUIRGUIS G. , KI M 1., GARBI O.,
FRACCHIA M., FLESSEL c.P., KIZER K.W., B OK
S.A., WARRINER T.E.: Benzene, benzo(a)py-
rene, and lead in smoke from tobacco products
ot her than cigarettes . American Journal oj Pu-
blic Health, 80:560-564, 1990.
12. KLEIN B.E.K., KLEIN R., Moss S.E.: Blood
pressure 111 a popu lation of diabeti c persons
197
diagnosed after 30 years of age. American
Journal oj Public Health, 74:336- 339, 1984.
13. ROHRBAcH B.W., H ARKESS lR., EWING S.A.,
KUDLAC J., Mc KEE G.L., ISTRE G.R.: Epide-
miologic and cl inical character istics of persons
wit h serologic evide nce of E. canis infecti on .
American Journal oj Public Health, 80:442-
445, 1990.
14. FESKE S E.lM., KROMHOUT D .: Cardiovascu-
lar ri sk factors and the 25 year incidence of
di abetes mell itu in middl e-aged meno Ameri-
can Journal oj Epidemiology, 130:11 01- 11 08,
1989.
15. MEADE T.W., COOPER lA., PEART W.S.: Pl a-
sma renin activity and ischemic heart disease.
The New England Journal oj Medicine, 329:
616-619,1993.
16. BURKI-l OLZ H.: The FDA jollies. New York:
Basic Books, 1994, 107- 113.
17. MACMAHON S.W. , MACDoNALD G.J.: A popu-
lati on at risk: prevalence of hi gh cholesterolle-
vels in hypertensive pat ients in the Framin-
gham Study. American Journal oj Medicine
Supplement, 80:40-47, 1986.
18. WI LCOX A.]., SKJ/ERVEN R.: Birth weight and
p erinatal mortal ity: t he effect of ges tational
age. American Journal oj Public Health,
82:378-382, 1992.
19. BELLI GER D. C., ] ONAS R.A., RApPAPORT L.A.,
WYPI] D ., WERNOVSKY G., KUBAN K.C.K.,
BARNES P.D., H OLMES G.L., H ICKEY P.R.,
STRAND R.D., WALSH A.Z., H ELMERS S.L. ,
CONSTA TINOV l E., CARRAZANA E.J., MAYER
l E., H ANLEY F.L., CASTANEDA A.R., WARElH. ,
E\'ifBURGER lW.: D evelopmental and neu-
rologic status of chi ldren after heart sur ge ry
with hy pothermic circulatory arrest or low-
fl ow cardiopul mo nary bypass. The New En-
gland Journal oj Medicine, 332:549-555, 1995.
Confronto tra due medie
Nel capitolo precedente abbiamo utilizzato
un test statistico di ipotesi per confrontare la
media non nota di una singola popolazione
con un prefissato valore J.1o noto. Nelle appli-
cazioni pratiche, per, la situazione pi co-
mune il confronto tra le medie di due di-
verse popolazioni, entrambe non note. I due
gruppi, spesso, hanno ricevuto diversi tratta-
menti o sono sottoposti a diverse esposizioni.
L'idea di confrontare popolazioni al fine di
trarre delle conclusioni sulle loro similitudini
o differenze nata centinaia di anni fa. Nel
sedicesimo secolo si riteneva, ad esempio, che
le ferite da arma da fuoco fossero suscettibili
di infezione e fosse pertanto necessario caute-
rizzarl e. La polvere da sparo stata utilizzata
per la prima volta su larga scala in Italia du-
rante l'invasione francese nel 1537. Ambroise
Par, chirurgo dell' esercito francese, parte-
cip a questa spedizione, la prima delle sue
esperienze professionali; leggiamo il suo re-
soconto su un attacco alla citt di Torino (1):
Tutti i soldati al Castello, vedendo i nostri uo-
mini arrivare con grande furia, si difesero stre-
nuamente ed uccisero e ferirono un gran nu-
mero di nostri soldati con picche, archibugi e
pietre, impegnando molto i chirurghi. lo ero a
quel tempo una recluta e non avevo ancora visto
la medicazione di ferite da arma da fuoco.
Avevo letto nel primo libro di Jean de Vigo dal
titolo 'Dell e ferite in generale', capitolo ottavo,
che le ferite da arma da fuoco sono velenose a
causa della polvere e che per il loro trattamento
si consiglia la cauteri zzazione con olio di sam-
buco bollente, in cui deve essere mescolata un
po' di tetiaca; sapendo che questo olio poteva
11
provocare un forte dolore al paziente, prima di
utilizzarlo, avrei voluto sapere come altri chi-
rurghi avevano eseguito la prima medicazione,
applicando sull e ferite l'olio molto caldo, per
trovare il coraggio di comportarmi all o stesso
modo. Alla fine il mio olio non fu sufficiente e
fui costretto ad applicare un digestivo composto
da tuorli d'uovo, olio di rose e trementina.
Quell a notte non riuscii a dormire, temendo, per
la mancata cauterizzazione, di trovare morti o
avvelenati i ferit i ai quali non avevo appli cato
l'olio; per questo motivo, mi alzai molto presto
per visitarli e, al di l di tutte le mie aspettative,
rilevai che coloro ai quali avevo applicato il di-
gestivo avvertivano poco dolore, le loro ferite
non erano infiammate o gonfie ed avevano ripo-
sato bene tutta la notte; gli altri, ai quali avevo
applicato l'oli o bollente, erano febbricitanti, con
forte dolore e gonfiore all e ferite. Da allora de-
cisi di non bruciare pi cos crudelmente i feriti
da arma da fuoco.
I risultati di questo confronto - uno dei
primi clinical trials documentati - furono
molto convincenti. Lo stesso si pu dire degli
studi tesi a valutare l' uso della penicillina nel
trattamento delle infezioni batteriche. Sfortu-
natamente, questi esperimenti sono l'ecce-
zione e non la regola; il progresso di solito
viene misurato molto pi lentamente.
Questo capitolo introduce una procedura
utilizzata p er valutare se le differenze os-
servate tra le medie di due campioni sono
troppo grandi per essere attribuite solo al
caso. Un test di ipotesi su due campioni per
molti versi simile ad un test condotto per un
singolo campione. Prima di tutto formuliamo
un'ipotesi nulla; nella maggior parte dei casi,
200
SIamo Interes ati a testare se le medi e delle
due popolazioni sono uguali. Calcoliamo,
poi, la probabilit di ottenere una coppia di
medie campi onarie cos differenti o ancora
pi differenti delle med ie osservate, posto che
l'ipotesi null a sia vera. Se questa probabilit
sufficientemente piccola, rifiutiamo l' ipotesi
nulla e concludiamo che le medie delle due
popolazioni sono diverse. Come in prece-
denza, dobbiamo stabi lire un livello di signi-
ficativit a e se siamo interessati ad un test
unil aterale o bilaterale. Il tipo di analisi di-
pende dalla natura delle due serie di osserva-
zioni; in particolare, dobbiamo determinare
se i dati derivano da campioni appaiati o indi-
pendenti.
11.1 CAMPIONI APPAIATI
La caratteri stica che distingue i campioni
appaiati che ad ogni osservazione nel primo
gruppo corrisponde un'osservazione nel se-
condo gruppo. Nella tecnica denominata
auto-appaiamento, le misurazioni sono ese-
guite su un singolo soggetto in due tempi di-
versi. Un esempi o comune di auto-appaia-
mento l'esperimento 'prima e dopo', in cui
ogni oggetto esaminato prima e dopo una
determinata procedura o trattamento. Un se-
condo tipo di appaiamento si verifica quando
un ricercatore appaia i soggetti di un gruppo
con quelli di un secondo gruppo cos che i
membri di una coppia sono il pi possibile si-
mili in relazione ad importanti caratteristiche
come l' et ed il sesso.
L'appaiamento spesso utilizzato per cer-
care di controllare fonti es tranee di variazione
che altrimenti possono influenzare i risul tati
del confronto. Se si eseguono due misurazio-
ni sullo stesso soggetto e non su due soggetti
diversi, si elimina una parte della variabilit
biologica. L' obietti vo dell'appaiamento, per-
tanto, di rendere il confronto pi preciso.
Si considerino i dati di uno studi o in cui 63
maschi adulti con patologia coronari ca sono
sottoposti ad una serie di test da sforzo in di -
verse occasioni. Il primo giorno il paziente
sottoposto ad un test da sforzo su tappeto
ONFRONTO TRA DUE MEDI
ruotante; si registra il tempo che intercon
dall 'inizio del tes t fino all'insorgenza dell'ar
gina, cio dolore o spasmi al torace. Il s ~
getto viene poi esposto all 'aria confinata p<
circa un'ora; subito dopo il soggetto sotte
posto ad un secondo test da forzo e si reg
st ra di nuovo il tempo fi no all ' insorgel12
dell 'angina. L'os ervazione che interessa :
riduzione percentuale del tempo per l'insol
genza dell'angina .tra il primo ed il second
test. Ad esempi ,se durante il primo test u
soggetto ha un attacco di angina dopo 983 s<
condi e durante il secondo test dopo 957 s<
condi, la rid uzione percentual e del tempo p<
l'insorgenza dell'angina :
983 - 957 = 0,026
983
= 2,6%.
La media non nota dell a popolazione e
questa distribuzione di riduzioni percentua
11 1; per i 63 pazienti del campione, la rid\;
zione percentuale media XI = 0,96% (2).
Lo stesso paziente sottoposto, un altr
giorno, ad una serie simi le di test. Ques!
volta, per, il paziente esposto ad una mi
scela di aria e monossido di carbonio nell'in
w"vallo tra i te t. La quantit di monossido e
carbonio aggiunto all' aria ha l'obiettivo e
aumentare il li vello di carbossiemoglobin;
una misura biologica dell'espo izione, del pa
ziente al 4%; questo livell o minore di quell
dei fumatori, ma simil e a quello di un sog
getto esposto al traffico automobil istico in
tenso in una zona con scarsa ventilazion<
Anche in questo caso l'o servazione che ime
ressa la riduzione percentuale del tempo pe
l'insorgenza dell 'angi na tra il primo ed il se
condo test. La med ia non nota di questa di
stribuzione J.12; la media del campione per
gruppo di 63 soggetti x
2
= 7,59%.
In Figura 11.1 illustrata la riduzione per
centuale del tempo per l' insorgenza dell'an
gina in ciascuna delle due occasioni per
primi dieci pazienti in studi o. Si noti che, pe
otto soggetti, la mi sura aumenta; per gli altI
due soggetti, diminuisce. Vorremmo deter
minare se c' evidenza di una differenza nell
CAMPiONI APPAI ATI
Figura 11.1 Ridu zione percenruale del
tempo per l' in orgenza dell 'angina in due
differenti occasioni per ciascuno dci di eci
soggetti maschi con patologia coronari ca
<U
'"
2
c
<U
u
c.
...
o..
<U
C
o
'r:;
:>
-o
i:2
201
40
30
20
IO
O
10
-20
-30
Aria confinata Monossido di carbo ni o
riduzione percentuale del tempo per l'insor- che i nostri due gruppi di osservazioni siano i
genza dell'angina tra l'esperimento in cui i seguentJ:
soggetti sono esposti a monossido di carbon io
e l'esperimento in cui ci non avviene. Poich
riteniamo che l'eccessiva esposizione al mo-
nossido di carbonio non pu essere salutare
per un soggetto, consideriamo le deviazioni
che si verificano in una sola direzione; condu-
ciamo, pertanto, un test unilaterale ad un li-
vello di significativit ex = 0,05. L'ipotesi nulla
:
o
e l'ipotesi alternativa :
In questo studi o, ogni paziente sottopo-
sto alla stessa serie di test con e senza esposi-
zione a monossido di carbonio. Q uesto auto-
appaiamento elimina le distorsioni che pos-
sono insorgere confrontando pazienti che
differiscono in relazione all' et, al peso o all a
gravit della patologia coronarica. Poich i
dati sono co tituiti da campioni appaiati , il
metodo appropriato di analisi il test t per
dati appaiati.
Invece d i considerare le due seri e di osser-
vazioni come campi oni di sti nti, ci concen-
triamo sull a differenza nell e Inisurazionj
all'interno di ciascuna coppia. Supponiamo
Campi o ne 1 Campi one 2
XII x l2
x2 1 x 22
x 31 x32
xn l x
n
2
In questi campioni, XII e X I 2 sono una cop-
pia, X21 e X22 un'altra coppia, e cos via. Uti-
li zziamo questi dati per creare una nuova se-
rie di osservazioni che rappresenta la di ffe-
renza all'interno di ciascuna coppia:
dI =XII - X1 2
d
2
= X 21 - X22
d
3
= x 3 1 - x }2
Invece di analizzare le osservazioni indivi-
duali, utili zziamo come variabile di intere se
la differenza tra i membri di ciascuna coppia.
Poich la differenza una misura singola,
l'analisi si riduce ad un campi one e possiamo
applicare la procedura del test di ipotesi di-
scussa nel Capitolo lO.
La media d i una serie di differenze :
, II
_ L i= 1 d i
d = --'
n '
202
questa media campionaria forni ce una stima
puntuale della reale differenza tra le medie
delle popolazioni P, I - P,2' La deviazione stan-
dard delle differenze :
2:..'.' (d - d)2
1= 1 l
n- I
Se indi chiamo la reale differenza nell e me-
die dell e popolazioni con:
6 = j./I - /12
e vogliamo testare se queste due medie sono
uguali, possiamo scrivere l'ipotesi nulla come:
e l'ipotesi alternati va come:
Assumendo che la popolazione delle diffe-
renze sia normalmente distribuita, Ho pu es-
sere testata calcolando il test statistico:
d - c)
t=-_
s,t! fo'
si noti che sd/.Jri l'errore standard di tI. Se
l' ipotesi nulla vera, ques ta quantit ha una
distribuzione t con n- l gradi di libert.
Confrontiamo il risultato di t con i valori ri-
portati in Tabella A.4 in Appendice A per
trovare p, la probabilit di osservare una dif-
ferenza media maggiore o uguale di J posto
che (5 = o. (O, come sempre, possi amo uti liz-
zare un computer per eseguire questi calcol i).
Se p s a, rifiutiamo Ho, mentre se p> ex, non
rifiutiamo l'ipotesi nulla.
Ritornando allo studio dei soggetti maschi
con patologia coronarica, ci concentriamo
sulla differenza nell e misurazioni di un de-
terminato soggetto. Pertanto, calcoliamo, per
ciascuno dei 63 soggetti nello studio, la ridu-
zione percentuale del tempo per l'i nsorgenza
dell'angina nel caso di esposizione a monos-
sido di carbonio meno la riduzione percen-
tuale nel caso di esposizione ad aria non con-
taminata. La media di queste differenze :
ONFRONTO TRA DUE MEDIE
= - 6,63,
e la deviazione standard :
, 63 (d - d)2
L , = I '
63 - I
= 20,29.
Come si p u osservare in Figura 11.2, le
differenze sono alq uanto sim metriche e pos-
sono essere considerate approssimativamente
normalmente di stribuite. Pertanto, se nscn-
viamo l'ipotesi nulla del test come:
Ho : ~ O,
possiamo testare Ho utili zzando il test stati-
Stico:
o
t = - 6,63 -O
20,29/ J63
= - 2,59.
In accordo con la Tabella A.4, os erviamo
che per una di stribuzione t con 63-1 = 62
gradi di libert, l'area sotto la curva a sinistra
di t
62
= -2,59 compresa tra 0,005 e 0,01. Per-
tanto, 0,005 < P < 0,01. Rifi utando l' ipotesi
null a al livell o di 0,05, concludi amo che c'
una differenza significati va tra la riduzione
percentuale media del tempo per l' insorgenza
dell' angina quando i pazienti sono esposti a
monossido di carbonio e la riduzione quando
i pazienti sono esposti ad aria non contami -
nata. L'esposizione a monossido di carbonio
aumenta la riduzione percentuale del tempo
per l'insorgenza dell 'angina; in altre parole, i
pazienti esposti tendono a sviluppare pi ra-
pidamente l'angina.
Come abbiamo gi detto, la media del cam-
pione J forni sce una stima puntuale della
reale differenza nell e medie delle popolazioni
(5 = J1 1 - P,2' Tuttavia, possiamo anche essere
CAMPIONI INDIPENDENTi
35
30
!j 25
"
CD
CD
20
:.u
o
15
'"
Z 10
5
O
203
Figura 11.2 Differenze nella riduzione per-
centuale del tempo per l' insorgenza dell ' an-
gina per un campi one di 63 soggetti maschi
con patologia coronari ca
____ ____ -L ____ ____ ____ L-__ __
-80
interessati a calcolare il limite superiore del-
l'intervallo di confidenza per 8. Per una di -
stribuzione t con 62 gradi di libert, il 95%
delle osservazioni giace al di sopra di -1,671.
Pertanto:

Sd ,fii
= 0,95.
U n intervallo di confidenza unilaterale al
95% per 8 :
O =s d + l ,671
,fii
= -6,63 + 1,671
y63
= -2,36.
Siamo confidenti al 95% che la reale diffe-
renza nelle medie delle p,opolazioni minore
o uguale a -2,36%. In altre parole, siamo con-
fidenti al 95% che la diminuzione del tempo
per l'insorgenza dell'angina dopo l'esposi-
zione a monossido di carbonio almeno del
2,36%.
11.2 CAMPIONI INDIPENDENTI
Supponiamo ora di avere le misurazioni del
livello di ferro sierico per due campioni di
-60 -40 -20 O 20 40
Differenze nella riduzione percentuale del tempo
per l'insorgenza dell'angina
60
bambini: un gruppo di sani e l'altro con fi-
brosi cistica, una patologia congenita delle
ghiandole mucose. Le due popolazioni origi-
narie sono indipendenti e normalmente di-
stribuite. Se la popolazione di bambini malati
ha un livello medio di ferro sierico f..ll e la po-
polazione di bambini sani ha una media f..lz,
possiamo essere ancora una volta interessati a
testare l'ipotesi nulla che le medie delle due
popolazioni sono uguali. Ci pu essere
espresso come:
o
Ho: J1, = J12'
L'ipotesi alternativa :
HA:J1,*J12'
Dalla popolazione normale con media f..ll e
deviazione standard <Y, selezioniamo un cam-
pione casuale di dimensione nl' La media di
questo campione indicata con XI e la devia-
zione standard con SI' Allo stesso modo, sele-
zioniamo un campione casuale di dimensione
nz dalla popolazione normale con media f..l z e
deviazione standard <Y
2
. La media di questo
campione indicata con Xz e la deviazione
standard con 5Z' Si noti che non necessario
che ciascun campione - n
l
e nz - abbia lo
stesso numero di osservazioni.
204
Gruppo 1 Gruppo 2
Popolazione
Media
f.11 112
Deviazione Standard
<JI <J2
amplOne
Media
Xl x2
Deviazione Standard
SI 52
Dimensione
nl n2
Il confronto di campioni indipendenti d
luogo a due diver e situazioni. ell a prima, le
varianze delle popolazioni originarie sono
uguali o si assume siano uguali. In questo
caso applichiamo il test t per due campioni,
molto utili zzato in letteratura. N ella seconda,
non si ass ume che le varianze sono uguali; in
questo caso, il tes t t standard non pi va-
lido. Prima di eseguire un test dell e medie,
molti ritengono che sia necessario condurre
un test preliminare dell e varianze per di stin-
guere queste due situazioni. Altri criticano le
basi teoriche di questo test: esso es trema-
mente sensibile alla assunzione di normalit
ed ha una carsa potenza in molte situazioni
in cui il test t non dovrebbe essere applicato
(3) . Inoltre, stato dimostrato che una modi-
fica del test per due campioni applicato senza
questa verifica ini ziale ha un'elevata potenza
in situazioni in cui non si sa se le varianze
delle popolazioni originarie sono uguali (4) .
Poich in genere inutile o inefficace, in que-
sto testo consi gli amo l' utili zzo di un test
preliminare delle varianze.
11.2.1 Varianze uguali
Prima di tutto consideriamo la si tuazione
in cui si sa o ragionevole assumere che le va-
rianze delle popolazioni sono uguali. Si ri-
cordi che per una singola popolazione nor-
male con media e deviazione standard <J, il
teorema del limite centrale afferma che la me-
di a campi onaria X ha una distribuzione ap-
prossimativamente normale - ass umendo che
n suffi cientemJnte grande - con medi a Il ed
errore standard d /n = <J/rn. Pertanto:
CONFRONTO TRA DUE MEDIE
il risultato di una variabile casuale normale
standardizzata. Quando operiamo con cam-
pioni di due popolazioni normali indipen-
denti, un'estensione del teorema del limite
centrale afferma che la di fferenza delle medie
campi onarie XI - X
2
approssimativamente
normal e con media f.11 - ed errore standard
Jdf / nl +dz/ n2' Poich si assume che le va-
rianze dell e popolazioni ono uguali, sosti-
tu iamo il valore comune d per <J
1
2
e <J}. Per-
tanto, sappiamo che:
(XI - X2) - (J11 - fl 2)
l = + (J2/n2
_ (XI - X2) - (J11 - fl 2)
- + ( l /n2)]
il risultato di una variabile casuale normale
standardi zzata. Se il valore della varianza
della popolazione d noto, que to test stati-
stico pu essere utili zzato per te tare l'ipotesi
nulla:
Ho: fii = fl 2'
Come notato in precedenza, molto pi
frequente che il valore reale di d non sia
noto. In questo caso, utili zziamo il test stati-
Sti co:
La quantit una stima 'pooled' della va-
rianza comune d. Sotto l'ipote i nulla che le
medi e delle popolazioni sono uguali, f.11 - f.12
uguale a O, ed il test stati sti co t ha una di tri-
buzione t con (nl - 1) + (n
2
- 1) = n
l
+ n2 - 2
gradi di libert. Confronti amo il valore di
questo te t statistico con i valo ri critici in Ta-
bell a A.4 per trovare p, la probabilit di os-
servare una discrepanza grande quanto XI - x2
posto che f.1 1 uguale a f.12' Se p :5 a, rifi uti amo
l' ipotesi nulla. Se p > a, non rifiutiamo Ho.
La stima ' pooled' dell a varianza, com-
bina le informazioni di entrambi i campioni
p er produrre una stima pi precisa di d. Essa
pu essere calcolata in due modi di fferenti . Se
conosciamo i valori di tutte le osservazioni
nei due campioni , appli chiamo la formula:
CAMPION I IN DIPEND ENTI
""I ( - )2 + " ", ( . - )2
2
Li= I Xii - XI L
j
: I .j2 - X2
5 =
{II/I + /7 2 - 2
Se conosciamo solo SI e 52' dobbiamo utiliz-
zare la formula:
? (17
1
- l )5T + (17
2
- l 5 ~
5- =
P
Questa seconda formula dimostra che si
in realt una media ponderata delle varianze
dei due campioni sf e si, dove ogni varianza
pesata dai gradi di libert ad essa associati. Se
/71 uguale a /72> 5: la semplice media aritme-
tica; altrimenti, si d maggior peso alla va-
rianza del campione pi grande. Ricordando
che:
e
""I ( - )'
L I Xii - XI -
52 = --'.'-=-'--------
I 111 - l
" n2 ( _ - )2
2 _ Lj=1 Xj2 X2
S2 -
172 - J
possiamo vedere che le due formule per cal-
colare si sono matematicamente equivalenti.
Per illustrare il test t per due campioni,
consideriamo le distribuzioni dei livelli di
ferro sierico della popolazione di bambini
sani e della popolazione di bambini con fi-
brosi cistica. Entrambe le distribuzioni sono
approssimativamente normali; si denoti il li-
Figura 11.3 Intervalli di confidenza al 95% per
i livelli mcdi di ferro sieri co di bambini sani e
bambini con fibrosi cisti ca
24
~
S
o
E 20
-3
o
t
. ~
2 16
...
~
'ii
..2
1! 12
;.::j
8
205
vello medio di ferro sierico dei bambini sani
con 111 e quello dei bambini malati con 112. Le
deviazioni standard delle due popolazioni -
(Jl e (J2 - non sono note, ma si assume siano
uguali. Vogliamo determinare se i bambini
con fibrosi cistica hanno un livello medio
normale di ferro ematico; pertanto, testiamo
l'ipotesi nulla che le medie delle due popola-
zioni sono uguali:
Selezioniamo un campione casuale da cia-
scuna popolazione. Il campione di /71 = 9
bambini sani ha un livello medio di ferro si e-
rico Xl = 18,9 I1mol/l ed una deviazione stan-
dard 51 = 5,9 I1mol/l; il campione di /72 = 13
bambini con fibrosi cistica ha un livello me-
dio di ferro sierico x2 = Il,9 I1molll ed una
deviazione standard 52 = 6,3 11m 0111 (5).
possibile che la differenza osservata nelle me-
die dei campioni - 18,9 e 11,9 I1molll - sia il
risultato della variabilit dovuta al caso, op-
pure dobbiamo concludere che la differenza
sia dovuta ad una reale differenza nelle medie
delle popolazioni?
In alcuni casi, si inizia l'analisi calcolando
un intervallo di confidenza distinto per la
media di ciascuna popolazione; ad esempio,
gli intervalli di confidenza al 95 % per i livelli
medi di ferro sierico nei bambini sani ed in
quelli con fibrosi cistica sono illustrati in Fi-
gura 11.3. In generale, l'assenza di sovrappo-
~ - - - - - - ~ - - - - - - - - - - - - - - - - ~ - - - - - - -
Bambini sani Bambini malati
206
sizione fra i due intervalli indica che le medie
delle popolazioni sono davvero diverse. Si ri-
cordi, comunque, che questa tecnica non rap-
presenta un test di ipotesi formale. Nel no-
stro esempio presente una leggera sovrap-
posizione tra gli intervalli e, di conseguenza,
non possibile trarre conclusioni significa-
tive.
Si noti che i due campioni casuali di bam-
bini sono stati selezionati da popolazioni di-
stinte; inoltre, si assume che le varianze delle
popolazioni siano uguali. corretto, quindi,
applicare il test t per due campioni. Si ricordi
che l'ipotesi nulla afferma che non esiste dif-
ferenza nei livelli medi di ferro della popola-
zione originaria per i due gruppi di bambini.
Poich vogliamo individuare una differenza
che pu verificarsi in entrambe le direzioni -
vogliamo cio sapere se i bambini con fibrosi
cistica hanno una media maggiore o minore
di quella dei bambini non affetti da tale ma-
lattia - eseguiamo un test bilaterale ad un li-
vello di significativit a = 0,05. L'ipotesi al-
ternativa :
HA : 111"* 112'
Prima di tutto calcoliamo la stima 'pooled'
della varianza:
= (9 - 1)(5,9)2 + ( 13 - l) (6,3)2
9 + 13 - 2
= (8)(34,81) + (12)(39,69)
20
= 37,74.
Calcoliamo, poi, il test statistico:
(XI - X2) - (ili - 112)

[(l/nl) + (I/nz)]
(18,9 - 11,9) - O
+ (1/13)]
= 2,63.
In accordo con la Tabella A.4, osserviamo
che per una distribuzione t con nl + n2 - 2 =
CONFRONTO TRA DUE MEDIE
9 + 13 - 2 = 20 gradi di libert, l'area totale
sotto la curva a destra di t
20
= 2,63 compresa
tra 0,005 e 0,01. Pertanto, la somma delle aree
a destra di t
20
= 2,63 ed a sinistra di t
20
= - 2,63
compresa tra 0,01 e 0,02. Poich P minore
di 0,05, rifiutiamo l'ipotesi nulla:
Ho: 111 = 112
ad un livello di significativit di 0,05. La dif-
ferenza tra il livello medio di ferro sierico dei
bambini sani e quello dei bambini con fibrosi
cistica statisticamente significativa; in base a
questi campioni, sembra che i bambini con fi-
brosi cistica soffrano di una deficienza di
ferro.
La quantit Xl - X2 fornisce una stima pun-
tuale della reale differenza nelle medie delle
popolazioni 111 - 112; tuttavia, potremmo an-
che voler calcolare un intervallo di confi-
denza. Si noti che per una distribuzione t con
20 gradi di libert, il 95% delle osservazioni
compreso tra - 2,086 e 2,086. Pertanto:
Riorganizzando i termini, troviamo che i li-
miti dell'intervallo di confidenza al 95% per
111 - 112 sono:
o
(18,9 - 11,9) (2,086) + 1
1
3].
Pertanto, siamo confidenti al 95% che l'in-
tervallo:
(1,4, 12,6)
comprende ili - 112> la reale differenza nei li-
velli medi di ferro sierico delle due popola-
zioni di bambini. A differenza degli intervalli
distinti illustrati in Figura Il.3, questo inter-
vallo di confidenza per la differenza delle me-
die matematicamente uguale al test per due
campioni condotto ad un livello di significa-
CAMPIONI i NDiPENDENTI
tivit a = 0,05. Si noti che l'intervallo non
comprende il valore o.
11.2.2 Varianze disuguali
Consideriamo ora la situazione in cui non
si assume che le varianze delle due popola-
zioni siano uguali. In questo caso, deve essere
applicata una modifica del test t per due cam-
pioni. Invece di utilizzare si come stima della
varianza comune cf1, sostituiamo sf per cr,2 e
per cri. Pertanto, l'appropriato test stati-
stico :
t=(X,-X2)-C,u,-112)
In,) + .
A differenza del caso in cui avevamo va-
rianzc uguali, difficile ottenere l'esatta di-
stribuzione di t. Pertanto, necessario utili z-
zare un'approssimazione (6). Prima di tutto
calcoliamo la quantit:
il valore di v approssimato per difetto al nu-
mero intero pi vicino. Sotto l' ipotesi nulla,
possiamo approssimare la distribuzione di t
ad una distribuzione t con v gradi di libert.
Confrontiamo cos il valore del test statistico
con i valori critici riportati in Tabella A.4 - o
utilizziamo un programma informatico - per
decidere se rifiutare o meno Ho.
Supponiamo di essere interessati ad esami-
nare gli effetti del trattamento con farmaci
antiipertensivi su soggetti oltre i 60 anni con
ipertensione sistoli ca isolata. Questi soggetti
hanno una pressione si9tolica superiore a 160
mm Hg, mentre la loro pressione diastolica
inferiore a 90 mm Hg. Prima dell'inizio dello
studio, i soggetti selezionati casualmente per
assu mere il farmaco attivo e q uelli selezionati
per ricevere il placebo presentavano livelli si-
mili di pressione sistolica. Dopo un anno
dall'inizio dello studi o, la pressione sistolica
media dei pazienti che avevano ricevuto il
farmaco indicata con 111 e la media di quelli
che avevano ricevuto il placebo con 112' Le de-
207
viazioni standard delle due popolazioni non
sono note e non si assume siano uguali. Vor-
remmo determinare se le pressioni sistoliche
medie dei pazienti in questi due diversi
gruppi rimangono le stesse; pertanto, te-
stiamo l'ipotesi nulla:
Ho: !-l, = 11 2'
Prima di tutto selezioniamo un campione
casuale da ciascuno dei due gruppi. Il cam-
pione di n, = 2.308 soggetti trattati con il far-
maco ha una pressione sistolica media XI =
142,5 mm Hg ed una deviazione standard SI =
15,7 mm Hg; il campione di n2 = 2.293 sog-
getti trattati con placebo ha una media x2 =
156,5 mm Hg ed una deviazione standard S2 =
17,3 mm Hg (7). Siamo interessati ad indivi-
duare le differenze che possono verificarsi in
entrambe le direzioni e, pertanto, eseguiamo
un test bilaterale ad un livello di significati-
vit a = 0,05. L'ipotesi alternativa :
Ho: 111 *' !-l 2'
Poich i due gruppi di pazienti sono stati
selezionati da popolazioni normali indipen-
denti e non si assume che le varianze sono
uguali, necessario appli care il test modifi-
cato per due campioni. (Si noti che il test mo-
dificato non assume che le varianze non sono
uguali; esso semplicemente non richiede che
siano uguali). In questo caso, il test statistico :
t = (x , -X2) - (111 - !-l2)
+ (sUn
2
)
(142,5 - 156,5) - O
+ [(17,3)2/2.293]
= -28,74.
Calcoliamo, poi, gli approssimativi gradi di
libert' poich S2 = (157)2 = 24649 e S2 =
, l ' ) 2
(17,3)2 = 299,29:
[(si /11,) +
[(S;/II,)2/(II, - I ) + {sVIl2)2/(1I2 - Il]
[(246,49/2.308) + {299,29/2.293)]2
[{246.49/2.308)2 /(2.308-1 l + {299.29/2.293)2 /(2.293 -I)]
= 4.550.5.
208
Approssimando per difetto al numero in-
tero pi vicino, v = 4.550. Poich una distri -
buzione t con 4.550 gradi di libert pratica-
mente ugual e alla distribuzione normale stan-
dardizzata, possiamo utili zzare la Tabella A.3
o la Tabella A.4. In entrambi i casi, troviamo
che p minore di 0,001. Pertanto, rifiutiamo
l'ipotesi nulla:
ad un livello di significativit di 0,05. Dopo
un anno, i soggetti che ricevono il farmaco at-
tivo hanno una pressione sistolica media infe-
riore a quella di coloro che ricevono il pIa-
cebo.
Possiamo di nuovo voler calcolare un inter-
vallo di confidenza per la reale differenza
nelle medie delle popolazioni J.LI - J.12' Per una
distribuzione t con 4.550 gradi di libert - o
per una distribuzione normale standardizzata
- il 95% delle osservazioni compreso tra
-1,96 e 1,96. Pertanto:
Se riorganizziamo i termini, i limiti dell'in-
tervallo di confidenza al 95% per J.11 - J.12
sono:
o
(15,7)2 (17,3)2
(142,5 - 156,5) :!: (1,96) 2.308 + 2.293 .
Pertanto, siamo confidenti al 95 % che l'in-
tervallo:
( -15,0, -13,0)
comprende J.11 - J.12' la reale differenza nelle
pressioni sistoliche medie delle due popola-
zioni. Si noti che l'intervallo non comprende
il valore ed , pertanto, coerente con i risul-
tati del test modificato per due campioni.
CONFRONTO TRA DUE MEDIE
11.3 ULTERIORI APPLICAZIONI
Consideriamo di nuovo lo studio sugli ef-
fetti dell'esposizione a monossido di carbo-
nio in pazienti con patologia coronarica. In
precedenza abbiamo confrontato la riduzione
percentuale media del tempo per l'insorgenza
dell'angina in 63 maschi adulti esposti a mo-
nossido di carbonio al fine di aumentare al
4% il livello di carbossiemoglobina con la ri-
duzione percentuale media negli esposti ad
aria non contaminata. Vogliamo adesso con-
frontare la riduzione percentuale del tempo
per l'insorgenza dell'angina quando gli stessi
pazienti sono esposti a monossido di carbo-
nio al fine di aumentare il loro livello di car-
bossiemoglobina al 2%. Pertanto, in questa
parte dello studio ogni paziente esposto ad
una concentrazione minore di monossido di
carbonio. Le medie delle popolazioni per la
riduzione percentuale associata all' esposizio-
ne ad aria non contaminata e a monossido di
carbonio sono rappresentate rispettivamente
da J.11 e J.12
Vogl iamo di nuovo sapere se le medie delle
due popolazioni J.11 e J.12 sono uguali. Poich
riteniamo che l'esposizione a monossido di
carbonio non possa essere salutare, siamo in-
teressati alle deviazioni che si verificano in
una sola direzione. Eseguiamo, pertanto, un
test unilaterale ad un livello di significativit
a = 0,05; l'ipotesi nulla :
Ho: f./I ~ f / 2
o
dove (5 = J.11 - J.12' e l'ipotesi alternativa :
Anzich lavorare sulle due singole serie di
osservazioni, esaminiamo invece la differenza
nella riduzione percentuale del tempo per
l'insorgenza dell'angina per ciascun soggetto.
In questo modo possiamo eseguire il test per
un campione. La media di queste differenze-
una stima puntuale della reale differenza nelle
medie delle popolazioni (5 - :
ULTERIORI APPLI CAZIONI
_ L ~ ~ di
d = 62
= - 4,9S ,
e la loro deviazione standard :
,,62 (d - Ci?
L.. ,= I '
Sci =
62 - l
= 19,OS.
(Un soggetto non partecip allo studio il
giorno in cui avrebbe dovuto essere esposto a
monossido di carbonio; il campione, per-
tanto, ha una dimensione di 62 e non 63). Il
test statistico del test t per dati appaiati :
o
d-b
t=--
s,,/ ,fii
t = - 4,9S -
19,OS/[62
= - 2,OS.
Per una distribuzione t con 61 gradi di li-
bert, 0,01 < P < 0,025. Pertanto, rifiutiamo
l' ipotesi nulla ad un livello di 0,05. I campioni
appaiati suggeriscono che la riduzione percen-
tuale media del tempo per l'insorgenza dell'an-
gina in pazienti esposti ad un basso livello di
monossido di carbonio maggiore della ridu-
zione percentuale media in pazienti non espo-
sti; ancora una volta, i pazienti esposti ten-
dono a sviluppare l'angina pi rapidamente.
209
Invece di risolvere manualmente il test t per
dati appaiati, potremmo aver utilizzato un
computer per eseguire i calcoli. In quasi tutti
i pacchetti statistici possibile operare in due
modi: calcolare il test sulla serie originaria di
osservazioni lasciando al computer il com-
pito di calcolare le differenze o calcolare le
differenze ed eseguire un test per un cam-
pione. I risultati dello Stata, ottenuti usando
le misurazioni originali, sono illustrati in Ta-
bella 11.1. Oltre alle statistiche di sintesi per
la riduzione percentuale associata all' esposi-
zione a monossido di carbonio e all'esposi-
zione ad aria non contaminata, sono riportate
le differenze, l'ipotesi nulla e le tre possibili
alternative, il test statistico ed il valore p di
ogni test. In questo caso, siamo interessati
all'ipotesi alternativa a sinistra; pertanto, p =
0,0226. Si noti che il computer fornisce una
stima pi precisa del valore p rispetto alla Ta-
bella A.4.
Consideriamo adesso uno studio condotto
per valutare gli effetti del consumo di lattosio
sull'assorbimento energetico di carboidrati in
neonati prematuri. In particolare, siamo inte-
ressati a determinare se una riduzione dell'as-
sunzione di lattosio - uno zucchero conte-
nuto nel latte - aumenti o riduca l'assorbi-
mento energetico. In questo studio, un grup-
po di neonati stato alimentato con latte
materno; l'altro gruppo di neonati con una
formula che conteneva solo la met dellatto-
SIO contenuto nel primo. Le distribuzioni
Tabella 11.1 Risultati dello Stata per il test t per dati appaiati
paired t test
Variable M ~ a n
carbon2 .9254365
air 5.873768
diif -4.948331
Degrees of freedom:
Ha: diif < O
t = -2.046
p < t = 0.0226
Std.Err. t
P> Itl
2.232755 .414482 0.6800
1.801627 3.26026 0.0018
2.418982 -2.04563 0.0451
61
Ho: mean diff O
Ha: diif -= O
t = -2.046
p > Itl = O 0451
Number of obs = 62
[95% Conf. Interval]
-3.539232
2.271192
-9.785384
5.390105
9.476344
-.111278
Ha: diff > O
t -2.046
p > t = 0.9774
210
dell'assorbimento energetico dei carboidrati
delle due popolazioni sono approssimativa-
mente normali e si assume che abbiano uguali
varianze; vorremmo sapere se hanno anche le
stesse medie. Poich siamo interessati alle de-
viazioni che possono verificarsi in entrambe
le direzioni, testiamo l'ipotesi nulla:
Ho: iii = li2
mentre l'ipotesi alternativa bilaterale :
HA: iii =1= li 2'
Un campione casuale di nl = 8 neonati ali-
mentati con latte materno ha un assorbimen-
to energetico medio XI = 87,38% ed una de-
viazione standard SI = 4,56%; un campione di
n2 = lO neonati alimentati con la formula ha
una media x2 = 90,14% ed una deviazione
standard 52 = 4,58 % (8). Poich i campioni
sono indipendenti e si assume che le varianze
delle popolazioni originarie siano uguali - una
assunzione che appare ragionevole in base ai
valori di 51 e 52 - applichiamo il test t per due
camplOlll.
Prima di tutto calcoliamo la stima 'pooled'
della varianza:
(8 - l ) (4,56)2 + (lO - l) (4,58)2
8+10-2
= 20,90.
TASLE 11.2
CONFRONTO TRA DUE MEDIE
Il valore 5 ~ combina informazioni relative
ad entrambi i campioni di bambini per for-
nire una stima pi attendibile della varianza
comune 02. Il test statistico :
(xl - X2) - (ii i - li2)
t = - ; = = = ; = : = = = : = = = : = = : = = = ; = = = ~
5,;[(1/111) + (L/112)]
(87,38 - 90, 14) - O
J(20,90) [(L/8) t (l/IO)]
= - 1.27.
Per una distribuzione t con 8 + lO - 2 = 16
gradi di libert, l'area totale sotto la curva a
sinistra di -1,27 ed a destra di 1,27 maggiore
di 2(0,10) = 0,20. Pertanto, non rifiutiamo
l'ipotesi nulla. In base a questi campioni, l'as-
sunzione di lattosio non sembra avere effetto
sul!' assorbimento energetico d i carboidrati .
Ancora una volta potremmo aver utilizzato
il computer per condurre il test di ipotesi. I
risultati dello Stata sono illustrati in Tabella
Il.2. Poich siamo interessati ad un test bila-
terale, ci concentriamo sulle informazioni ri-
portate nella parte inferiore, al centro, della
tabella. In base alla Tabella A.4, avevamo de
dotto che p > 0,20, ma il computer ci dice che
p = 0,2213.
In uno studio condotto al fine di esaminare
i fattori di rischio per le patologie cardiache
in soggetti diabetici, una delle caratteristiche
esaminate stato l'indice di massa corporea,
Stata output displaying the two-sample ttest, assuming equal variances
Two-sample t test with equal variances M:
F:
Variable Mean Std.Err. t P>
Itl
milk 87.38 1.612203 54.1991 0.0000
fonnula 90.14 1. 448323 62.2375 0 . 0000
diff -2.76 2.168339 -1.27286 0.2213
Degrees of freedom: 16
Ho: mean(x) - mean(y) = diff
Ha: diff < O
t = -1. 2729
P < t = 0.1106
Ha: diff -= O
t -1.2729
P > Itl = 0.2213
Number of obs = 8
Number of obs 10
[95% Conf. Interva1)
83.56774 91.19226
86.86367 93.41633
-7.356674 1.836674
= O
Ha: diff > O
t -1. 2729
P > t = 0 . 8894
ULTERiORi APPLiCAZiONi
una misura del grado di sovrappeso di un
soggetto. Vogliamo determinare se l'indice
medio di massa corporea degli uomini diabe-
tici uguale all'indice medio delle donne dia-
betiche. In ciascun gruppo, la distribuzione
degli indici approssimativamente normale;
non abbiamo motivo di ritenere che le va-
rianze siano uguali e non vogliamo fare que-
sta assunzione. Testiamo l'ipotesi nulla:
mentre l'ipotesi alternativa bilaterale :
usando la versione modificata del test per due
campionI.
Un campione casuale selezionato da cia-
scuna popolazione. Gli n, = 207 uomini dia-
betici hanno un indice medio di massa corpo-
rea X, = 26,4 kg/ m
2
ed una deviazione stan-
dard s, = 3,3 kg/ m
2
; le n2 = 127 donne diabe-
tiche hanno un indice medio di massa
corporea x2 = 25,4 kg/ m
2
ed una deviazione
standard S2 = 5,2 kgl m
2
(9). Il test statistico :
t = (x, - X2) - (Il, - 112)
/11,) + (SUIl2)
(26,4 - 25,4) - O
J[(3.3)2/207] + [(5,2)2/127]
= 1,94.
TAStE r r.3
211
Poich si = (3,3)2 = 10,89 e si = (s,2? =
27,04, troviamo gli approssimativi gradi di li-
bert:
In,) + {sUn))2
\I = ___ -=---'-....:...._--=:--,-:'--c-__ ---:-
- l) + (sUnY/(1l
2
- l)]
[(10,89/207) + (27,04/127)]2
[( 10,89/207)2/(207 -[ )+(27,04/ 127)2/(127 -1)]
= 188,9.
Approssimando per difetto al numero in-
tero pi vicino, v = 188. Per una distribu-
zione t con 188 gradi di libert, 0,05 < P <
0,10. I risultati di questo test sono ai limiti
della significativit; sebbene rifiutiamo l'ipo-
tesi nulla:
ad un livello di significativit di 0,10, non la
rifiutiamo ad un livello di 0,05. Sembra che
gli uomini diabetici abbiano un indice di
massa corporea leggermente pi elevato - e,
pertanto, siano pi in sovrappeso - delle
donne affette da questa malattia.
Potremmo anche in questo caso aver utiliz-
zato il computer per eseguire questi calcoli . I
risultati del SAS sono riportati in Tabella
Il.3. Oltre alle statistiche di sintesi per cia-
scuno dei gruppi indipendenti, sono riportati
il test statistico, i gradi di libert ed il valore p
del test che assume varianze uguali e del test
SAS output displaying the two-sample t-test, allowing either equal or unequal variances
TTEST PROCEDURE
Variable: BMI
GROUP N Mean Std Dev Std Error Minimum
M 207 26.4 3.3 0.229366 19.7
F 127 25.4 5.2 0.461425 17.5
Variances T DF Prob>
ITI
Unequa1 1.9407 188.9 0.0538
Equal 2.1505 332.0 0.0322
For HO: Variances are equal, F = 0.403 DF = (126,206)
Prob > F = 0.000
Maximum
32.8
35.2
212
che non fa questa assunzione. ( anche ripor-
tato un preliminare test dell e varianze, anche
se non l'abbiamo richiesto). Il valore p del
test modificato approssi mativamente uguale
a 0,05 se arrotondi amo all e cifre decimali.
Concludiamo ancora una volta che gli uomini
diabetici tendono ad essere pi in sovrappeso
delle donne diabetiche, ma ora sappiamo che
p molto pi vicino a 0,05 che a 0,10. Si noti
che per il test che assume varianze uguali, p
in realt leggermente inferiore a 0,05. Tutta-
via, poich non abbiamo motivo di credere
che le varianze siano uguali - ed in effetti le
deviazioni standard dei campioni 51 e 52 sug-
geriscono che tal e evenienza improbabile -
preferibile utilizzare il test modificato.
Questo test meno preciso del tradizionale
test t per due campioni se le varianze sono
uguali, ma risulta pi affidabile se le varianze
non lo sono.
Il.4 ESERCIZI
1. Qual la differenza principale tra cam-
pioni appaiati e campioni indipendenti?
2. Spiegare l'utilit dei dati appaiati. In al-
cuni casi, quale vantaggio si potrebbe otte-
nere utilizzando campioni appaiati piuttosto
che campioni indipendenti?
3. Quando necessario utilizzare il test t
per due campioni? Quando deve essere uti-
lizzata la sua versione modificata?
4. Per quale motivo si utili zza una sti ma
'pooled' della varianza nel test t per due cam-
pioni?
5. stato condotto uno stud io crossover al
fine di determinare se la crusca di avena aiuti
a ridurre i livelli di colesterolo sierico in ma-
schi ipercolesterolemici. Un campione ca-
suale di quattordici soggetti stato sottopo-
sto ad una dieta con crusca di avena o fiocchi
di granoturco; dopo due settimane, sono stati
registrati i livelli di colesterolo legato a lipo-
proteine a bassa densit (LDL). Ciascun sog-
CONFRONTO TRA DUE MEDIE
getto stato poi sottoposto all ' altra dieta.
Dopo altre due settimane, stato di nuovo
registrato il livello di colesterolo LDL di cia-
scun soggetto. I dati di questo studi o sono di
seguito riportati (lO).
LDL (11111101/1)
Soggetto Fiocchi di granoturco Crusca di avena
4,61 3,84
2 6,42 S,57
3 5,40 5,85
4 4,54 4,80
5 3,98 3,68
6 3,82 2,96
7 5,01 4,41
8 4,34 3,72
9 3,80 3,49
10 4,56 3,84
Il 5,35 5,26
12 3,89 3,73
13 2,25 1,84
14 4,24 4,14
a. I due campioni di dati sono appaiati o in-
di pendenti?
b. Quali sono le ipotesi nulla ed alternati va
per un test bilaterale?
c. Eseguire il test ad un li vello di significati-
vit di 0,05. Qual il valore p?
d. Che cosa si pu concludere?
6. Supponiamo di essere interessati a deter-
minare se l'espo izione al DDT, ampiamente
usato per molti anni come insetticida, sia as-
sociata all'insorgenza di cancro della mam-
mella nelle donne. stato effettuato un pre-
lievo ematico ad un campione di donne cui
era stato diagnosticato - nell 'arco di sei anni-
un cancro della mammella e ad un campione
di donne sane appaiate per et, status meno-
pausale e data del prelievo. Sono poi stati mi-
surati in cia cuna donna i livelli ematici di
DDE - un importante catabolita del DDT
nell'organismo umano - ed stata calcolata la
differenza di livelli per ciascuna paziente e
per il controll o appaiato. Un campione di 171
di queste differenze ha una media J = 2,7
ng/ml e deviazione standard 5d = 15,9 ng/ml
(11) .
-
-
ESERCIZI
a. Testare l'ipotesi nulla che i livelli ematici
medi di DDE sono uguali nelle donne con
cancro della mammella e nelle donne sane.
Che cosa si pu concludere?
b. Ci si aspetterebbe che un intervallo di con-
fidenza al 95% per la reale differenza dei
livelli DDE medi della popolazione con-
tenga il valore O? Spiegare.
7. stato condotto uno studio per valutare
l' efficacia della cotinina nella saliva come in-
dicatore dell'esposizione al fumo di tabacco.
In una parte dello studio, a sette soggetti -
nessuno dei quali era un forte fumatore e tutti
avevano smesso di fumare almeno una setti-
mana prima dell'inizio dello studio - stato
chiesto di fumare una sola sigaretta. Sono
stati poi prelevati dei campioni di saliva da
tutti i soggetti 2, 12,24 e 48 ore dopo aver fu-
mato la sigaretta. I livelli di cotinina a 12 ed a
24 ore sono di seguito riportati (12).
Livelli di cotinina (nmol/I)
Soggetto Dopo 12 ore Dopo 24 ore
73 24
2 58 27
3 67 49
4 93 59
5 33 O
6 18 11
7 147 43
Sia 1112 il livello medio di cotinina della po-
polazione 12 ore dopo aver fumato la siga-
retta e 1124 il livello medio di cotinina 24 ore
dopo aver fumato la sigaretta. Si ritiene che
1124 sia inferiore a 111 2'
a. Calcolare un intervallo di confidenza uni-
laterale al 95% per la"reale differenza nelle
medie delle popolazioni 1112 - 1124'
b. Testare l'ipotesi nulla che le medie delle
popolazioni sono uguali ad un livello di si-
gnificativit ex = 0,05. Che cosa si pu con-
cludere?
8. stato condotto uno studio per determi-
nare se il fumo di sigaretta in una donna gra-
vida ha effetto sul contenuto minerale osseo
dei neonati sani. Un campione casuale di 77
213
neonati le cui madri avevano fumato durante
la gravidanza ha un contenuto minerale osseo
medio XI = 0,098 g/cm ed una deviazione
standard 51 = 0,026 g/cm; un campione ca-
suale di 161 bambini le cui madri non ave-
vano fumato ha una media X2 = 0,095 g/cm ed
una deviazione standard 52 = 0,025 g/cm (13).
Si assuma che le varianze delle popolazioni
originarie siano uguali.
a. I due campioni di dati sono appaiati o in-
dipendenti?
b. Formulare l'ipotesi nulla e l'ipotesi alter-
nativa del test bilaterale.
c. Eseguire il test ad un livello di significati-
vit di 0,05. Che cosa si pu concludere?
9. In uno studio sull'ipertensione in gravi-
danza, un gruppo di donne stato trattato
con basse dosi di aspirina ed un secondo
gruppo con placebo. Un campione casuale di
23 donne che avevano ricevuto aspirina ha
una pressione arteriosa media di 111 mm Hg
ed una deviazione standard di 8 mm Hg; un
campione casuale di 24 donne che avevano ri-
cevuto placebo ha una pressione media di 109
mm Hg ed una deviazione standard di 8 mm
Hg (14).
a. Ad un livello di significativit di 0,01, te-
stare l'ipotesi nulla che le due popolazioni
di donne hanno la stessa pressione arte-
riosa media.
b. Calcolare un intervallo di confidenza al
99% per la reale differenza nelle medie
delle popolazioni. L'intervallo contiene il
valore O?
lO. Nel Women's Health Trial, un gruppo
di donne sono state incoraggiate a seguire una
dieta ipolipidica, mentre ad un secondo grup-
po non stato fornito alcun consiglio diete-
tico. Dopo un anno, le donne del primo grup-
po avevano seguito con successo la dieta.
stato, quindi, condotto uno studio per deter-
minare se anche i loro mariti avevano ridotto
l'assunzione di grassi (15).
a. Nel primo gruppo, un campione di 156
mariti ha un'assunzione giornaliera media
di grassi XI = 54,8 grammi e deviazione
214
standard SI = 28,1 grammi. Nel gruppo di
controllo, un campione di 148 mariti ha
un'assunzione giornaliera media di grassi
X2 = 69,5 grammi e deviazione standard
S2 = 34,7 grammi. Calcolare intervalli di
confidenza al 95% separati per l'assun-
zione media di grassi in ciascun gruppo.
Utilizzare questi intervalli per disegnare
un grafico simile a quello illustrato in Fi-
gura 11.3. Il grafico suggerisce che le medie
delle due popolazioni sono simili?
b. Testare l'ipotesi nulla che i due gruppi di
uomini hanno la stessa assunzione media
di grassi per un test bilaterale. Che cosa si
pu concludere?
c. Calcolare un intervallo di confidenza al
95% per la reale differenza nelle medie
delle popolazioni.
d. Un ricercatore potrebbe anche essere inte-
ressato a sapere se gli stessi soggetti siano
diversi in relazione all'assunzione di altri
nutrienti, come proteine o carboidrati. Nel
primo gruppo, i mariti hanno un'assun-
zione media giornaliera di carboidrati
Xl = 172,5 grammi e deviazione standard
SI = 68,8 grammi; nel gruppo di controllo,
gli uomini hanno una media di carboidrati
X2 = 185,5 grammi e deviazione standard
S2 = 69,0 grammi. Testare l'ipotesi nulla
che le due popolazioni hanno la stessa as-
sunzione media di carboidrati. Che cosa si
pu concludere?
11. La tabella di seguito riportata confronta
i livelli di carbossiemoglobina per un gruppo
di non fumatori ed un gruppo di fumatori di
sigarette. Sono riportate le medie e le devia-
zioni standard dei campioni (16). Si ritiene
che il livello medio di carbossiemoglobina dei
fumatori sia pi elevato del livello medio dei
non fumatori. Non c' motivo di assumere
che le varianze delle popolazioni originarie
siano uguali.
Gruppo n Carbossiemoglobina (%)
Non fumatori 121 x = 1,3, S = 1,3
Fumatori 75 x = 4,1, S = 2,0
CONFRONTO TRA DUE MEDIE
a. Quali sono l'ipotesi nulla e l'ipotesi alter-
nativa del test unilaterale?
b. Eseguire il test ad un livello di significati-
vit di 0,05. Che cosa si pu concludere?
12. Supponiamo di voler confrontare le ca-
ratteristiche della meningite tubercolare in
pazienti con HIV ed in soggetti non infetti.
In particolare, vogliamo determinare se le due
popolazioni hanno la stessa et media. Un
campione casuale di ' 37 pazienti infetti ha
un'et media XI = 27,9 anni ed una deviazione
standard SI = 5,6 anni; un campione casuale di
19 pazienti non infetti ha un' et media x2 ==
38,8 anni ed una deviazione standard S2 = 21,7
anni (17).
a. Testare l'ipotesi nulla che le due popola-
zioni di pazienti hanno la stessa et media
ad un livello di significativit di 0,05.
b. Ci si aspetta che un intervallo di confi-
denza al 95% per la reale differenza nelle
medie delle popolazioni contenga il valore
O? Perch o perch no?
13. Si consideri il numero di posti-letto
ospedalieri per 1.000 soggetti in ogni Stato
degli Stati Uniti e nel Distretto Federale della
Columbia. I dati relativi agli anni 1980 e 1986
sono registrati nel CD allegato allibro in un
file chiamato bed (18) (Appendice B, Tabella
B.13). I valori per il 1980 sono registrati nella
variabile bed80; i valori per il 1986 nella va-
riabile bed86. Un secondo file, chiamato bed2,
contiene le stesse informazioni, ma in un for-
mato diverso. Il numero di posti-letto per
1.000 soggetti in entrambi gli anni registrato
nella variabile bed e l'indicatore dell'anno
nella variabile year.
a. Generare le statistiche descrittive per il nu-
mero di posti-letto per ciascun anno.
b. Poich ci sono due osservazioni per cia-
scuno Stato - una per il 1980 ed una per il
1986 - i dati sono appaiati. Un errore co-
mune nell'analisi di questo tipo di dati
ignorare l'appaiamento ed assumere che i
campioni siano indipendenti. Confrontare
il numero medio di posti-letto ospedalieri
per 1.000 soggetti nel 1980 con il numero
BIBLIOGRAFIA
medio di posti-letto nel 1986 utilizzando il
test t per due campioni. Che cosa si pu
concludere?
c. Confrontare il numero medio di posti-
letto nel 1980 con il numero medio di po-
sti-letto nel 1986 utili zzando il test t per
dati appaiati.
d. Commentare le differenze tra i due test. Si
perviene alla stessa conclusione?
e. Calcolare un intervallo di confidenza al
95% per la reale differenza nel numero
medio di posti-letto ospedalieri nel 1980 e
nel 1986.
14. Le informazioni relative ad un campio-
ne di 100 neonati con basso peso alla nascita
in due ospedali di Boston, Massachusetts,
sono registrate nel CD allegato allibro in un
file chiamato lowbwt (19) (Appendice B, Ta-
bella B.7). Le misurazioni della pressione si-
stolica sono registrate nella variabile sbp e gli
indicatori del sesso - 1 indica un maschio e O
una femmina - nella variabile sex.
a. Disegnare un istogramma delle misura-
zioni della pressione sistolica per questo
campione. Osservando il grafico, ritenete
che la pressione sia approssimativamente
normalmente distribuita?
b. Testare l'ipotesi nulla che nei neonati con
basso peso alla nascita la pressione sistolica
media sia uguale tra maschi e femmine.
Utilizzare un test bilaterale ad un livello di
significativit di 0,05. Che cosa si pu con-
cludere?
15. Le Bayley Scales of Infant Develop-
ment prevedono due criteri di valutazione
- l'Indice di Sviluppo Psicomotorio (PDI) e
l'Indice di Sviluppo Mentale (MDI) - che
possono essere utilizzati per valutare le pre-
stazioni di bambini di circa un anno di et.
Come parte dello studio teso a valutare lo
sviluppo e lo status neurologico di bambini
che sono stati sottoposti a chirurgia cardiaca
riparativa durante i primi tre mesi di vita, le
Bailey Scales sono state somministrate ad un
campione di bambini di un anno con cardio-
patia congenita. I bambini sono stati assegnati
casualmente ad uno dei due gruppi di tratta-
215
mento, chiamati 'arresto circolatorio' e 'by-
pass a basso flusso'. I gruppi differivano nella
modalit di esecuzione dell'intervento di chi-
rurgia riparativa. A differenza dell'arresto cir-
colatorio, il bypass a basso flusso mantiene
continua la perfusione cerebrale; sebbene sia
considerato preferibile, esso spesso asso-
ciato al rischio di lesione cerebrale. I dati
sono registrati nel CD allegato allibro in un
file chiamato heart (20) (Appendice B, Ta-
bella B.12). I punteggi PDI sono registrati
nella variabile pdi, i punteggi MDI nella va-
riabile mdi e il trattamento nella variabile trt-
mento Per questa variabile, O rappresenta l'ar-
resto circolatorio e 1 il bypass a basso flusso.
a. Ad un livello di significativit di 0,05, te-
stare l'ipotesi nulla che il punteggio medio
PDI ad un anno di et per il gruppo 'arre-
sto circolatorio' uguale al punteggio me-
dio PDI per il gruppo 'bypass a basso
flusso'. Qual il valore p?
b. Testare l'ipotesi nulla che i punteggi medi
MDI sono uguali per i due gruppi di trat-
tamento. Qual il valore p?
c. Che cosa suggeriscono questi test in me-
rito alla relazione tra il tipo di trattamento
chirurgico durante i primi tre mesi di vita
ed il successivo sviluppo a un anno?
Bibliografia
1. PACKARD F.R.: The life and times of Ambroise
Par, 1510-1590. Pau I B. Hoeber, New York,
1921.
2. ALLREO E.N., BLEECKER E.R., CHA1TMAN B.R.,
DAHMs T.E., GOTTLlEB S.O., HACKNEY lD.,
HAYES D., PAGANO M., SELVESTER R.H., WAL-
OEN S.M., W ARREN l: Acute effects of carbon
monoxide exposure on individuals with coro-
nary artery disease. Health Effects Institute
Research Report Number 25, November 1989.
3. MARKowsKI c.A., MARKOWSKl E.P.: Condi-
tions for the effectiveness of a preliminary test
of variance. The American Statistician, 44:322-
326, 1990.
4. MosER B.K., STEVENS G.R.: Homogeneity of
variance in the two-sample means test. The
American Statistician, 46:19-21, 1992.
5. ZEMPSKY W.T., ROSENSTEIN B.]., CARROLL lA.,
216
O SKl F.A.: Effect of pancreatic enzyme supple-
ments on iron absorption. American Joumal of
Diseases of Children, 143:966-972, 1989.
6. SATIERTHWAlTE F.W.: An approximate distri-
bution of estimates of variance components.
Biometrics Bulletin, 2:110-114,1946.
7. SHEP COOPERATIVE RESEARCH GROUP: Pre-
vention of stroke by antihypertensive drug
treat ment in older persons with isolated systo-
lic hypertension: final results of the Systolic
Hypertension in the Elderl y Program (SHEP).
Joumal of the American Medical Association,
265:3255-3264, 1991.
8. KI EN CL., LIECHTY E.A, MULLETI M.D.: Ef-
fects of lactose intake on nutritional status
in premature infants. Joumal of Pediatrics,
116:446-449, 1990.
9. BAIUlliTI-CONNOR E.L., COHN B.A., WINGARD
D .L., EDELSTEIN S.L.: Why is diabetes mellitus
a stronger risk factor for fataI ischemic heart
disease in women than in men? Joumal of the
American M edical Association, 265:627-631,
1991.
lO. A DERSON J.W., SPENCER D .B., H AMILTO
CC, SMITH S.F., TI ETYEN l, BRYANT CA.,
O ELTGEN P.: Oat-bran cereal lowers serum to-
tal and LDL cholesterol in hypercholesterole-
mic meno American Joumal of Clinical Nutri-
tion, 52:495-499, 1990.
11. WOLFF M.S., TONIOLO P .G., LEE E.W., RIVERA
M., DUBIN N.: Blood levels of organochlorine
residues and risk of breast cancer. Joumal of
the National Cancer l nstitute, 85:648-652,
1993.
12. D1GiUSTO E., ECKHARD L: So me properties of
saliva cotinine measurements in indicating ex-
posure to tobacco smoking. American Joumal
of Public Health, 76:1245-1246, 1986.
13. VENKATARAMAN P.S., D UKE J.C: Bone mineraI
content of healthy, full -term neonat es: effect
of race, gender, and maternal ci garette
smoking. American Joumal of Diseases of
CONFRONTO TRA DUE MEDIE
Children, 145:1310-1312, 1991.
14. SCH1FF E., BARKAl G., BEN-BARUCH G., MA-
SHIACl-I S.: Low-dose aspirin does not influence
the clinical course of women with mild pre-
gnancy-induced hypertension. Obstetrics and
Gynecology, 76:742-744, 1990.
15. SHATIUCK A.L., Wl-lITE E., KRISTAL A.R.: How
women's adopted low-fat diets affect their hu-
sbands. American Joumal of Public Health, 82:
1244-1250, 1992.
16. J ARVIS M.l, T UNSTALL-PEDOE H., FEYERABE D
C, VESEY C, SALOOJEE Y.: Compari son of te-
sts used to di stinguish smokers from non-
smokers. American Joumal of Public Health,
77:1435-1438, 1987.
17. BERENGUER l, MORENO S. , LAGUNA F., VI CEN-
TE T., ADRADos M., ORTEGA A., GONzALEZ-
LAH oz l, BOUZA E.: Tuberculosis meningitis
in patienrs infected with the Human Immuno-
deficiency Virus. The New EnglandJoumal aJ
Medicine, 326:668-672, 1992.
18. N ATIONAL CENTER FOR H EALTH STATISTICS:
Health United States 1988. Public Health Ser-
vice, H yattsvill e, MD, March 1989.
19. LEVITON A., FENTON T., KUBAN K.CK., PA-
GANO M. : Labor and delivery characteri stics
and the ri sk of germinaI matrix hemorrhage in
low birth weight infants . Joumal of Child
Neurology, 6:35-40, 1991.
20. BELLINGER D.C, JONAS R.A. , RAPPAPoRT L.A.,
WYPIJ D., WERNOVSKY G., KUBAN K.C.K.,
BAR ES P.D ., H OLMES G.L., HICKEY P.R.,
STRAND R.D., WALSl-I A.Z., H ELMERS S.L.,
CONSTANTINOU J. E., CARRAZANA E.J., MAYER
J.E., H ANLEY F.L., CASTANEDA A.R., WAREJ.H.,
N EWBURGER J.W.: Developmental and neuro-
logic status of children after heart surgery wi th
hypothermic circulatory arrest or low-flow
cardiopulmonary bypass. The New England
Joumal of Medicine, 332:549-555, 1995.
Analisi della varianza
Nel capitol o precedente abbiamo esami-
nato le tecniche utili zzate per valutare se esi-
ste una differenza tra le medie di due popola-
zioni indipendenti. Non insolito, tuttavia,
trovarsi in si tuazioni in cui desideriamo te-
stare una differenza tra tre o pi medie indi-
pendenti. L'estensione del test t per due cam-
pioni a tre o pi campioni nota come analisi
della varianza.
12.1 ANALISI DELLA VARIANZA AD
UN CRITERIO DI CLASSIFICA-
ZIONE
12.1.1 Il problema
ella trattazione del test t per dati appaiati
nel Capitolo 11 , abbiamo esaminato i dati di
uno studio ugli effetti dell' esposizione a mo-
nossido di carbonio in pazienti con patologia
coronarica sottoponendoli ad una serie di test
da sforzo. I soggetti inclusi nello studi o sono
stati selezionati da tre diversi centri medici -
la Johns Hopkins University School of Medi-
cine, il Rancho Los Amigos MedicaI Center e
la St. Louis University School of Medicine.
Prima di includere i pazienti in un unico
grande gruppo, esamini amo alcune caratteri-
stiche di base per essere sicuri che questi pa-
zienti siano effettivamente confrontabi li.
Una caratteristica che potremmo voler con-
siderare la funzionalit polmonare prima
dell'inizio dello studio; se i pazienti prove-
nienti da un centro medico hanno misure di
volume espiratorio forzato in un secondo
12
molto pi elevate - o molto pi basse - di
quelle dei pazienti degli altri centri, i risultati
dell'analisi potrebbero esserne influenzati.
Pertanto, dato che le medie iniziali del vo-
lume espiratorio forzato in un secondo delle
popolazioni di pazienti nei tre centri sono J..L"
J..L2 e J..L3 rispettivamente, vogliamo testare
l'ipotesi null a che le medi e delle popolazioni
sono uguali. Ci pu essere espresso come:
H
O
: f.l,=f.l1=f.l 3
L'ipotesi alternativa che almeno una delle
medie delle popolazioni differisce dalle altre.
In generale, siamo interessati a confrontare
le medie di k popolazioni diverse. Suppo-
niamo che le k popolazioni siano indipen-
denti e normalmente distribuite. Prima di
tutto selezioniamo dalla popolazione nor-
male con media J..L , e deviazione standard (),
un campione casuale di dimensione n,. La
media di questo campione indicata con e
la deviazione standard con s, . N ello stesso
modo, selezioniamo dalla popolazione nor-
male con media f.l 2 e deviazione standard (}2
un campione casuale di dimensione n2' e cos
via per le altre popolazioni. Questa situa-
zione schematizzata nella tabella riportata
nella pagina successiva. Non necessario che
il numero di osservazioni di ciascun cam-
pione sia lo stesso.
Per lo studio che esamina gli effetti del-
l'esposizione a monossido di carbonio in sog-
getti con patologia coronarica, le distribu-
zioni del volume espiratorio forzato in un se-
condo dei pazienti di ciascuno dei tre centri
medici costi tuiscono popolazioni distinte.
218
Popolazione Media
Deviazione Standard
Campione Media
Deviazione Standard
Dimensione
Dalla popolazione di pazienti della Johns
Hopkins University, selezioniamo un cam-
pione di dimensione nl = 21. Dalla popola-
zione di Rancho Los Amigos selezioniamo
un campione di dimensione n2 = 16 e da
quella della St. Louis U niversity selezio-
niamo un campione di dimensione n} = 23. I
dati, con le relative medie e deviazioni stan-
dard, sono presentati in Tabella 12.1 (1). Un
intervallo di confidenza al 95% per il reale
volume espiratorio forzato medio in un se-
condo dei soggetti in ciascun centro medico
illustrato in Figura 12.1. In base a questo gra-
fico, il volume medio per i pazienti della
Johns Hopkins leggermente inferiore alla
media degli altri due gruppi; comunque, i tre
intervalli si sovrappongono. Vogliamo, per-
tanto, condurre un'analisi pi formale.
Con questi dati, possiamo cercare di con-
frontare le medie delle tre popolazioni valu-
tando tutte le coppie possibili di medie cam-
pionarie utilizzando il test t per due cam-
pioni . Per un totale di tre gruppi, il numero di
test richiesto (i) = 3. Dobbiamo confron-
tare il gruppo 1 con il gruppo 2, il gruppo 1
con il gruppo 3 ed il gruppo 2 con il gruppo
3. Assumiamo che le varianze delle popola-
zioni originarie siano uguali, o:
") ) ') ,
O'i = 0'2 = 0') = 0'-.
La stima 'pooled' della varianza comune,
che indichiamo con s ~ , contiene le informa-
zioni di tutti e tre i campioni; in particolare:
1 (111 - l s ~ + (11
2
- l s ~ + (11
3
- l s ~
SiI' =
Questa quantit semplicemente un'esten-
sione di 5;, la stima 'pooled' della varianza
utilizzata nel test t per due campioni.
L'esecuzione di tutte le possibili coppie di
ANALISI DELLA VARfANZA
Gruppo 1 Gruppo 2 ... Gruppo k
f.11 f.12
...
f.1k
(}I (}2 ... (}k
XI x2
.. .
xk
51 52
...
5k
nl n2
.. .
nk
test non un problema se il numero delle po-
polazioni relativamente piccolo. Nel caso
in cui k = 3, ci sono s ~ l o tre test da eseguire.
Se k = lO, per, la situazione diventa molto
pi complessa. In questo caso, dovremmo
eseguire (lf) = 45 test per due campioni.
Inoltre, l'esecuzione di tutti i possibili test t
per due campioni pu portare a conclusioni
Tabella 12.1 Volume espiratorio forzato in un se-
condo in pazienti con patologia co-
ronarica provenienti da tre diversi
centri medici
Johns Hopkins Rancho Los Amigos Sto Louis
3,23 3,22 2,79
3,47 2,88 3,22
1,86 1,71 2,25
2,47 2,89 2,98
3,01 3,77 2,47
1,69 3,29 2,77
2,10 3,39 2,95
2,81 3,86 3,56
3,28 2,64 2,88
3,36 2,71 2,63
2,61 2,71 3,38
2,91 3,41 3,07
1,98 2,87 2,81
2,57 2,61 3,17
2,08 3,39 2,23
2,47 3,17 2,19
2,47 4,06
2,74 1,98
2,88 2,81
2,63 2,85
2,53 2,43
3,20
3,53
nj =21 n2 = 16 n) =23
X j = 2,63 litri x2 = 3,03 liui x} = 2,88 litri
5 I = 0,496 litri 52 = 0,523 litri 5 J = 0,498 litri
ANALiSI DELLA VAR IANZA AD UN CRrTERro Dr CLASSIFICAZIONE 219
; 3,4
..g 3,2
t:
o
U
~
3,0
8
~ 2,8
.2
o
~ 2,6
E
~
<U 2,4
<U
Figura 12.1 Intervalli di confidenza al 95%
per le medie reali del volume espiratorio ~ 2,2
forzato in un secondo in tre diversi centri '------'--------'----------'----
medici
errate. Supponiamo che le medie delle tre po-
polazioni siano realmente uguali ed eseguia-
mo i tre test relativi. Assumiamo che i test
siano indipendenti e fissiamo il livello di si-
gnificativit a 0,05 per ognuno di essi. Per il
principi o del prodotto, la probabilit di non
rifiutare un'ipotesi nulla di assenza di diffe-
renza in tutti e tre i casi - quindi la conclusio-
ne corretta in ognuno dei tre test - sarebbe:
P(non rifiutare in tutti e tre
i test) = (1 - 0,05?
= (0,95?
= 0,857.
Pertanto, la probabilit di rifiutare l'ipotesi
nulla in almeno un test sarebbe:
P(rifiuto in almeno un test) = 1 - 0,857
= 0,143.
Poich sappi amo che l'ipotesi nulla vera
in ciascun caso, 0,143' la probabilit com-
plessiva di commettere un errore di I tipo.
Come si pu notare, la probabilit combinata
di un errore di I tipo per i tre test molto
maggiore di 0,05. In realt, il problema an-
che pi complesso; poich ogni test t con-
dotto utilizzando la stessa serie di dati, non
possiamo assumere che essi siano ind ipen-
denti. Avremmo bisogno di un test in cui la
probabilit complessiva di commettere un er-
rore di I tipo sia uguale ad un livello prede-
Johns Hopkins Rancho Los Amigos St. Louis
terminato a. Il test adatto in questo caso
l'analisi della varianza ad un criterio di classi-
ficazione.
12.1.2 Fonti di variabilit
L'analisi della varianza ad un criterio di
classificazione dipende, come indicato dal
nome, dalle stime della dispersione. L'espres-
sione 'ad un criterio di classificazione' indica
che esiste una sola caratteristica che distingue
fra loro le varie popolazioni; nello studio
sull' esposizione a monossido di carbonio, ad
esempio, tale caratteristica rappresentata dal
centro medi co che ha reclutato ciascun sog-
getto. Quando operiamo con numerose diffe-
renti popolazioni con varianza comune 02,
possiamo calcolare due misure di variabilit:
la variazione dei valori individuali rispetto
alle medie delle loro popolazioni e la varia-
zione delle medie delle popolazioni rispetto
alla media generale. Se la variabilit all'in-
terno delle k differenti popolazioni piccola
rispetto alla variabilit tra le loro rispettive
medie, ci suggerisce che le medie delle po-
polazioni sono realmente differenti.
Per testare l'ipotesi nulla:
Ho: fil = fi2 = ... = fik
per una serie di k popolazioni, prima di tutto
necessario trovare una misura della variabi-
lit delle osservazioni individuali rispetto alle
220
medie delle loro popolazioni. La stima 'poo-
led' della varianza comune 02 fornisce questo
tipo di misura; se n = nl + n2 + .. . + nk, allora:
(n
l
- l)sT + (n
2
- + ... + (n
k
-
S2 -
w - n +n + "' +n - k
I 2 k
(n
l
- + (11
2
- + .. . + (n
k
-
n-k
Questa quantit una media ponderata
delle varianze dei k campioni individuali. Si
noti che il deponente W si riferisce all a varia-
bilit 'entro gruppi'.
Abbiamo poi bisogno di un'espressione che
stimi il grado di variazione dell e medie delle
popolazioni rispetto all a media generale. Se
l'ipotesi nulla vera e le medie sono uguali, la
quantit di variabilit attesa sar uguale a
quella di una singola popolazione; pertant