Sei sulla pagina 1di 28

NEOPLASIE E FATTORI DI RISCHIO :

UNINDAGINE STATISTICA
Corso: Probabiliti e statistica
A.A. 2014/2015
Docente: Franco Fagnola

A cura di:

Mazzer Luigi, Morelli Vincenzo, Negri Giulia,


Pesenti Juliana, Piovani Lorenzo

SOMMARIO
INTRODUZIONE...3
DATASET ...3

TUMORE AL COLON RETTO ED OBESITA..4


UN PO DI GRAFICI.4
CONFRONTO CAUSA-EFFETTO CON GRAFICO A LINEE..5
TABELLA DEI DATI6
REGRESSIONE LINEARE E ANALISI DEI RESIDUI.7
TEST DI KOLMOGOROV-SMIRNOFF9

TUMORE ALLA PROSTATA ED ETNIA DI PROVENIENZA11


UN PO DI GRAFICI..11
CONFRONTO CAUSA-EFFETTO CON GRAFICO A LINEE11
TABELLA DEI DATI..13
REGRESSIONE LINEARE14
TEST CHI QUADRATO DI INDIPENDENZA.14

TUMORE AI POLMONI E FUMO.16


UN PO DI GRAFICI..16
CONFRONTO CAUSA-EFFETTO CON GRAFICO A LINEE18
CREAZIONE DI UN MODELLO BIVARIATO..18
TABELLA DEI DATI..19
REGRESSIONE LINEARE BIVARIATA...20
REGRESSIONE LINEARE UNIVARIATA E ANALISI DEI RESIDUI..22
TEST DI SHAPIRO WILK..25
INTERVALLO DI PREDIZIONE PER LA RISPOSTA FUTURA...27

CONCLUSIONE.28

INTRODUZIONE
Nellambito del progetto legato al corso di Probabilit e Statistica dellA.A. 2014/2015
abbiamo analizzato alcune tipologie di cancro evidenziando la relazione con particolari
abitudini e fattori genetici. Partendo dalla risaputa correlazione tra cancro ai polmoni e
fumo, ci siamo chiesti se fosse possibile a nostra volta dimostrarla con gli strumenti acquisiti,
osservandone pi da vicino leffettiva dipendenza. Inoltre, poich su internet sono presenti
autorevoli studi scientifici che affermano che la popolazione afroamericana ha pi rischio di
ammalarsi di cancro alla prostata rispetto ad altre etnie, si deciso di indagare su un
eventuale predisposizione genetica a questo tipo di malattia di alcune fasce della
popolazione americana. Abbiamo inoltre voluto approfondire laspetto delle abitudini
alimentari capendo quanto queste incidano concretamente sulla salute fisica. Abbiamo
scelto come campione 50 stati degli USA, che presentano una popolazione vasta, di origini
diversificate, con una dieta non sempre salubre.

DATASET
Dal sito del National Cancer Institute abbiamo preso dati riguardanti lincidenza delle
diverse tipologie di cancro nei singoli stati, e creato, inserendo i parametri che ci
interessavano, le carte tematiche.
Dal sito del Center for disease control and prevention abbiamo preso dati riguardo al tasso
di obesit, fumatori e distribuzione della popolazione afroamericana.

STRUMENTI
Per la costruzione dei grafici e i calcoli algebrici e statistici abbiamo utilizzato il programma
Microsoft Excel.

TUMORE AL COLON RETTO ED OBESITA


Lo scopo di questa sezione indagare su quanto incida lobesit sul rischio di contrarre un
tumore al colon retto. Si considera obeso un uomo quando il suo BMI (Body Mass Index,
rapporto peso/altezza) maggiore di 30.
Secondo questa convenzione, che anche quella utilizzata dallOrganizzazione Mondiale
della Sanit, circa un americano su tre obeso.
Oltre a questa da noi considerata, vi sono diverse malattie associate allobesit: malattie
cardiache, ictus, diabete di tipo 2 e altri tipi di cancro (ad es. al pancreas).
Dopo una prima parte descrittiva si cercato di mettere in relazione la causa e la
conseguenza, creando un modello tramite la regressione lineare univariata. Si poi
verificato tramite un qq-plot la normalit dei residui.

Un po di grafici
Abbiamo ritenuto interessante mostrare due mappe degli Stati Uniti che evidenzino le
differenze tra uno stato americano e laltro
Percentuale di popolazione obesa (BMI>=30) stato per stato

Dal grafico si nota chiaramente che la percentuale di persone obese molto maggiore
nella regione centro-orientale (fanno eccezione gli Stati di New York, Massachusetts e
Vermont), mentre cala spostandosi ad Ovest sulla costa pacifica. Punti di picco si hanno
precisamente in Louisiana, Arkansas, Mississippi, West Virginia.
E curioso notare la differenza tra i paesi della costa ovest e quelli storicamente pi arretrati
del sud: le persone meno istruite e con reddito pi basso hanno infatti pi probabilit di
essere obese.

Tasso di incidenza di tumore al colon-retto ogni 100000 persone

Questa seconda carta lascia pensare a una correlazione tra obesit e contrazione di
tumore al colon-retto. Si nota infatti come la percentuale di persone affette dalla malattia
sia anche qui superiore nella regione centro orientale piuttosto che in quella occidentale.

Confronto causa-effetto con grafico a linee

Sullasse delle ascisse abbiamo disposto gli stati americani, mentre le ordinate indicano nel
caso della linea rossa il numero di persone ogni 100'000 che si ammala di cancro al colon
retto, nel caso della linea blu la percentuale di adulti obesi (BMI>30).
Anche senza una vera e propria analisi inferenziale salta subito allocchio il parallelismo fra
le due linee: dove sono presenti pi obesi il tasso di incidenza del cancro pi elevato e
viceversa.

Tabella dei dati


% Obesi
United States
Alabama
Alaska
Arizona
Arkansas
California
Colorado
Connecticut
Delaware
Distr. of Columbia
Florida
Georgia
Hawaii
Idaho
Illinois
Indiana
Iowa
Kansas
Kentucky
Louisiana
Maine
Maryland
Massachusetts
Michigan
Minnesota
Mississippi
Missouri
Montana
Nebraska
New Hampshire
New Jersey
New Mexico
New York
North Carolina
North Dakota
Ohio
Oklahoma
Oregon

Incidenza osservata
27,2
32,4
28,4
26,8
34,6
24,1
21,3
25,0
31,1
22,9
26,4
30,3
21,8
29,6
29,4
31,8
31,3
30,0
33,2
33,1
28,9
28,3
23,6
31,5
25,5
35,1
30,4
24,6
29,6
26,7
26,3
26,4
25,4
29,4
31,0
30,4
32,5
26,5

50,0
55,6
50,9
47,1
51,9
47,9
41,8
49,4
49,1
45,2
46,6
50,8
46,5
49,9
50,2
52,9
51,8
52,4
52,4
50,8
48,4
46,2
47,6
48,9
48,5
54,3
53,2
48,6
49,9
45,1
46,6
43,0
45,6
48,4
50,2
51,8
51,6
44,5

Incidenza attesa
47,7161
51,6596
48,6262
47,4128
53,3280
45,3652
43,2418
46,0478
50,6737
44,4552
47,1095
50,0670
43,6210
49,5362
49,3845
51,2046
50,8254
49,8395
52,2663
52,1904
49,0053
48,5503
44,9861
50,9771
46,4269
53,7072
50,1429
45,7444
49,5362
47,3370
47,0336
47,1095
46,3511
49,3845
50,5979
50,1429
51,7354
47,1853

Residui
-2,2839
-3,9404
-2,2738
0,3128
1,4280
-2,5348
1,4418
-3,3522
1,5737
-0,7448
0,5095
-0,7330
-2,8790
-0,3638
-0,8155
-1,6954
-0,9746
-2,5605
-0,1337
1,3904
0,6053
2,3503
-2,6139
2,0771
-2,0731
-0,5928
-3,0571
-2,8556
-0,3638
2,2370
0,4336
4,1095
0,7511
0,9845
0,3979
-1,6571
0,1354
2,6853

Pennsylvania
Rhode Island
South Carolina
South Dakota
Tennessee
Texas
Utah
Vermont
Virginia
Washington
West Virginia
Wisconsin
Wyoming

30,0
27,3
31,7
29,9
33,7
30,9
24,1
24,7
27,2
27,2
35,1
29,8
27,8

50,3
47,1
48,2
50,9
51,7
49,7
45,1
43,3
45,0
44,6
57,5
47,4
44,0

49,8395
47,7920
51,1287
49,7637
52,6455
50,5221
45,3652
45,8202
47,7161
47,7161
53,7072
49,6879
48,1712

-0,4605
0,6920
2,9287
-1,1363
0,9455
0,8221
0,2652
2,5202
2,7161
3,1161
-3,7928
2,2879
4,1712

Regressione lineare e analisi dei residui


Scatterplot

y = 0,7584x + 27,089

R = 0,60641

60,0
55,0
50,0
45,0
40,0
35,0
30,0
25,0
20,0
10,0

15,0

20,0

25,0

30,0

35,0

40,0

In questo scatter plot a ciascun punto corrisponde uno stato americano P con coordinate
(x(p);y(p)) dove:
x(p) = percentuale di obesi nello stato P
y(p)= tasso di incidenza ogni 100'000 persone nello stato P
Il modello lineare che possiamo ipotizzare Y= a+bx , dove a=27,089 e b=0,7584
Il coefficiente di correlazione R =0,60641 : questo valore troppo basso per potersi

affidare con sicurezza al modello lineare, tuttavia riteniamo di non poter trascurare un certo
legame tra la variabile di ingresso e la variabile di uscita. Guardando il grafico, infatti,
possiamo notare come la nuvola di punti si addensi intorno alla retta di regressione
ascendente.

Normal probability plot-residues


3
2
1
0
-5

-4

-3

-2

-1

-1
-2
-3

Definiamo i residui come le differenze tra i valori effettivi della variabile di uscita Y e i valori
attesi, cio il valore che la variabile Y assumerebbe se seguisse esattamente la relazione
lineare.
Il normal probability plot una tecnica grafica che permette di visualizzare significativi
discostamenti dalla distribuzione normale. Sullasse x vi sono i residui disposti in ordine
crescente, sullasse y i quantili della normale standard calcolati a partire dalla funzione di
ripartizione empirica. Se il grafico che ne risulta assomiglia ad una retta a coefficiente
angolare positivo, allora il campione osservato si avvicina alla normalit. Allontanamenti
dalla retta o deformazioni significano che il campione non pu essere considerato normale.
Nel nostro caso i residui si dispongono approssimativamente su una retta, anche se nel terzo
quadrante i punti si disperdono.

TEST DI KOLMOGOROV SMIRNOFF PER LA NORMALIT DEI RESIDUI


Dopo aver osservato la distribuzione dei residui con il Normal Probability Plot, andiamo a
testare l ipotesi che questi siano distribuiti normalmente con media uguale alla media
2

campionaria dei residui e con varianza pari al rapporto


H0: i residui hanno distribuzione N(,

2 )

SSR
.
!n 2

H1: i residui non hanno distribuzione N(,

vs

2 )

La media campionaria dei residui 0 con approssimazione alla seconda cifra decimale.
SSR
Stimiamo invece la varianza campionaria dei residui con
, dove SSR rappresenta la
!n 2
somma dei quadrati dei residui, mentre n la taglia del campione.
La stima per la varianza dei residui sar 4,45(approssimata alla seconda cifra decimale), la
deviazione standard stimata varr perci circa 2,11.
Ipotizzeremo dunque che i residui abbiano distribuzione normale con:
=0,00

2= 4,45

Il test di Kolmogorov-Smirnov consiste nel confronto tra la funzione di ripartizione empirica,


calcolata sulla base dei dati raccolti, e la funzione di ripartizione teorica, quella cio che i
residui avrebbero se seguissero la distribuzione dellipotesi nulla.
A tale scopo ordiniamo crescentemente i dati e li numeriamo da 1 a n( con n taglia del
campione): la funzione di ripartizione empirica, calcolata nel punto xj, sar il rapporto tra
j(indice corrispondente a xj) e n.
La statistica test verr poi calcolata trovando la massima differenza in valore assoluto tra la
funzione di ripartizione teorica F e quella empirica, cio il massimo valore tra tutte le
differenze:

F(X i )

j
( j 1)
e F(X i )

n
n
!

Tale valore andr infine confrontato con le tavole del test.


Il valore calcolato della statistica test 0,0700

Significativit
Valore tabulato

0,2
0,1484

0,1
0,1696

0,05
0,1884

0,02
0,21

0,01
0,2260

Lipotesi nulla accettabile a tutti gli usuali livelli di significativit: il p-value infatti molto
maggiore di 0,2.
Possiamo dunque supporre con sufficiente sicurezza che i residui seguano distribuzione
normale N(0; 4,45).

Tabella del test di Kolmogorov-Smirnov


Stato
Alabama
West Virginia
Connecticut
Missouri
Hawaii
Montana
Massachusetts
Kansas
California
Alaska
Minnesota
Indiana
Ohio
South Dakota
Iowa
Illinois
Distr. of Columbia
Georgia
Mississippi
Pennsylvania
Idaho
Nebraska
Kentucky
Oklahoma
Utah
Arizona
North Dakota
New Jersey
Florida
Maine
Rhode Island
New York
Texas
Tennessee
North Carolina
Louisiana
Arkansas
Colorado
Delaware
Michigan
New Hampshire
Wisconsin
Maryland
Vermont
Oregon
Virginia
South Carolina
Washington
New Mexico
Wyoming

Residui
Residui std
j/n
(j-1)/n
FDR teorica
|F(x)-j/n| |F(x)-(j-1)/n|
-3,9404
-1,8682
0,0200
0,0000
0,0309
0,0109
0,0309
-3,7928
-1,7982
0,0400
0,0200
0,0361
0,0039
0,0161
-3,3522
-1,5893
0,0600
0,0400
0,0560
0,0040
0,0160
-3,0571
-1,4494
0,0800
0,0600
0,0736
0,0064
0,0136
-2,8790
-1,3649
0,1000
0,0800
0,0861
0,0139
0,0061
-2,8556
-1,3539
0,1200
0,1000
0,0879
0,0321
0,0121
-2,6139
-1,2393
0,1400
0,1200
0,1076
0,0324
0,0124
-2,5605
-1,2139
0,1600
0,1400
0,1124
0,0476
0,0276
-2,5348
-1,2018
0,1800
0,1600
0,1147
0,0653
0,0453
-2,2738
-1,0780
0,2000
0,1800
0,1405
0,0595
0,0395
-2,0731
-0,9829
0,2200
0,2000
0,1628
0,0572
0,0372
-1,6954
-0,8038
0,2400
0,2200
0,2108
0,0292
0,0092
-1,6571
-0,7857
0,2600
0,2400
0,2160
0,0440
0,0240
-1,1363
-0,5387
0,2800
0,2600
0,2950
0,0150
0,0350
-0,9746
-0,4621
0,3000
0,2800
0,3220
0,0220
0,0420
-0,8155
-0,3866
0,3200
0,3000
0,3495
0,0295
0,0495
-0,7448
-0,3531
0,3400
0,3200
0,3620
0,0220
0,0420
-0,7330
-0,3475
0,3600
0,3400
0,3641
0,0041
0,0241
-0,5928
-0,2811
0,3800
0,3600
0,3893
0,0093
0,0293
-0,4605
-0,2183
0,4000
0,3800
0,4136
0,0136
0,0336
-0,3638
-0,1725
0,4200
0,4000
0,4315
0,0115
0,0315
-0,3638
-0,1725
0,4400
0,4200
0,4315
0,0085
0,0115
-0,1337
-0,0634
0,4600
0,4400
0,4747
0,0147
0,0347
0,1354
0,0642
0,4800
0,4600
0,5256
0,0456
0,0656
0,2652
0,1258
0,5000
0,4800
0,5500
0,0500
0,0700
0,3128
0,1483
0,5200
0,5000
0,5589
0,0389
0,0589
0,3979
0,1886
0,5400
0,5200
0,5748
0,0348
0,0548
0,4336
0,2056
0,5600
0,5400
0,5814
0,0214
0,0414
0,5095
0,2415
0,5800
0,5600
0,5954
0,0154
0,0354
0,6053
0,2870
0,6000
0,5800
0,6129
0,0129
0,0329
0,6920
0,3281
0,6200
0,6000
0,6286
0,0086
0,0286
0,7511
0,3561
0,6400
0,6200
0,6391
0,0009
0,0191
0,8221
0,3897
0,6600
0,6400
0,6516
0,0084
0,0116
0,9455
0,4483
0,6800
0,6600
0,6730
0,0070
0,0130
0,9845
0,4668
0,7000
0,6800
0,6797
0,0203
0,0003
1,3904
0,6592
0,7200
0,7000
0,7451
0,0251
0,0451
1,4280
0,6770
0,7400
0,7200
0,7508
0,0108
0,0308
1,4418
0,6836
0,7600
0,7400
0,7529
0,0071
0,0129
1,5737
0,7461
0,7800
0,7600
0,7722
0,0078
0,0122
2,0771
0,9848
0,8000
0,7800
0,8376
0,0376
0,0576
2,2370
1,0606
0,8200
0,8000
0,8556
0,0356
0,0556
2,2879
1,0847
0,8400
0,8200
0,8610
0,0210
0,0410
2,3503
1,1143
0,8600
0,8400
0,8674
0,0074
0,0274
2,5202
1,1949
0,8800
0,8600
0,8839
0,0039
0,0239
2,6853
1,2731
0,9000
0,8800
0,8985
0,0015
0,0185
2,7161
1,2877
0,9200
0,9000
0,9011
0,0189
0,0011
2,9287
1,3885
0,9400
0,9200
0,9175
0,0225
0,0025
3,1161
1,4774
0,9600
0,9400
0,9302
0,0298
0,0098
4,1095
1,9483
0,9800
0,9600
0,9743
0,0057
0,0143
4,1712
1,9776
1,0000
0,9800
0,9760
0,0240
0,0040

10

TUMORE ALLA PROSTATA ED ETNIA DI PROVENIENZA


In questo modulo si propone losservazione del legame tra fattori genetici dovuti alletnia di
un individuo e la diversa incidenza di alcune forme tumorali.
Avendo osservato una evidente analogia tra la distribuzione della minoranza
afroamericana nei diversi stati dellUnione e il tasso medio di incidenza del cancro alla
prostata sulla popolazione, ci proponiamo in questa sede di approfondire tale ipotetico
legame osservandone la correlazione.
A tale scopo effettueremo un test di indipendenza e analizzeremo il legame lineare tra la
causa(appartenenza alletnia afroamericana) e leffetto(maggiore incidenza del cancro
alla prostata).

Un po di grafici
Confronto causa-effetto con grafico a linee

Sullasse delle ascisse abbiamo inserito i nomi degli stati americani, mentre sulle ordinate
presente la percentuale di afroamericani stato per stato(linea rossa), la media nazionale di
afroamericani sul totale della popolazione (linea viola), e il numero di casi di cancro alla
prostata ogni 10'000 abitanti (linea blu). Osserviamo che pur non essendoci una
corrispondenza ovunque verificata, tutti i paesi occupanti le prime dieci posizioni per
incidenza del cancro alla prostata per abitante hanno una percentuale di afroamericani
superiore alla media nazionale(12,6%),fatta eccezione per il Minnesota.

11

Distribuzione della popolazione afroamericana negli Stati Uniti

Nel grafico sovrastante si nota come la popolazione afroamericana sia maggiormente


presente ad est, ad eccezione del New Hampshire, Maine e Vermont, con una con
concentrazione particolarmente elevata nella zona meridionale.

Tasso di incidenza sulla popolazione americana del cancro alla prostata

In questo seconda mappa vediamo che la zona sud-est ha una percentuale maggiore di
individui che hanno contratto il cancro alla prostata, in linea con la cartina precedente in
cui nella medesima zona c una maggior concentrazione di popolazione afroamericana.
Inoltre nelle aree in cui la percentuale di afroamericani notevolmente inferiore, c un
tasso di incidenza del tumore relativamente basso.
Non possiamo per ritenere completamente valida la congettura riguardo al legame tra il
fattore genetico e la contrazione del cancro poich molti stati (ad esempio Utah e Florida)
non seguono questo trend.

12

Tabella dei dati


STATO
District of Columbia
Louisiana
Delaware
New Jersey
New York
Michigan
Mississippi
Georgia
Minnesota
Maryland
Alabama
Kansas
Connecticut
Illinois
North Carolina
New Hampshire
Massachusetts
North Dakota
South Carolina
Colorado
Montana
Pennsylvania
Arkansas
Washington
Tennessee
Wyoming
Rhode Island
Virginia
Oklahoma
South Dakota
Wisconsin
Nebraska
California
Ohio
Oregon
Maine
Vermont
Iowa
Kentucky
Florida
Texas
West Virginia
Alaska
New Mexico
Missouri
Indiana
Hawaii
Arizona

Casi di cancro alla prostata ogni


10000 abitanti

Percentuale di afroamericani
19,8
16,9
16,8
16,6
16,3
16,2
16,1
16,1
15,9
15,4
15,4
15,3
15,2
15,1
15,1
15,0
15,0
14,9
14,9
14,8
14,7
14,6
14,5
14,4
14,4
14,3
14,3
14,3
14,3
14,2
13,9
13,7
13,6
13,6
13,4
13,4
13,3
13,3
12,9
12,8
12,7
12,6
12,6
12,4
12,2
11,7
11,4
10,1

residui
51,1
32,3
21,4
14,9
16,7
14,9
37,1
30,6
5,9
29,4
26,3
6,9
10,9
15,9
21,4
1,2
7,8
1,2
27,9
4,1
0,4
11,2
15,6
4,7
16,7
1,1
6,1
19,5
7,2
1,3
6,2
4,5
6,6
12,2
1,8
1,1
0,9
2,9
7,8
15,9
11,1
3,1
3,4
1,8
11,1
8,8
1,6
4,1

1,53021
0,48953
1,46754
1,91039
1,43237
1,51039
-0,78519
-0,14234
2,10049
-0,72366
-0,41707
1,40159
0,90599
0,31149
-0,23246
1,66532
1,01258
1,56532
-1,07531
1,17851
1,44444
0,27632
-0,25884
0,71917
-0,46763
0,97521
0,48071
-0,84455
0,37192
0,85543
0,07082
0,03895
-0,26874
-0,82258
0,00598
0,07521
-0,00501
-0,20281
-1,08742
-1,98851
-1,61379
-0,92259
-0,95226
-0,99402
-2,11379
-2,38632
-1,97424
-3,52149

13

Regressione lineare

Scatterplot

y = 0,0989x + 13,216

R = 0,4382

25,0
20,0
15,0
10,0
5,0
0,0
-10

10

20

30

40

50

60


In questo scatter plot a ciascun punto corrisponde uno stato americano con coordinate (x(p),y(p))
dove:
x(p) = percentuale di afroamericani nello stato P, sul totale della popolazione
y(p)= tasso di incidenza del tumore ogni 100'000 persone nello stato P
Il modello lineare che possiamo ipotizzare Y= a + bx , dove a=0,0989 e b=13,216
Il coefficiente di correlazione R =0,4382 : questo valore troppo basso per potersi affidare al
modello lineare. Guardando il grafico infatti notiamo che la retta poco pendente: ai diversi valori
delle x(p) corrispondono y(p) simili tra di loro. Possiamo inoltre notare come la nuvola di punti si
addensi soprattutto nell intervallo delle ascisse [0,15] piuttosto che intorno a tutta la retta.

Test chi quadrato di indipendenza


Consideriamo un campione teorico di 100'000 statunitensi.
La percentuale degli afroamericani sul totale della popolazione risultava, nel quadriennio
2008-2012, pari al 12,9%, contro il 79% di bianchi, il 4,6% di asiatici e un 3,5% di appartenenti
ad altre etnie. Inoltre lincidenza del cancro alla prostata sul totale della popolazione
dello 0,155%.
Stime per le probabilit marginali:
Valore stimato
Probabilit di contrarre un cancro alla prostata

0,00155

Probabilit di non contrarre un cancro alla prostata

0,99845

Probabilit che lindividuo sia bianco

0,79000

Probabilit che lindividuo sia afroamericano

0,12900

Probabilit che lindividuo sia asiatico

0,04600

Probabilit che lindividuo appartenga ad altre etnie

0,03500

14

Considerato un campione omogeneo che tenga conto dellincidenza della malattia sui
diversi gruppi etnici e la percentuale di individui appartenenti ai quattro macrogruppi
considerati, la tabella riassuntiva delle osservazioni sar:
Vogliamo testare:
H0: etnia e tasso di incidenza del tumore alla prostata sono indipendenti
Vs
H1: etnia e tasso di incidenza del tumore alla prostata non sono indipendenti

Bianchi Afroamericani Asiatici


Altri
Totale
Ammalati
112
30
7
6
155
Sani
78888
12870
4593
3494 99845
Totale
79000
12900
4600
3500 100000
Confrontiamo ora i valori osservati con i prodotti delle probabilit marginali e calcoliamo la
statistica test T, riportando nella tabella sottostante i singoli addendi che intervengono nel
calcolo di T
bianchi
afroamericani asiatici
altri
0,89181298
5,00625281
0,002370266 0,0609447
0,00138446
0,00777174
0,000003680 0,00009461

prostata si
prostata no

Il valore osservato per la statistica test T 5,97063525.


Significativit
Quantile di ordine
Decisione

0,02

0,01
4,642
RIFIUTO H0

6,251
ACCETTO H0

Il p-value del test sar dunque compreso tra 0,01 e 0,02.


In particolare, utilizzando lapposita funzione di Excel,

P{ (3) >

5,97} = 0,0145 ,

che proprio il valore del p-value.


Dunque, a livelli di significativit maggiori di 1,45% siamo costretti a rifiutare lipotesi nulla e a
concludere che la probabilit di ammalarsi dipenda dalletnia di provenienza.

15

TUMORE AI POLMONI E FUMO


Il fumo di sigaretta la principale causa di malattie mortali negli Stati Uniti, ad esso sono
dovuti 480.000 morti ogni anno. Si stima che negli Stati Uniti vi siano 42,1 milioni di adulti, circa
il 17,8% della popolazione, che fanno un quotidiano uso di sigarette.
In questo paragrafo lobiettivo sar quello di individuare un eventuale legame tra il fumo
attivo e la probabilit di contrarre un cancro ai polmoni: per fare ci utilizzeremo un test
dindipendenza e in seguito analizzeremo due modelli lineari che descrivano tale
correlazione, scegliendo tra essi quello pi performante.
Ai fini della nostra indagine abbiamo dovuto scegliere un criterio per decidere quando
collocare un individuo nella categoria fumatori.
Il National Cancer Institute considera fumatore una persona che fuma almeno 100 sigarette
in un anno; abbiamo perci deciso di seguire questa convenzione.

Un po di grafici
Percentuale di fumatori per stato

Nel grafico soprastante si nota come la percentuale di fumatori(anche occasionali) sul


totale della popolazione adulta sia molto maggiore negli stati del Central-South East(e della
parte orientale degli States) rispetto a quelli della costa pacifica(e pi in generale della
zona occidentale).

16

Tasso di incidenza di tumore a polmoni e bronchi ogni 100'000 persone

Unanaloga tendenza rispetto alla carta tematica rappresentante la percentuale di


fumatori nei singoli stati si evidenzia in questa seconda cartina, in cui i singoli stati dellUnione
sono suddivisi in dieci fasce in base al tasso di incidenza del cancro ai polmoni sulla
popolazione locale: notiamo come la costa pacifica, oltre ad avere una percentuale di
fumatori ben al di sotto della media nazionale, abbia un tasso di incidenza del cancro a
polmoni e bronchi considerevolmente inferiore rispetto al resto degli Stati Uniti.
Sar dunque naturale andare ad approfondire questa tendenza per ricavarne una legge
lineare che approssimi la dipendenza tra fumo e cancro alle vie respiratorie.

Adul? fumatori negli USA


FUMATORI

NON FUMATORI

18%

82%

17

Confronto causa-effetto con grafico a linee

Sullasse delle ascisse abbiamo disposto gli stati americani, mentre le ordinate indicano nel
caso della linea rossa il numero di persone ogni 100'000 che si ammala di cancro ai polmoni,
nel caso della linea blu la percentuale di adulti fumatori.
A colpo docchio si vede che landamento delle due statistiche va di pari passo:
allaumentare della percentuale di fumatori cresce il tasso di incidenza della malattia.
Viceversa gli stati con meno fumatori sono quelli dove si registra il minor numero di
ammalati.

Creazione di un modello bivariato


Conoscendo la vastit del problema e il legame delle malattie polmonari con la presenza
di polveri inquinanti e agenti patogeni nellatmosfera, abbiamo deciso di tenere in
considerazione unulteriore variabile. Abbiamo quindi costruito un modello bivariato, in cui
oltre che alla percentuale di fumatori, lincidenza del cancro ai polmoni sia legata
linearmente anche a un indice di qualit dellaria.
A tale scopo abbiamo considerato i dati delle stazioni di analisi atmosferiche di tutti gli USA:
lindice da noi considerato sar il numero medio di giorni in un anno in cui lAQI (Air Quality
Index) superi la soglia di insalubrit. Ad un elevato valore di questo indice corrisponder
una bassa qualit dellaria, e quindi ci aspetteremo un aumento del tasso di incidenza
tumorale.
Non stato possibile considerare tutti gli Stati dellUnione per lassenza di rilevazioni in New
Mexico e nelle Hawaii.

18

Tabella dei dati


STATO
INDICE INQUINAMENTO DELL'ARIA
%FUMATORI
INCIDENZA
Alabama
7,6
24,3
71,0
Alaska
1,0
22,9
63,3
Arizona
32,2
19,2
51,2
Arkansas
1,6
27,0
75,2
California
23,2
13,7
44,7
Colorado
3,8
18,3
55,6
Connecticut
8,0
17,1
62,1
Delaware
20,0
21,7
64,3
District of Columbia
20,0
20,8
55,8
Florida
1,8
19,3
61,0
Georgia
3,5
21,2
65,8
Idaho
8,3
17,2
50,9
Illinois
6,3
20,9
66,8
Indiana
10,2
25,6
72,5
Iowa
7,5
20,4
62,8
Kansas
1,0
22,0
61,5
Kentucky
6,0
29,0
80,1
Louisiana
8,1
25,7
69,8
Maine
2,4
22,8
69,2
Maryland
6,0
19,1
56,7
Massachusetts
4,3
18,2
55,8
Michigan
25,0
23,3
66,2
Minnesota
2,0
19,1
55,8
Mississippi
2,0
26,0
73,2
Missouri
15,4
25,0
72,0
Montana
7,0
22,1
59,7
Nebraska
6,0
20,0
55,6
New Hampshire
18,0
19,4
59,7
New Jersey
9,4
16,8
58,6
New York
2,9
18,1
61,6
North Carolina
7,7
21,8
68,4
North Dakota
1,6
21,9
58,6
Ohio
11,3
25,1
68,6
Oklahoma
0,6
26,1
70,2
Oregon
0,8
19,7
60,8
Pennsylvania
12,8
22,4
66,1
Rhode Island
5,0
20,0
63,2
South Carolina
2,8
23,1
65,3
South Dakota
0,7
23,0
67,0
Tennessee
15,6
23,0
64,8
Texas
5,6
19,2
54,1
Utah
15,1
11,8
39,3
Vermont
0,7
19,1
65,7
Virginia
5,4
20,9
59,3
Washington
0,8
17,5
58,4
West Virginia
8,9
28,6
79,2
Wisconsin
11,8
20,9
60,3
Wyoming
0,8
23,0
67,1

19

REGRESSIONE LINEARE BIVARIATA


Tabella 1
Statistica della regressione
R multiplo
R al quadrato
R al quadrato corretto
Errore standard
Osservazioni

Valore
0,913182672
0,833902592
0,826520485
3,335161572
48

Tabella 2

Intercetta
Variabile X 1
Variabile X 2

Coefficienti
20,88543389
-0,147571096
2,021142694

Errore standard
3,177723293
0,067726865
0,141166364

Stat t
6,572452026
-2,178915224
14,31745241

Valore di significativit
4,3986*10-8
0,0346142
2,28063*10-18

Notiamo come loutput del modello della regressione bivariata fornisca un modello
abbastanza affidabile:
Y =numero di casi di cancro ai polmoni ogni 100000 abitanti
X1= numero di giorni oltre la soglia di salubrit in un anno
X2=percentuale di fumatori sul totale della popolazione
Y = +1X1+2X2
= 20,88543389
1= -0,147571096
2= 2,021142694
Il modello sar dunque M1: Y= 20,88543389 - 0,147571096X1 + 2,021142694X2
Il valore di R2 abbastanza elevato(0,8339), quindi possiamo dire che il modello da noi
scelto spieghi bene landamento dei dati.
Tuttavia il valore di 1 risulta piuttosto basso, e infatti il p-value per il test
H0: 1=0

vs

H1: 10

pari a circa 3,46 , non fornendoci quindi sufficienti certezze sul fatto che il modello sia il pi
performante possibile.
Se un coefficiente di uno dei predittori risultasse infatti pari a 0, potrebbe tranquillamente
essere escluso dal modello senza che la previsione per la Y ne risulti alterata in modo
significativo.
Converr dunque confrontare il modello M1 con un secondo modello M2 univariato, che
leghi lincidenza del cancro ai polmoni unicamente alla variabile X1(percentuale di fumatori
nella popolazione).

20

Tabella dei dati sulla relazione tra percentuale di fumatori e cancro ai polmoni
Stati
Alabama
Alaska
Arizona
Arkansas
California
Colorado
Connecticut
Delaware
District of Columbia
Florida
Georgia
Hawaii
Idaho
Illinois
Indiana
Iowa
Kansas
Kentucky
Louisiana
Maine
Maryland
Massachusetts
Michigan
Minnesota
Mississippi
Missouri
Montana
Nebraska
New Hampshire
New Jersey
New Mexico
New York
North Carolina
North Dakota
Ohio
Oklahoma
Oregon
Pennsylvania
Rhode Island
South Carolina
South Dakota
Tennessee
Texas
Utah
Vermont
Virginia
Washington
West Virginia
Wisconsin
Wyoming

% Fumatori
24,3
22,9
19,2
27,0
13,7
18,3
17,1
21,7
20,8
19,3
21,2
16,8
17,2
20,9
25,6
20,4
22,0
29,0
25,7
22,8
19,1
18,2
23,3
19,1
26,0
25,0
22,1
20,0
19,4
16,8
21,5
18,1
21,8
21,9
25,1
26,1
19,7
22,4
20,0
23,1
23,0
23,0
19,2
11,8
19,1
20,9
17,5
28,6
20,9
23,0

Incidenza del cancro Valori attesi


Residui
71,0
68,9826
63,3
66,0181
51,2
58,1831
75,2
74,7000
44,7
46,5366
55,6
56,2774
62,1
53,7363
64,3
63,4770
55,8
61,5712
61,0
58,3949
65,8
62,4182
47,2
53,1010
50,9
53,9481
66,8
61,7830
72,5
71,7354
62,8
60,7242
61,5
64,1123
80,1
78,9351
69,8
71,9472
69,2
65,8063
56,7
57,9714
55,8
56,0656
66,2
66,8651
55,8
57,9714
73,2
72,5825
72,0
70,4649
59,7
64,3240
55,6
59,8772
59,7
58,6067
58,6
53,1010
62,2
63,0535
61,6
55,8538
68,4
63,6888
58,6
63,9005
68,6
70,6767
70,2
72,7942
60,8
59,2419
66,1
64,9593
63,2
59,8772
65,3
66,4416
67,0
66,2298
64,8
66,2298
54,1
58,1831
39,3
42,5133
65,7
57,9714
59,3
61,7830
58,4
54,5833
79,2
78,0881
60,3
61,7830
67,1
66,2298

-2,0174
2,7181
6,9831
-0,5000
1,8366
0,6774
-8,3637
-0,8230
5,7712
-2,6051
-3,3818
5,9010
3,0481
-5,0170
-0,7646
-2,0758
2,6123
-1,1649
2,1472
-3,3937
1,2714
0,2656
0,6651
2,1714
-0,6175
-1,5351
4,6240
4,2772
-1,0933
-5,4990
0,8535
-5,7462
-4,7112
5,3005
2,0767
2,5942
-1,5581
-1,1407
-3,3228
1,1416
-0,7702
1,4298
4,0831
3,2133
-7,7286
2,4830
-3,8167
-1,1119
1,4830
-0,8702

21

Regressione lineare univariata e analisi dei residui


Scatterplot

y = 2,1175x + 17,526

R = 0,8183

90
80
70
60
50
40
30
20
10
0
0

10

15

20

25

30

35

In questo grafico si ipotizza lesistenza di un legame lineare tra percentuale di fumatori e


incidenza del cancro ai polmoni nei singoli stati.
Ognuno di essi rappresentato da un punto P:
Lascissa del punto x(P) rappresenta la percentuale di fumatori nello Stato
rappresentato da P
Lordinata del punto y(P) rappresenta il tasso di incidenza della forma tumorale
in questione su un totale di 100000 abitanti di quello stato
Osserviamo che la retta che meglio approssima la distribuzione dei dati ha equazione:
Y=2,1175x + 17,526 +
Il corrispondente valore del coefficiente di correlazione :
R = 0,8183
Poich tale valore abbastanza elevato, riteniamo di poterci affidare con discreta
sicurezza al modello lineare sopracitato.
Scarteremo dunque il modello bivariato precedentemente utilizzato in quanto il coefficiente
di correlazione R2 non denota una differenza abbastanza significativa da giustificare la
scelta di un modello bivariato e perci pi costoso in termini di ricerca e raccolta dei dati.
Affinch questa seconda relazione lineare possa essere considerata accettabile, dovremo
verificare che gli errori siano distribuiti come una gaussiana di media 0 e varianza 2.
Andremo perci a studiare i residui di questa regressione lineare.

22

Residui
Ci aspettiamo che i residui abbiano approssimativamente media nulla .
Stati
Alabama
Alaska
Arizona
Arkansas
California
Colorado
Connecticut
Delaware
District of Columbia
Florida
Georgia
Hawaii
Idaho
Illinois
Indiana
Iowa
Kansas
Kentucky
Louisiana
Maine
Maryland
Massachusetts
Michigan
Minnesota
Mississippi

Residui
-2,017367763
2,718067331
6,983145793
-0,499992586
1,836640805
0,677354068
-8,363701566
-0,822988303
5,771219972
-2,605099571
-3,381761484
5,901034526
3,048053070
-5,017025392
-0,764557493
-2,075798573
2,612275606
-1,164899863
2,147197143
-3,393687305
1,271391157
0,265599432
0,665085876
2,171391157
-0,617538948

Missouri
Montana
Nebraska
New Hampshire
New Jersey
New Mexico
New York
North Carolina
North Dakota
Ohio
Oklahoma
Oregon
Pennsylvania
Rhode Island
South Carolina
South Dakota
Tennessee
Texas
Utah
Vermont
Virginia
Washington
West Virginia
Wisconsin
Wyoming

-1,535085310
4,624030242
4,277182883
-1,093344934
-5,498965474
0,853502425
-5,746155204
-4,711233667
5,300520970
2,076669327
2,594215688
-1,558081026
-1,140705850
-3,322817117
1,141576603
-0,770178033
1,429821967
4,083145793
3,213302718
-7,728608843
2,482974608
-3,816683021
-1,111918408
1,482974608
-0,870178033

Media campionaria dei residui: -0,0000000000000102


Varianza campionaria dei residui: 12,0629633
Deviazione standard dei residui: 3,473177695
Come da noi auspicato, la media dei residui approssimabile a 0.
Supporremo perci che i residui siano distribuiti normalmente con media 0
e varianza 12,1.

23

Omoschedasticit dei residui

RESIDUI
8
6
4
2
0
-2
-4
-6
-8
-10
10

12

14

16

18

20

22

24

26

28

30

Sullasse delle ascisse vi la percentuale di fumatori negli stati americani, mentre sullasse
delle ordinate vi sono il valore dei residui.
Notiamo che i residui non seguono un andamento notevole, il che ci fa ben sperare
riguardo la loro normalit, in quanto la differenza dal valore atteso (secondo la regressione
lineare) del valore effettivo registrato non mostra una dipendenza immediatamente visibile
dal valore della variabile di ingresso X.
L'omoschedasticit una condizione ideale nella quale si trova una funzione di dati
rappresentabili graficamente come dispersi in maniera abbastanza omogenea al di sopra
od al di sotto di una linea retta.
La nuvola dei residui rispetta la definizione sovrastante poich si distribuisce piuttosto
omogeneamente sullarea del grafico.




24

Normal probability plot - Residui


3
2
1
0
-8

-6

-4

-2

-1
-2
-3

I punti si dispongono con buona approssimazione attorno ad una retta passante per
lorigine, eccezion fatta di alcuni punti con valori molto alti o bassi: possiamo quindi
assumere che i residui seguano una distribuzione normale di media 0.
Per verificare tale ipotesi effettueremo un test di Shapiro-Wilk.

Test di Shapiro-Wilk per la normalit dei residui


Per effettuare il test di Shapiro-Wilk occorre disporre in ordine crescente i dati xi di cui si vuole
verificare la normalit, per poi calcolare:
n

SS = (X i X )2
i=1
!
Se la taglia n del campione pari considereremo m=n/2, in caso di disparit m=(n-1)/2.
Il valore di m ci servir ora per calcolare la statistica test.
Definito b come:
m

b = ai (X n+1i X i ) ,
! i=1
dove i valori ai sono coefficienti variabili a seconda del valore di n, la statistica test W sar
uguale a:
W=b2/SS
I valori della statistica test di Shapiro-Wilk sono compresi tra 0 e 1 e vengono confrontati con
le tavole appositamente costruite per il test.
Appare evidente che, se consideriamo il campione ordinato crescentemente, in caso di n
dispari, essendo b la somma pesata(coi coefficienti ai) delle differenze tra i termini del
campione equidistanti dalla mediana, non verr utilizzato, nel calcolo di b, il valore della
mediana stessa.

25

TABELLA RIEPILOGATIVA DEL TEST DI SHAPIRO-WILK


STATI
Connecticut
Vermont
New York
New Jersey
Illinois
North Carolina
Washington
Maine
Georgia
Rhode Island
Florida
Iowa
Alabama
Oregon
Missouri
Kentucky
Pennsylvania
West Virginia
New Hampshire
Wyoming
Delaware
South Dakota
Indiana
Mississippi
Arkansas
Massachusetts
Michigan
Colorado
New Mexico
South Carolina
Maryland
Tennessee
Wisconsin
California
Ohio
Louisiana
Minnesota
Virginia
Oklahoma
Kansas
Alaska
Idaho
Utah
Texas
Nebraska
Montana
North Dakota
District of Columbia
Hawaii
Arizona

RESIDUI
-8,6637
-7,7286
-5,7462
-5,4990
-5,0170
-4,7112
-3,8167
-3,3937
-3,3818
-3,3228
-2,6051
-2,0758
-2,0174
-1,5581
-1,5351
-1,1649
-1,1407
-1,1119
-1,0933
-0,8702
-0,8230
-0,7702
-0,7646
-0,6175
-0,5000
0,2656
0,6651
0,6774
0,8535
1,1416
1,2714
1,4298
1,4830
1,8366
2,0767
2,1472
2,1714
2,4830
2,5942
2,6123
2,7181
3,0481
3,2133
4,0831
4,2772
4,6240
5,3005
5,7712
5,9010
6,9831

ADDENDI DI SS
ADDENDI DI b
75,0597
5,8691
59,7314
3,5083
33,0183
2,6041
30,2386
2,1945
25,1705
1,7807
22,1957
1,5199
14,5671
1,2276
11,5171
0,9455
11,4363
0,8468
11,0411
0,7322
6,7865
0,5807
4,3089
0,4768
4,0698
0,4194
2,4276
0,3155
2,3565
0,2813
1,3570
0,2220
1,3012
0,1810
1,2364
0,1380
1,1954
0,1158
0,7572
0,0827
0,6773
0,0617
0,5932
0,0396
0,5845
0,0251
0,3814
0,0133
0,2500
0,0027
0,0705
0,4423
0,4588
0,7285
1,3032
1,6164
2,0444
2,1992
3,3732
4,3126
4,6105
4,7149
6,1652
6,7300
6,8240
7,3879
9,2906
10,3253
16,6721
18,2943
21,3817
28,0955
33,3070
34,8222
48,7643

COEFF
a1
a2
a3
a4
a5
a6
a7
a8
a9
a10
a11
a12
a13
a14
a15
a16
a17
a18
a19
a20
a21
a22
a23
a24
a25

VALORE COEFF
0,3751
0,2574
0,2261
0,2032
0,1847
0,1691
0,1554
0,1431
0,1317
0,1212
0,1113
0,1021
0,0932
0,0846
0,0764
0,0685
0,0608
0,0532
0,0459
0,0386
0,0314
0,0244
0,0174
0,0104
0,0035

26

H0: i residui sono distribuiti normalmente

vs

H1:i residui non sono distribuiti normalmente

La taglia n del campione uguale a 50, perci il valore m(numero di addendi nella
sommatoria per il calcolo di b) sar pari a 25.
Per b risulta essere, approssimando a quattro cifre decimali:
b=24,1844
Analogamente, lapprossimazione a quattro cifre decimali di SS sar:
SS=596,1924
Dunque:
W=0,9810
Confrontando la statistica test W con le tavole dello Shapiro Test risulter che il p-value di
questo test compreso tra 0,5 e 0,9.
Accetteremo con sicurezza lipotesi nulla: i residui seguono una distribuzione normale.

Intervallo di predizione per la risposta futura


Abbiamo quindi verificato che il nostro modello lineare univariato funziona piuttosto bene.
Ci poniamo adesso questa domanda: se in un certo stato cambiasse la percentuale di
fumatori, come cambierebbe il tasso di incidenza del cancro ai polmoni in quello stato?
Immaginiamo un esempio.
In Indiana il 25,6% della popolazione fuma sigarette, e 72,5 persone ogni 100'000 vengono
affette dalla neoplasia in questione. E logico pensare che se in questo stato si mettesse in
atto unefficace campagna antifumo, molte meno persone si ammalerebbero.
Poniamo la nuova percentuale di fumatori al 20%, con una riduzione quindi del 5,6%, e
vediamo di costruire una stima puntuale e una intervallare per lincidenza della malattia.
Per una stima puntuale sostituiamo la nuova x0=20 allinterno della retta di regressione
trovata prima.
Y0 = 2,1175x0 + 17,526

con A=17,526 e B=2,1175

Otteniamo Y0 = 59,876 che la stima puntuale per il nuovo tasso di incidenza del tumore
ogni 100'000 persone.
Passiamo ora allintervallo di predizione.
Dalla teoria sappiamo che

Y A BX 0

X X0
n +1 +
n
S xx

N(0,1)

27

Sostituendo alla varianza il suo stimatore

A+ BX 0 t
2

SSR
possiamo costruire un intervallo della forma
n2

,(n2)

" 1 (X X )2 % SSR
0
$1+ +
'

S xx '& n2
$# n

Dove:
Sxx = 593,5088
SSR = 591,0852016
n = 50
A+Bx0 = stima di Y0 = 59,876
A livello di confidenza 90% lintervallo sar:

( 53,9243 ; 65,8277 )
A livello di confidenza 95%:

( 52,7412 ; 67,0108 )

CONCLUSIONE
Dai dati analizzati per mezzo di strumenti statistici che ci sono stati forniti durante il corso di
Probabilit e Statistica emerso che tra i tipi di tumore studiati e le rispettive cause si
possono ipotizzare diversi livelli di correlazione.
Non evidentissimo, ma comunque significativo il legame tra obesit e tumore al colon. In
questo caso il modello lineare non si adatta perfettamente ai dati, lasciando cos pensare
che il fattore obesit, pur incidendo molto sulla contrazione del tumore, non ne lunica
causa.
Ci siamo poi resi conto che i risultati della nostra analisi non ci consentono di affermare con
grande convinzione che la popolazione afroamericana abbia maggiore possibilit di
contrarre una neoplasia alla prostata rispetto alle altre etnie. Nonostante avessimo verificato
su internet che con evidenza scientifica esista una predisposizione genetica per questo tipo
di malattia, con questo tipo di dati e con gli strumenti a nostra disposizione non siamo riusciti
a mettere in luce questo aspetto.
Maggiormente evidente, infine, la connessione tra cancro ai polmoni e fumo di sigarette,
per la quale siamo riusciti a costruire un modello univariato piuttosto forte, in grado di
spiegare bene come il consumo di tabacco aumenti il rischio di contrarre un tumore a
questo specifico organo.

28