L'abitudine Al Fumo in Italia

TESINA DI STATISTICA PROF.
CARRA
Analisi statistica relativa a Labitudine al fumo in Italia

di Rizzi Laura n matricola 1012326
A.A. 2011/2012
SCIENZE PSICOLOGICHE
UNIVERSIT
DEGLI STUDI DI
BERGAMO

INTRODUZIONE Con questo elaborato ho cercato di mettere in luce aspetti e soprattutto relazioni per quanto concerne la tematica dellabitudine al fumo nel territorio italiano. Dopo aver recuperato i dati ho proceduto ad analizzarli, seguendo tre modelli statistici: modello Anova: E possibile affermare che let influisce sul n di fumatori in Italia? analisi dei dati categoriali: Esiste una relazione tra il luogo di residenza e la decisione di fumare? analisi della regressione e correlazione: E possibile affermare che il n di fumatori influisce sul n di soggetti malati di tumore ai polmoni?
Inoltre, ho deciso di calcolare anche i fattori di Media, Moda e Mediana e per concludere ho inserito delle mie considerazioni ed osservazioni per quanto riguarda il lavoro svolto. Naturalmente per poter realizzare tutto ci, ho fatto riferimento al sito dellIstat, il quale ogni anno conduce indagini statistiche sul tenore di vita della popolazione italiana, toccando numerosi ambiti. Proprio la ricerca sullabitudine al fumo, rientra nellindagine campionaria Aspetti della vita quotidiana e fa parte di un sistema integrato di indagini sociali, le indagini multiscopo sulle famiglie, e rivela le informazioni fondamentali relative alla vita quotidiana degli individui e delle famiglie.
Universit degli studi di Bergamo
LE FONTI Il materiale da me adoperato per poter svolgere la mia analisi statistica proviene da ricerche effettuate dallISTAT, GEODEMO (una sezione sempre appartenente allIstat, che mette a disposizione dati pi recenti relativi alla popolazione residente nei Comuni Italiani derivanti dalle indagini effettuate presso gli uffici di Anagrafe) e lAssociazione Italia dei registri tumori (AIRTUM) che fornisce statistiche pi aggiornate della diffusione dei tumori nelle aree coperte dai registri. Di seguito vengono riportati gli indirizzi internet dai quali mi stato possibile reperire il materiale di ricerca e analisi: www.istat.it www.demo.istat.it www.registro-tumori.it

DISTRIBUZIONI DI FREQUENZE Il primo passo da compiere nella costituzione di una distribuzione consiste nel determinare quante osservazioni rientrano in ciascuna categoria di risposta della variabile analizzata. Il risultato di questo conteggio ci permette di calcolare una distribuzione di frequenze intesa come la tavola che riporta le categorie di risposta di una variabile e il numero di volte in cui ciascuna risposta stata osservata. Le distribuzioni di frequenze semplici possono essere trasformate in distribuzioni di frequenze relative (o proporzioni) o in distribuzioni percentuali. Per calcolare le frequenze relative (o proporzioni) occorre dividere il numero dei casi appartenente a ciascuna categoria di risposta per il numero totale dei casi; essa viene indicata con (p) e la somma di tutte le proporzioni che formano una distribuzione di frequenze relative sempre uguale a 1. Le frequenze relative ci permettono di effettuare confronti con altre distribuzioni di frequenza che riguardano al stessa domanda ma sono calcolate su un numero di casi differenti. Le distribuzioni percentuali (%) si calcolano moltiplicando per 100 ognuna delle proporzioni; la somma di tutte le percentuali associate alle possibili categoria di risposta di una data variabile sempre uguale a 100%. Se si ha bisogno di conoscere la posizione relativa di un determinato valore allinterno di una distribuzione di punteggi continui possibile calcolare una distribuzione di frequenze cumulate semplici o percentuali. Le frequenze cumulate (fc) associate ad un determinato valore di una variabile corrisponde al numero totale di osservazioni che hanno un valore uguale o inferiore a quello di riferimento. Per calcolare le diverse frequenze cumulate bisogna iniziare dalla frequenza semplice associata alla categoria pi bassa (f1) aggiungerla alla frequenza semplice associata alla categoria immediatamente superiore (f2) quindi aggiungere alla somma precedente la frequenza semplice associata alla categoria ancora immediatamente superiore (f3) e cos via. La distribuzione di percentuale cumulate (%c) si ottiene sommando progressivamente le frequenze percentuali e permette di individuare in modo molto chiaro la posizione occupata da un dato valore di una variabile relativamente agli altri valori.

MISURE DI TENDENZA CENTRALE MODA La moda , allinterno di un insieme K di categorie che formano una data distribuzione, la categoria alla quale associato il numero di osservazioni pi elevato. Abitudine al fumo per persone maggiori di 14 anni per 100 persone con le stesse caratteristiche nel corso del 2011
N=10 Classe di et 14-17 anni 18-19 anni 20-24 anni 25-34 anni 35-44 anni 45-54 anni 55-59 anni 60-64 anni 65-74 anni 75 anni e pi totale 2011 8,8 24,4 25,8 30,6 27,5 27,6 25,1 21,5 13,9 5,6 22,3
La categoria modale di questa distribuzione rappresentata dagli individui che hanno et compresa tra i 25 e i 34 anni. MEDIA E MEDIANA La media aritmetica rappresenta la misura di tendenza centrale pi comune. Essa pu essere calcolata solo per variabili continue: si sommano i valori di tutte le osservazioni e il risultato lo si divide per il numero totale dei casi. La mediana applicabile solo alle variabili le cui categorie possono essere ordinate in modo crescente. Rappresenta quel valore che divide una distribuzione ordinata esattamente in due met, in modo tale che met dei casi osservati abbiano valori inferiori a quello mediano e laltra met abbiano valori superiori. In caso di osservazioni in numero pari, il valore mediano si ottiene calcolando la media delle due osservazioni centrali.
Dove: = media del campione = i-esima osservazione della variabile X n = numero di osservazioni del campione = sommatoria di tutti gli del campione
= 210,8:10 = 21,08 Me= (27,5+27,6):2 = 27,55
MISURE DI DISPERSIONE Lindice di diversit D misura la probabilit che due osservazioni estratte casualmente da una popolazione hanno di appartenere a categorie diverse di una data variabile discreta. Quindi, si eleva al quadrato la proporzione di casi che rientra in ciascuna delle K categorie discrete della variabile in questione, si sommano questi valori e si sottrae da 1 la cifra ottenuta:
Maggiore sar il valore assunto da D pi equa la distribuzione (dispersione) dei casi fra le K categorie delle variabili oggetto di analisi. Il minimo valore possibile di D zero, che si ottiene quando tutti i casi osservati appartengono a una sola categoria. Il massimo valore di D invece si ottiene quando ogni categoria contiene la stessa proporzione di casi (pi).

ANALISI DELLA VARIANZA Il modello ANOVA (O ANALISI DELLA VARIANZA) una versione particolare del modello lineare generale, in cui la variabile indipendente (o manipolata) formata da categorie discrete e la variabile dipendente di tipo continuo. Questa tecnica mette a confronto dati di diversi gruppi categoriali. Con questo modello si sottopone a verifica lipotesi secondo la quale le medie campionarie di J gruppi diversi provengono da una stessa popolazione, anzich da popolazioni differenti. Il modello ANOVA permette quindi di ragionare sulla varianza per dire qualcosa sulle medie e pu analizzare anche pi variabili ma sono richiesti strumenti matematici complessi. Nel nostro caso applicheremo unanalisi della varianza a una via (o a una dimensione) in quanto i modelli presi in considerazione sono caratterizzati dal fatto che contengono osservazioni classificate secondo ununica variabile discreta. Lanalisi della varianza dunque finalizzata a determinare quale proporzione della variazione totale nella variabile dipendente Y attribuibile alle singole osservazioni i appartenenti al gruppo j. Formalmente: Yij=+j+eij Dove: Yij= valore dellosservazione i del gruppo j = media generale, comune a tutte le osservazioni j= effetto comune esercitato dal gruppo j, comune a tutte le osservazioni di quel gruppo eij= errore unico allosservazione i del gruppo j Il modello ANOVA generale a una dimensione scompone ogni valore osservato in 3 componenti. Ogni dato i che appartiene ad un gruppo j quindi formato dalla somma della media generale comune a tutte le osservazioni, dagli effetti del gruppo j analizzato e dallerrore proprio del dato i del gruppo j.

ANALISI DELLA VARIANZA A UNA VIA (Fumo e Classi di et). La fonte che utilizzeremo ai fini della nostra riflessione considera i dati relativi allanno 2011. Il quesito che ci porremo il seguente: E possibile affermare che let influisce sul numero di fumatori? Classe di et 14-17 anni 18-19 anni 20-24 anni 25-34 anni 35-44 anni 45-54 anni 55-59 anni 60-64 anni 65-74 anni 75 anni e pi totale 2011 8,8 24,4 25,8 30,6 27,5 27,6 25,1 21,5 13,9 5,6 22,3
Suddividiamo in adolescenti, adulti, anziani N= 10 J = 3 = 21,08 Ai nostri dati possiamo applicare il modello ANOVA (Analisi della varianza) in quanto abbiamo la variabile indipendente formata da un insieme di categorie discrete (fasce det) e la variabile dipendente di tipo continuo (la percentuale di fumatori). I modelli ANOVA permettono di verificare lipotesi nulla secondo la quale tutte le j medie campionarie provengono dalla stessa popolazione e, quindi, sono uguali una allaltra. H0: a= b= c Lipotesi alternativa invece afferma che almeno una delle medie campionarie proviene da una popolazione la cui media differisce dalla media delle altre popolazioni. H1: a b c Il rifiuto dellipotesi nulla implica una fra le diverse possibilit alternative: La media di ogni popolazione differisce dalla media di tutte le altre popolazioni (H1: a b c nj) Le medie di alcuni sottoinsiemi di popolazioni differiscono luna dalle altre ( es a b ma uguale a c) Alcune combinazioni di medie differiscono da una singola media o d unaltra combinazione di medie (a differisce dalla media di b e c)

Lanalisi della varianza sottopone a verifica lipotesi nulla secondo la quale le medie delle popolazioni sono uguali. Se i risultati del test portano al rifiuto dellipotesi nulla, rimane da stabilire in che modo le medie differiscono. Impostiamo la nostra ipotesi di ricerca: supponiamo che il numero di fumatori sia maggiore tra gli adulti. Lipotesi nulla (H0) afferma che non ci sia influenza significativa della diversa maturit sulla decisione di fumare; lipotesi alternativa ci dice, invece, che la maturit incide significativamente sulla decisione di fumare. Per esaminare leffetto esercitato da una variabile discreta su una variabile dipendente continua si considera ununica popolazione allinterno della quale la media della variabile dipendente uguale a . Se, come afferma lipotesi H0 le medie J dei vari gruppi sono uguali una allaltra, allora esse sono anche uguali alla media generale della popolazione . Questa relazione rappresenta la base per misurare gli effetti esercitati dalla variabile indipendente discreta sulla variabile dipendente continua. Leffetto esercitato dal gruppo J, indicato con il simbolo j viene definito come la differenza tra la media di quel gruppo e la media generale: j= j Se il gruppo J non esercita alcun effetto sulla variabile dipendente, il risultato sar =0, cio j= . Se il gruppo J esercita un effetto, allora j assumer un valore positivo o negativo, a seconda che la media del gruppo sia maggiore o minore della media generale . Nel nostro caso: = = =
adolescenti adulti
= 19,67 21,08 = - 4,11
= 27,7 21,08 = 6,62 = 13,67 21,08 = - 7,41
anziani
Lerrore quindi quella parte di valore osservato che non pu essere attribuita n alla componente comune n alla componente di gruppo. Nellanalisi della varianza lerrore pu essere visto come la discrepanza fra i valori osservati e quelli predetti dallappartenenza a un dato gruppo; tale errore tiene conto del fatto che i vari casi i appartenenti a un gruppo j non hanno tutti lo stesso valore osservato Yj e=Y

Le tavole ANOVA Per determinare la proporzione della varianza di Y ij attribuibile agli effetti di gruppo (j) e la proporzione che, invece, attribuibile allerrore(eij), si parte dal numeratore della varianza campionaria:
Ma dato che la somma delle osservazioni appartenenti a ciascuno dei j gruppi uguale a N (dimensione complessiva del campione), possiamo riscrivere il numeratore della varianza come segue:
Questa formula corrisponde alla somma dei quadrati totale (SQ TOTALE), cio la somma delle deviazioni al quadrato di ciascun valore della media generale di tutti i gruppi. Lanalisi della varianza suddivide SQ TOTALE in SQ INTRAGRUPPO (varianza attribuibile allerrore) e SQ INTERGRUPPO (varianza attribuibile alleffetto di gruppo), in quanto: SQ TOTALE = SQ INTRAGRUPPO + SQ INTERGRUPPO Le formule per calcolarli sono:
SQ INTRAGRUPPO rappresenta la somma delle deviazioni al quadrato delle osservazioni di ciascun gruppo dalla media generale di quel gruppo SQ INTERGRUPPO rappresenta la somma delle deviazioni al quadrato di ciascuna media di gruppo dalla media generale dei gruppi SQ INTERGRUPPO = (3)( 19,67 21,08)2 + (3)( 27,7 21,08)2 + (3)( 13,67 21,08)2 = (3)(1,99) + (3)(43,82) + (3)(54,91) = 5,97 + 131,46 + 164,73 = 302,16 SQ INTRAGRUPPO = (8,8 19,67)2 + (24,4 19,67)2 + (25,8 19,67)2 + (30,6 27,7)2 + (27,5 27,7)2 + (27,6 27,7)2 + (25,1 27,7)2 + (21,5 13,67)2 + (13,9 13,67)2 + (5,6 13,67)2 = 439,24 SQ TOTALE = 302,16 + 439,24 = 741,4 Lultimo passo di questa analisi attorno alla verificazione o al rifiuto dellipotesi nulla H 0 il calcolo dei quadrati medi.
10

Di questi ne vanno calcolati ovviamente due: uno corrispondente alla SQINTERGRUPPO (rappresenta la varianza attribuibile agli effetti di gruppo j) e un altro corrispondente alla SQINTRAGRUPPO (rappresenta la varianza attribuibile allerrore eij) QMintergruppo = SQINTERGRUPPO = J1 QMintragruppo = SQINTRAGRUPPO= N-J 302,16 3-1 439,24 = 67,75 103 = 151,08
A questo punto dobbiamo effettuare una standardizzazione della varianza di ogni osservazione e per fare ci si utilizza il Quoziente F:
F2,7= 151,08/67,75 = 2,23 Verificando questo risultato con le tavole statistiche relative ai valori F di Fisher, il valore critico generato dallincrocio tra 2 (J -1=3 -1) e 7 (N-J = 10 3) con 0,01 9,55. Poich 2,23 < 9,55 possiamo accettare lipotesi nulla H0 con un probabilit derrore pari a 0,01. Possiamo affermare che la variabile dipendente non genera una significativa influenza sulla variabile dipendente ovvero let non incide sulla decisione di fumare. Nel caso in cui avessimo rifiutato lipotesi nulla avremmo dovuto calcolare la forza delle relazioni tra le variabili e il quoziente di correlazione. Facciamo permette fumatori) mediante affidamento al coefficiente Eta-quadrato n2 o quoziente di correlazione che ci di stimare la proporzione di varianza della variabile dipendente (la percentuale di attribuibile alla variabile indipendente (la ripartizione in adolescenti, adulti, anziani) luso di questa formula:
E quindi N2= 302,16 / 741,4 = 0,41 il che significa che il 41% della variazione osservata nel numero di fumatori dipende dalla ripartizione adolescenti/adulti/anziani a cui una determinata persona appartiene.
11

ANALISI DEI DATI CATEGORIALI Lanalisi dei dati categoriali un modello di analisi bivariata che serve per misurare la relazione tra due variabili discrete, categoriali, in particolar modo la loro significativit statistica e la forza della loro relazione. Questa tecnica si basa sulle tavole di contingenza bivariata (o tavole di frequenza bivariata), che rappresentano il modo in cui le variabili discrete si manifestano congiuntamente in un certo insieme di osservazioni. Le categorie di una o di entrambe le variabili possono essere ordinate o non ordinate. Nel nostro caso vogliamo capire la relazione che intercorre tra il luogo di residenza e la decisione di fumare. Le nostre frequenze osservate: Esiste una relazione tra il luogo di residenza e la decisione di fumare?
ripartizioni geografiche Italia nord occidentale Italia nord orientale Italia centrale Italia meridionale Italia insulare tot
maschi 42,0 36,9 47,9 45,7 55,0 44,7
femmine 23,3 19,2 28,3 25,5 29,9 24,7
Sapendo che questi dati sono stati rilevati nel 2011 e sapendo che la popolazione italiana in quellanno nellItalia nord occidentale era 15.438.441, trasformiamoli in valori assoluti sapendo che le frequenze osservate si riferiscono a 100 persone. Quindi, per i maschi 42,0:100 = x: 7.493.203 7.493.203 x 42 : 100 = 3.147.145,26 che approssimiamo. Per le femmine sar 23,3:100=x: 7.945..238 7.945.238 x 23,3 : 100 = 1.851.240,454 che approssimiamo. Italia nord occidentale 15.438.441 totale maschi: 7.493.203 femmine: 7.945..238 Italia nord orientale 11.030.650 totale maschi: 5.380.080 femmine: 5.650.570 Italia centrale 11.245.959 totale maschi: 5.415.770 femmine: 5.830.189 Italia meridionale 14084192 totale maschi: 6.854.041 femmine: 7.230.151 Italia insulare 6.663.133 totale maschi: 3.233.710 femmine: 3.429.423
ripartizioni geografiche Italia nord occidentale Italia nord orientale Italia centrale Italia meridionale Italia insulare tot Indipendente = maschi/femmine
maschi 3.147.145 1.985.249 2.594.154 3.132.297 1.778.540 12.637.385
femmine 1.851.240 1.084.909 1.649.943 1.843.688 1.025.397 7.455.177
12

Ogni cella della tabella contiene il numero dei casi nei quali si manifesta una particolare combinazione di valori (categorie) delle due variabili discrete. I totali delle righe si dicono distribuzioni marginali, mentre i totali delle colonne si chiamano marginali di colonne. La loro intersezione il totale generale dei casi (N). Possiamo procede nella nostra indagine standardizzando i valori, trasformandoli cio in valori percentuali. Frequenze percentuali:
ripartizioni geografiche Italia nord occidentale Italia nord orientale Italia centrale Italia meridionale Italia insulare Test del chi2
maschi 42,0 % 36,9 % 47,9 % 45,7 % 55,0 %
femmine 23,3 % 19,2 % 28,3 % 25,5 % 29,9 %
Dopo aver standardizzato i dati possiamo procedere a verificare la significativit statistica tramite il test chi quadrato, che serve per determinare se le due variabili sono indipendenti nella popolazione di riferimento sottoponendo a verifica lipotesi nulla, secondo la quale nella popolazione da cui stato estratto il campione oggetto di analisi, non esiste nessuna covariazione fra le due variabili prese in esame. Lipotesi alternativa invece sostiene che le due variabili sono correlate nella popolazione nello stesso modo in cui lo sono nel campione. Il test chi2 confronta le frequenze di cella osservate con quelle attese in base allipotesi nulla. Se lipotesi nulla venisse scartata si potrebbe confermare lipotesi alternativa. Se fra le due variabili non esiste relazione, esse sono statisticamente indipendenti ovvero se osservassimo lintera popolazione la distribuzione percentuale della variabile non varierebbe al variare della categoria della variabile indipendente. Per procedere con il test chi 2 necessario dividere i dati tra: frequenze attese, percentuali di colonna e percentuali di riga. Le frequenze attese sono le frequenze che ci si aspetterebbe se lipotesi nulla fosse confermata (e quindi le due variabili fossero statisticamente indipendenti):
Dove: fîj = frequenza attesa nella cella situata allincrocio tra la riga i e la colonna j fi = frequenza totale marginale di riga fj = frequenza totale marginale di colonna N = numerosit del campione
13

ripartizioni geografiche Italia nord occidentale Italia nord orientale Italia centrale Italia meridionale Italia insulare tot maschi 3.143.776,07 1.931.001,56 2.669.360,32 3.129.687,40 1.763.559,63 12.637.384,98 femmine 1.854.608,92 1.139.156,43 1.574.736,67 1.846.297,59 1.040.377,36 7.455.176,97 tot 4.998.384,99 3.070.157,99 4.244.096,99 4.975.984,99 2.803.936,99 18.354.661,95
Percentuali di riga: ripartizioni geografiche Italia nord occidentale Italia nord orientale Italia centrale Italia meridionale Italia insulare tot maschi 63% 63% 63% 63% 63% 63% femmine 37 % 37 % 37 % 37 % 37 % 37 % tot 100 % 100 % 100 % 100 % 100 % 100 %
Percentuali di colonna: ripartizioni geografiche Italia nord occidentale Italia nord orientale Italia centrale Italia meridionale Italia insulare tot maschi 25 % 15 % 21 % 25 % 14 % 100 % femmine 25 % 15 % 21 % 25 % 14 % 100 % tot 25 % 15 % 21 % 25 % 14 % 100 %
Il primo passo consiste nel calcolare la statistica chi2 che riassume la differenza tra le frequenze osservate e le frequenze attese di ogni singola osservazione. Per farlo si utilizza la seguente formula:
Dove: fij circonflesso= frequenza attesa nella cella situata allincrocio tra riga i e colonna j secondo H0 fij= frequenza osservata nella stessa cella C = numero di colonne della tavola R = numero di righe della tavola Il x2 mi dice se le variabili sono indipendenti o meno, la loro relazione. Maggiore sar il suo valore pi sar lontana dallaccettare H0.
14
Possiamo cos riassumere i dati: ripartizioni geografiche Italia nord occidentale Italia nord orientale Italia centrale Italia meridionale Italia insulare tot maschi 3,61 1.523,96 0,02 2,17 127,30 1.657,06 femmine 6,11 2.583,30 3.591,70 3,68 215,70 6.400,49 tot 9,72 4.107,26 3.591,72 5,85 343
I valori riassuntivi riportati in questa tabella devono essere esaminati congiuntamente alle frequenze osservate e a quelle attese corrispondenti in modo da determinare, oltre allintensit della differenza che caratterizza ogni cella, anche la sua direzione (negativa o positiva). I valori che compaiono nelle diverse celle indicano lo scostamento delle frequenze attese rispetto a quelle osservate. Lo scostamento pu corrispondere contemporaneamente a una sovrastima o sottostima del campione per ogni cella. Vi sovrastima quando nella matrice dei valori attesi la cella presenta un valore superiore a quello osservato. Vi una sottostima nel caso contrario. La somma di tutte le componenti riportate nella tabella uguale a x2 = 16.115,1 Per accettare o rifiutare lipotesi nulla bisogna confrontare questo valore con il valore critico corrispondente, che si trova sullapposita tabella con =0,001; a questo scopo andiamo a calcolare i gradi di libert tramite la seguente formula: gl=(R-1)(C-1)= (5-1)(2-1)=4x1=4 dove: R= numero delle righe C= numero delle colonne Il valore critico individuato con lapposita tavola 18,46. Dato che 16.115,1 decisamente superiore rispetto 18,46 possiamo rifiutare lipotesi nulla (secondo la quale nella popolazione da cui stato estratto il campione oggetto di analisi, non esiste nessuna covariazione fra le due variabili prese in considerazione) con una possibilit molto piccola di commettere un errore e quindi concludere che la relazione osservata nel campione statisticamente significativa, cio molto probabile che essa esista anche nella popolazione dalla quale stato estratto il campione. Quindi vi una relazione tra la regione di residenza e la decisione di fumare.
15

Misura di associazione: Odds Se il test di significativit (chi-quadrato) indica la relazione tra le variabili, si tratta ora di misurarne la forza. Lo si pu fare attraverso diverse misure di associazione. Siccome le variabili da noi prese in considerazione non sono variabili ordinate bene utilizzare la misura di associazione Odds, la quale definisce il rapporto tra la frequenza di appartenenza ad una categoria e la frequenza di non appartenenza a quella categoria. LOdds si differenzia dalla probabilit, la quale invece indica il rapporto tra la frequenza associata ad una categoria di interesse e la frequenza associata a tutte le categorie. Unaltra differenza tra Odds e probabilit riguarda la gamma dei valori che si possono assumere: le probabilit non possono essere inferiori a 0 (certezza che un dato evento non si verificher) n superiori a 1 (certezza che un dato evento di verificher). Al contrario, poich lOdds equivale al rapporto fra la probabilit che un dato evento si verifichi e la probabilit che quellevento non si verifichi, esso pu assumere valori che variano tra 0 e infinito positivo. Quando la probabilit che un dato evento si verifichi supera la probabilit che non si verifichi, lOdds assume valori superiori a 1. Quando invece la probabilit che un dato evento si verifichi uguale alla probabilit che non si verifichi, lOdds assume valori 1/1 (leggi: uno a uno). Infine quando la probabilit che un dato evento si verifichi minore della probabilit che non si verifichi, lOdds assume valori non negativi inferiori a 1. Odds e probabilit sono cos collegati:
Dove p la proporzione associata alla categoria di interesse. Nel nostro caso 4.998.384,99/(20.092.561,95-4.998.384,99) = 4.998.384,99/15.094.176,96 = 0.33 Il concetto di Odds semplice pu essere esteso al concetto di Odds condizionato. LOdds condizionato corrisponde al rapporto tra la probabilit di appartenere alla categoria di una determinata variabile e la probabilit di appartenere alle rimanenti categorie della stessa variabile. A partire dalla nostra tavola si possono calcolare molti Odds condizionati, ad esempio lOdss condizionato che confronta il luogo di residenza: Odds condizionato Italia nord occidentale per i maschi 3.147.145/(12.637.385-3.147.145)= 0,33 Odds condizionato Italia nord occidentale per le femmine 1.084.909/(7.455.177-1.084.909) = 0,17 Quando le variabili che formano una tavola di contingenza bivariata sono correlate, i loro Odds condizionati non sono uguali. Per confrontare direttamente due Odds condizionati si pu fare ricorso a una singola statistica descrittiva chiamata Odds-ratio (OR). Esso il rapporto tra due Odds condizionati. Se due variabili non sono correlate i loro Odds condizionati sono identici, quindi Odds-ratio=1. Odds-ratio maggiori di 1 indicano lesistenza di una covariazione positiva fra le due variabili mentre Odds-ratio minori di 1 indicano una covariazione negativa o inversa:
16

ORXY= bc/ad Poich lOdds indefinito quando il suo denominatore uguale a zero, ogni volta che una frequenza di cella uguale a zero lOR non pu essere calcolato. Continuiamo ad analizzare: Odds-ratio che confronta la propensione a fumare di un maschio che vive che vive nellItalia nord occidentale : 0,36/0,17= 2,12 Questi calcoli testimoniano che la scelta di fumare di un maschio che vive nellItalia nord occidentale 2,12 volte superiore rispetto alla decisione di iniziare a fumare di una femmina che vive nel medesimo luogo di residenza.
17

ANALISI DELLA REGRESSIONE Lanalisi della regressione una procedura statistica che ha lo scopo di esaminare se esistono relazioni fra variabili continue tra loro indipendenti. Per procedere nellanalisi della regressione bisogna costruire un diagramma di dispersione. Per costruire un diagramma di dispersione bisogna tracciare un piano cartesiano che rappresenta sullasse delle ascisse (X) i valori della variabile indipendente e sullasse delle ordinate (Y) i valori della variabile dipendente. In corrispondenza delle variabili X,Y appropriate si traccia nel grafico, sottoforma di punto, la posizione di tutte le osservazioni disponibili. Linsieme dei punti ricavati indica in che modo le due variabili covariano.
E possibile affermare che il n di fumatori influisce il n di soggetti malati di tumore ai Polmoni? 0,09 0,088 0,086 0,084 0,082 0,08 0,078 0,076 0,074 21,5 22 22,5 23 Fumatori (%) 2000 2001 2002 2003 2004 2005
2000-2005
Fumatori (X)
Soggetti con tumore ai polmoni (Y)
Soggetti con tumore ai polmoni (%)
Valori Y
23,5
24
24,5
24,1 23,7 23,6 23,8 22,9 22,0
0,088 0,083 0,085 0,080 0,079 0,076
Figura 1. Dati relativi alla (%) di fumatori e soggetti malati di tumore ai polmoni, in Italia nel periodo
18

RETTA DI REGRESSIONE Quando stimiamo la relazione lineare fra una variabile dipendente (Y) e una variabile indipendente (X), regrediamo Y rispetto a X, producendo una relazione lineare bi-variata o, pi semplicemente, una regressione bivariata. Equazione lineare Y=a+bX. Y equivale alla somma di una costante a (che corrisponde al punto in cui la retta intercetta o incrocia lasse verticale) pi il prodotto del gradiente b moltiplicato per il valore di X. I ricercatori sociali normalmente assumono che le variabili siano correlate in modo lineare a meno che non sia palese lesistenza di collegamento tra le variabili non lineare come una funzione esponenziale o logaritmica. Per stabilire in quale misura una linea retta approssima la covariazione osservata fra due variabili continue, il punto di partenza unequazione predittiva, nella quale ad ogni valore della variabile indipendente ne corrisponde linearmente uno della dipendente:
Tuttavia i dati analizzati dai ricercatori sociali non sono mai perfette relazioni lineari, bisogna perci valutare lesistenza di un errore ei ( anche detto residuo) che rappresenta la porzione del valore assunto di Y in corrispondenza dellosservazione i non predetta dalla sua relazione lineare con X, perci abbiamo un modello di regressione lineare:
Lerrore di regressione anche detto residuo in quanto rappresenta la quantit che rimane dopo aver sottratto lequazione predittiva dal modello di regressione lineare.
COEFFICIENTE DI REGRESSIONE Lanalisi di regressione stima i valori di a e b utilizzando i dati osservati. Compito del modello minimizzare i residui. Il criterio dei minimi quadrati permette di stimare lequazione;
La somma degli errori sempre uguale a zero perch i valori positivi e negativi si controbilanciano esattamente. Gli stimatori dei due coefficienti di regressione (a;b xy) devo soddisfare questo criterio. Dato che la somma degli errori sempre uguale a zero, elevandoli al quadrato vengono eliminati i segni negativi in modo che la somma degli errori risulti sempre maggiore di zero. Sommando poi le differenze tra ogni valore osservato e il corrispondente valore predetto ci che si deve ottenere il minimo valore possibile.
19

La stima dei minimi quadrati (OLS Ordinary Least Squares) per il coefficiente di regressione bivariata bxy calcolata come:
Lintercetta si pu ricavare dallequazione predittiva dopo aver trovato bYX :
Mantenendo lo stesso numeratore e mettendo al denominatore N-1 si ottiene la formula della covarianza
Se, invece, si divide il denominatore della formula bYX per N-1 si ottiene la formula della varianza campionaria
Siccome le due formule hanno gli stessi denominatori, un altro modo per calcolare bYX pu essere espresso dalla formula
Per facilitare il calcolo esiste la formula computazionale di b
Per poter effettuare tutti i calcoli si pu costruire una tabella, come quella che segue, che contiene tutte le informazioni necessarie per calcolare bYX e a.
20
et
Fumatori (X)
Soggetti con tumore ai polmoni (Y)
X2
Y2
X*Y
2000 2001 2002 2003 2004 2005 Tot
24,1 23,7 23,6 23,8 22,9 22,0 140,1
0,088 0,083 0,085 0,080 0,079 0,076 0,491
580,81 561,69 556,96 566,44 524,41 484 3.274,31
0,0077 0,0068 0,0072 0,0064 0,0062 0,0057 0,04
2,1208 1,9671 2,006 1,904 1,8091 1,672 11,479
= 140,1/6=23,35 = 0,491/6=0,08
Syx = 6(11,479) (140,1)(0,491) 6(6-1) S2x= 6(3.274,31) (140,1)2 6(6-1) = = 68,874 68,7891 = 0,0024 35
19.645,86 19.628,01 = 0,51 35
bxy = syx/s2x = 0,0024/0,51 = 0,0047
La nostra stima del parametro bxy ci dice ci dice che ad ogni aumento dello 0,51% dei soggetti fumatori corrisponde un aumento (atteso) dello 0,0047 di soggetti malati di tumore ai polmoni.
Calcoliamo lintercetta: = 0,08 0,0047(23,35) = - 0,0297 Ora abbiamo tutti i dati per scrivere lequazione di regressione bivariata completa:
Yî = -0,0297+ 0,0047 Xi
21

0,09 0,088 0,086 0,084 0,082 0,08 0,078 0,076 0,074 21,5 22 22,5 23 Fumatori (%)
Figura 2. Rappresentazione della retta di regressione bivariata Il prossimo passo consiste nel calcolare la forza della covariazione tra due variabili. Per fare ci bisogna misurare il grado di vicinanza fra i valori effettivi e i valori stimati, in quanto se tutti i valori cadessero sulla linea predittiva il valore dellerrore sarebbe uguale a zero (e ci sarebbe irrealistico). Come gi detto il valore di y dipende sia dalla variabile indipendente x che dallerrore di predizione. Elevando questi valori al quadrato possiamo asserire che:
Soggetti malati di tumore ai polmoni (%)
Valory Y Retta di regressione
23,5
24
24,5
22

Dove: SQ REGRESSIONE indica la somma dei quadrati della regressione SQ ERRORE indica la somma dei quadrati dellerrore SQ TOTALE uguale al denominatore della varianza
et
Fumatori
byx
Yî
ei
(X)
2000 2001 2002 2003 2004 2005
24,1 23,7 23,6 23,8 22,9 22
-0,0297 -0,0297 -0,0297 -0,0297 -0,0297 -0,0297
0,0047 0,0047 0,0047 0,0047 0,0047 0,0047
-0,711 -0,6991 -0,6962 -0,7021 -0,6754 -0,6487
0,799 0,7821 0,7812 0,7821 0,7544 0,7247
0,088 0,083 0,085 0,080 0,079 0,076
Calcoliamo i rispettivi valori: SQ REGRESSIONE: 3,5481 SQ ERRORE: 4,6235 SQ TOTALE: 8,1716 Ora siamo in grado di calcolare il coefficiente di determinazione R2xy che indica la proporzione della variazione totale di Y che determinata dalla sua relazione lineare con X. Il valore R2xy pu assumere valori compresi tra 1 e 0, dove 1 si verificherebbe nel caso di una predizione perfetta, mentre 0 nel caso in cui tutta la variazione osservata sia dovuta allerrore. R quadrato equivale a uno meno il quoziente del rapporto fra la somma dei quadrati dellerrore e la somma dei quadrati totali
Nel nostro caso R2xy = 0,43 Il che significa che il 43% della variazione totale di Y determinata dalla sua relazione lineare con X e
che quindi il n di fumatori incide sul n di soggetti malati di tumore ai polmoni.
23
Ora possiamo mostrare la direzione della relazione tra le due variabili continue tramite la radice quadrata di R2xy chiamata coefficiente di correlazione di Pearson. In formula:
Il coefficienti di correlazione di Pearson, non essendo elevato al quadrato, pu assumere sia valori positivi che negativi; per questo motivo utile per verificare la direzione della covariazione. Esso pu assumere valori che variano fra -1 (corrispondente a una relazione inversa perfetta) e + 1 (corrispondente a una relazione diretta perfetta). Se fosse uguale a 0, le due variabili sarebbero indipendenti fra loro. Nel nostro caso pari a 0,65 quindi fra x e y c una relazione diretta pari a + 0,65. Ci accingiamo ora a compiere un test di significativit del coefficiente di determinazione. Il test di significativit statistica per R 2xy fa ricorso alla distribuzione F, gi utilizzata nel modello ANOVA. Nellanalisi della regressione la somma dei quadrati totale ha N-1 gradi di libert mentre la somma dei totali della regressione, essendo stimata a partire da b yx, possiede solo un grado di libert. Poich: gl totale = gl regressione + gl errore N-1 = 1 + gl errore gl errore = N-2 Il passo successivo consiste nel calcolare i quadrati medi associati a SQ REGRESSIONE e SQ ERRORE
QM REGRESSIONE = 3,5481
QM ERRORE = 1,1558
24
A questo punto cerchiamo il valore del rapporto tramite
F1, 4 = 3,5481/1,1558 = 3,0698 Se poniamo = 0,01, la tavola di Fisher ci dice che il valore critico di F, con 1 e 4 gradi di libert, 21,20. Poich F<21,20, non possiamo convalidare il test di significativit (non possiamo rifiutare lipotesi nulla e non possiamo affermare che nella popolazione il coefficiente di determinazione maggiore di zero).
25

CONCLUSIONI Per concludere possibile ricapitolare le tre domande poste inizialmente per sondare il fenomeno relativo allabitudine al fumo in Italia ed enunciare i risultati ottenuti grazie all'applicazione dei tre modelli di analisi statistica bivariata. Analisi della varianza (ANOVA): attraverso questo modello, che ho deciso di applicare ad una via o una dimensione, ho messo in relazione le fasce det e la percentuale di fumatori nellanno 2011. Ho impostato la mia ipotesi di ricerca, supponendo che il numero di fumatori fosse maggiore tra gli adulti: lipotesi nulla (H0) avrebbe indicato che non vi fosse uninfluenza significativa della diversa maturit dei soggetti sulla decisione di fumare, mentre lipotesi alternativa avrebbe indicato, invece,che la maturit incida significativamente sulla decisione di fumare. Dai calcoli quindi emerso che possibile accettare lipotesi nulla (H0) con una probabilit derrore dello 0,01. Quindi possibile affermare che la variabile dipendente non genera una significativa influenza sulla variabile indipendente ovvero let non incide sulla decisione di fumare. Nel caso in cui avessi rifiutato lipotesi nulla (H0) avrei dovuto calcolare la forza delle relazioni tra le variabili ed il coefficiente di correlazione. Facendo affidamento proprio su questultimo, che mia ha permesso di stimare la proporzione di varianza della variabile dipendente (la % di fumatori) e la variabile indipendente (la ripartizione in adolescenti/adulti/anziani), emerso che il 41% della variazione osservata nel numero di fumatori dipende dalla ripartizione adolescenti/adulti/anziani a cui una determinata persona appartiene. Analisi dei dati categoriali: attraverso tale analisi, ho voluto comprendere la relazione che intercorre tra il luogo di residenza e la decisione di fumare. In primis, prendendo ad esempio il numero della popolazione nellanno 2011 nellItalia nord occidentale, che era pari a 15.428.441, ho trasformato i miei dati in valori assoluti sapendo che le frequenze osservate si riferissero a 100 persone. Svolto ci, sono passata al calcolo del Chi2, sottoponendo a verifica lipotesi nulla, secondo la quale nella popolazione da cui stato estratto il campione oggetto di analisi, non esiste nessuna covariazione fra le due variabili prese in esame. Al contrario, lipotesi alternativa sostiene che le due variabili sono correlate nella popolazione nello stesso modo in cui lo sono nel campione. Da ci ne risultato che lipotesi nulla pu essere rifiutata con una possibilit molto piccola di poter commettere un errore e quindi concludere che la relazione osservata nel campione statisticamente significativa, cio molto probabile che essa esista anche nella popolazione dalla quale stato estratto il campione. Quindi vi una relazione significativa tra il luogo di residenza e la decisione di fumare. In seguito, ho deciso di misurare la forza del test di significativit (Chi 2), ovvero della relazione tra le variabile prese in esame. Siccome le variabili da me prese in considerazione non sono variabili ordinate bene utilizzare la misura di associazione Odds, la quale definisce il rapporto tra la frequenza di appartenenza ad una categoria e la frequenza di non appartenenza a quella
26

categoria. LOdds si differenzia dalla probabilit, la quale invece indica il rapporto tra la frequenza associata ad una categoria di interesse e la frequenza associata a tutte le categorie. Il concetto di Odds semplice pu essere esteso al concetto di Odds condizionato. LOdds condizionato corrisponde al rapporto tra la probabilit di appartenere alla categoria di una determinata variabile e la probabilit di appartenere alle rimanenti categorie della stessa variabile. A partire dalla tavola da me presentata, si possono calcolare molti Odds condizionati, quindi ho deciso di calcolare lOdss condizionato che confronta il luogo di residenza, nello specifico prendendo in esame lOdss condizionato relativo allItalia nord occidentale per i maschi e le femmine, e da tali calcoli emerso che la scelta di fumare di un maschio che vive nellItalia nord occidentale 2,12 volte superiore rispetto alla decisione di fumare di una donna che vive nello stesso luogo di residenza. Analisi della regressione: attraverso questo modello, che ha preso in considerazione il periodo che va dal 2000 al 2005 stato possibile rilevare che il 43% della variazione dei soggetti malati di tumore pu essere spiegata dal numero di fumatori. possibile osservare dai dati a nostra disposizione che, nel periodo preso in esame, il numero di malati sempre crescente. Si tratta di unanalisi riduttiva in quanto, per una maggiore predizione, avremmo dovuto considerare un lasso di tempo pi ampio, ma in questa sede mi sono permessa di portare un calcolo esemplificativo con lo scopo di applicare al meglio il modello statistico in questione.
27

L'abitudine Al Fumo in Italia

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

L'abitudine Al Fumo in Italia

Caricato da

Copyright:

Formati disponibili

TESINA DI STATISTICA PROF.

Analisi statistica relativa a Labitudine al fumo in Italia

Analisi statistica relativa a Labitudine al fumo in Italia

Universit degli studi di Bergamo

Analisi statistica relativa a Labitudine al fumo in Italia

Universit degli studi di Bergamo

Analisi statistica relativa a Labitudine al fumo in Italia

Universit degli studi di Bergamo

Analisi statistica relativa a Labitudine al fumo in Italia

Universit degli studi di Bergamo

Analisi statistica relativa a Labitudine al fumo in Italia

= 210,8:10 = 21,08 Me= (27,5+27,6):2 = 27,55

Universit degli studi di Bergamo

Analisi statistica relativa a Labitudine al fumo in Italia

Universit degli studi di Bergamo

Analisi statistica relativa a Labitudine al fumo in Italia

Universit degli studi di Bergamo

Analisi statistica relativa a Labitudine al fumo in Italia

= 19,67 21,08 = - 4,11

= 27,7 21,08 = 6,62 = 13,67 21,08 = - 7,41

Universit degli studi di Bergamo

Analisi statistica relativa a Labitudine al fumo in Italia

Universit degli studi di Bergamo

Analisi statistica relativa a Labitudine al fumo in Italia

Universit degli studi di Bergamo

Analisi statistica relativa a Labitudine al fumo in Italia

maschi 42,0 36,9 47,9 45,7 55,0 44,7

femmine 23,3 19,2 28,3 25,5 29,9 24,7

maschi 3.147.145 1.985.249 2.594.154 3.132.297 1.778.540 12.637.385

femmine 1.851.240 1.084.909 1.649.943 1.843.688 1.025.397 7.455.177

Universit degli studi di Bergamo

Analisi statistica relativa a Labitudine al fumo in Italia

maschi 42,0 % 36,9 % 47,9 % 45,7 % 55,0 %

femmine 23,3 % 19,2 % 28,3 % 25,5 % 29,9 %

Universit degli studi di Bergamo

Analisi statistica relativa a Labitudine al fumo in Italia

Universit degli studi di Bergamo

Analisi statistica relativa a Labitudine al fumo in Italia

Universit degli studi di Bergamo

Analisi statistica relativa a Labitudine al fumo in Italia

Universit degli studi di Bergamo

Analisi statistica relativa a Labitudine al fumo in Italia

Universit degli studi di Bergamo

Analisi statistica relativa a Labitudine al fumo in Italia

Soggetti con tumore ai polmoni (Y)

Soggetti con tumore ai polmoni (%)

24,1 23,7 23,6 23,8 22,9 22,0

0,088 0,083 0,085 0,080 0,079 0,076

Universit degli studi di Bergamo

Analisi statistica relativa a Labitudine al fumo in Italia

Universit degli studi di Bergamo

Analisi statistica relativa a Labitudine al fumo in Italia

Lintercetta si pu ricavare dallequazione predittiva dopo aver trovato bYX :

Per facilitare il calcolo esiste la formula computazionale di b

Universit degli studi di Bergamo

Analisi statistica relativa a Labitudine al fumo in Italia

Soggetti con tumore ai polmoni (Y)

2000 2001 2002 2003 2004 2005 Tot

24,1 23,7 23,6 23,8 22,9 22,0 140,1

0,088 0,083 0,085 0,080 0,079 0,076 0,491

580,81 561,69 556,96 566,44 524,41 484 3.274,31

0,0077 0,0068 0,0072 0,0064 0,0062 0,0057 0,04

2,1208 1,9671 2,006 1,904 1,8091 1,672 11,479