Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
CARRA
A.A. 2011/2012
SCIENZE PSICOLOGICHE
UNIVERSIT
DEGLI STUDI DI
BERGAMO
Inoltre, ho deciso di calcolare anche i fattori di Media, Moda e Mediana e per concludere ho inserito delle mie considerazioni ed osservazioni per quanto riguarda il lavoro svolto. Naturalmente per poter realizzare tutto ci, ho fatto riferimento al sito dellIstat, il quale ogni anno conduce indagini statistiche sul tenore di vita della popolazione italiana, toccando numerosi ambiti. Proprio la ricerca sullabitudine al fumo, rientra nellindagine campionaria Aspetti della vita quotidiana e fa parte di un sistema integrato di indagini sociali, le indagini multiscopo sulle famiglie, e rivela le informazioni fondamentali relative alla vita quotidiana degli individui e delle famiglie.
LE FONTI Il materiale da me adoperato per poter svolgere la mia analisi statistica proviene da ricerche effettuate dallISTAT, GEODEMO (una sezione sempre appartenente allIstat, che mette a disposizione dati pi recenti relativi alla popolazione residente nei Comuni Italiani derivanti dalle indagini effettuate presso gli uffici di Anagrafe) e lAssociazione Italia dei registri tumori (AIRTUM) che fornisce statistiche pi aggiornate della diffusione dei tumori nelle aree coperte dai registri. Di seguito vengono riportati gli indirizzi internet dai quali mi stato possibile reperire il materiale di ricerca e analisi: www.istat.it www.demo.istat.it www.registro-tumori.it
N=10 Classe di et 14-17 anni 18-19 anni 20-24 anni 25-34 anni 35-44 anni 45-54 anni 55-59 anni 60-64 anni 65-74 anni 75 anni e pi totale 2011 8,8 24,4 25,8 30,6 27,5 27,6 25,1 21,5 13,9 5,6 22,3
La categoria modale di questa distribuzione rappresentata dagli individui che hanno et compresa tra i 25 e i 34 anni. MEDIA E MEDIANA La media aritmetica rappresenta la misura di tendenza centrale pi comune. Essa pu essere calcolata solo per variabili continue: si sommano i valori di tutte le osservazioni e il risultato lo si divide per il numero totale dei casi. La mediana applicabile solo alle variabili le cui categorie possono essere ordinate in modo crescente. Rappresenta quel valore che divide una distribuzione ordinata esattamente in due met, in modo tale che met dei casi osservati abbiano valori inferiori a quello mediano e laltra met abbiano valori superiori. In caso di osservazioni in numero pari, il valore mediano si ottiene calcolando la media delle due osservazioni centrali.
Dove: = media del campione = i-esima osservazione della variabile X n = numero di osservazioni del campione = sommatoria di tutti gli del campione
MISURE DI DISPERSIONE Lindice di diversit D misura la probabilit che due osservazioni estratte casualmente da una popolazione hanno di appartenere a categorie diverse di una data variabile discreta. Quindi, si eleva al quadrato la proporzione di casi che rientra in ciascuna delle K categorie discrete della variabile in questione, si sommano questi valori e si sottrae da 1 la cifra ottenuta:
Maggiore sar il valore assunto da D pi equa la distribuzione (dispersione) dei casi fra le K categorie delle variabili oggetto di analisi. Il minimo valore possibile di D zero, che si ottiene quando tutti i casi osservati appartengono a una sola categoria. Il massimo valore di D invece si ottiene quando ogni categoria contiene la stessa proporzione di casi (pi).
Suddividiamo in adolescenti, adulti, anziani N= 10 J = 3 = 21,08 Ai nostri dati possiamo applicare il modello ANOVA (Analisi della varianza) in quanto abbiamo la variabile indipendente formata da un insieme di categorie discrete (fasce det) e la variabile dipendente di tipo continuo (la percentuale di fumatori). I modelli ANOVA permettono di verificare lipotesi nulla secondo la quale tutte le j medie campionarie provengono dalla stessa popolazione e, quindi, sono uguali una allaltra. H0: a= b= c Lipotesi alternativa invece afferma che almeno una delle medie campionarie proviene da una popolazione la cui media differisce dalla media delle altre popolazioni. H1: a b c Il rifiuto dellipotesi nulla implica una fra le diverse possibilit alternative: La media di ogni popolazione differisce dalla media di tutte le altre popolazioni (H1: a b c nj) Le medie di alcuni sottoinsiemi di popolazioni differiscono luna dalle altre ( es a b ma uguale a c) Alcune combinazioni di medie differiscono da una singola media o d unaltra combinazione di medie (a differisce dalla media di b e c)
anziani
Lerrore quindi quella parte di valore osservato che non pu essere attribuita n alla componente comune n alla componente di gruppo. Nellanalisi della varianza lerrore pu essere visto come la discrepanza fra i valori osservati e quelli predetti dallappartenenza a un dato gruppo; tale errore tiene conto del fatto che i vari casi i appartenenti a un gruppo j non hanno tutti lo stesso valore osservato Yj e=Y
Ma dato che la somma delle osservazioni appartenenti a ciascuno dei j gruppi uguale a N (dimensione complessiva del campione), possiamo riscrivere il numeratore della varianza come segue:
Questa formula corrisponde alla somma dei quadrati totale (SQ TOTALE), cio la somma delle deviazioni al quadrato di ciascun valore della media generale di tutti i gruppi. Lanalisi della varianza suddivide SQ TOTALE in SQ INTRAGRUPPO (varianza attribuibile allerrore) e SQ INTERGRUPPO (varianza attribuibile alleffetto di gruppo), in quanto: SQ TOTALE = SQ INTRAGRUPPO + SQ INTERGRUPPO Le formule per calcolarli sono:
SQ INTRAGRUPPO rappresenta la somma delle deviazioni al quadrato delle osservazioni di ciascun gruppo dalla media generale di quel gruppo SQ INTERGRUPPO rappresenta la somma delle deviazioni al quadrato di ciascuna media di gruppo dalla media generale dei gruppi SQ INTERGRUPPO = (3)( 19,67 21,08)2 + (3)( 27,7 21,08)2 + (3)( 13,67 21,08)2 = (3)(1,99) + (3)(43,82) + (3)(54,91) = 5,97 + 131,46 + 164,73 = 302,16 SQ INTRAGRUPPO = (8,8 19,67)2 + (24,4 19,67)2 + (25,8 19,67)2 + (30,6 27,7)2 + (27,5 27,7)2 + (27,6 27,7)2 + (25,1 27,7)2 + (21,5 13,67)2 + (13,9 13,67)2 + (5,6 13,67)2 = 439,24 SQ TOTALE = 302,16 + 439,24 = 741,4 Lultimo passo di questa analisi attorno alla verificazione o al rifiuto dellipotesi nulla H 0 il calcolo dei quadrati medi.
10
A questo punto dobbiamo effettuare una standardizzazione della varianza di ogni osservazione e per fare ci si utilizza il Quoziente F:
F2,7= 151,08/67,75 = 2,23 Verificando questo risultato con le tavole statistiche relative ai valori F di Fisher, il valore critico generato dallincrocio tra 2 (J -1=3 -1) e 7 (N-J = 10 3) con 0,01 9,55. Poich 2,23 < 9,55 possiamo accettare lipotesi nulla H0 con un probabilit derrore pari a 0,01. Possiamo affermare che la variabile dipendente non genera una significativa influenza sulla variabile dipendente ovvero let non incide sulla decisione di fumare. Nel caso in cui avessimo rifiutato lipotesi nulla avremmo dovuto calcolare la forza delle relazioni tra le variabili e il quoziente di correlazione. Facciamo permette fumatori) mediante affidamento al coefficiente Eta-quadrato n2 o quoziente di correlazione che ci di stimare la proporzione di varianza della variabile dipendente (la percentuale di attribuibile alla variabile indipendente (la ripartizione in adolescenti, adulti, anziani) luso di questa formula:
E quindi N2= 302,16 / 741,4 = 0,41 il che significa che il 41% della variazione osservata nel numero di fumatori dipende dalla ripartizione adolescenti/adulti/anziani a cui una determinata persona appartiene.
11
ripartizioni geografiche Italia nord occidentale Italia nord orientale Italia centrale Italia meridionale Italia insulare tot
Sapendo che questi dati sono stati rilevati nel 2011 e sapendo che la popolazione italiana in quellanno nellItalia nord occidentale era 15.438.441, trasformiamoli in valori assoluti sapendo che le frequenze osservate si riferiscono a 100 persone. Quindi, per i maschi 42,0:100 = x: 7.493.203 7.493.203 x 42 : 100 = 3.147.145,26 che approssimiamo. Per le femmine sar 23,3:100=x: 7.945..238 7.945.238 x 23,3 : 100 = 1.851.240,454 che approssimiamo. Italia nord occidentale 15.438.441 totale maschi: 7.493.203 femmine: 7.945..238 Italia nord orientale 11.030.650 totale maschi: 5.380.080 femmine: 5.650.570 Italia centrale 11.245.959 totale maschi: 5.415.770 femmine: 5.830.189 Italia meridionale 14084192 totale maschi: 6.854.041 femmine: 7.230.151 Italia insulare 6.663.133 totale maschi: 3.233.710 femmine: 3.429.423
ripartizioni geografiche Italia nord occidentale Italia nord orientale Italia centrale Italia meridionale Italia insulare tot Indipendente = maschi/femmine
12
ripartizioni geografiche Italia nord occidentale Italia nord orientale Italia centrale Italia meridionale Italia insulare Test del chi2
Dopo aver standardizzato i dati possiamo procedere a verificare la significativit statistica tramite il test chi quadrato, che serve per determinare se le due variabili sono indipendenti nella popolazione di riferimento sottoponendo a verifica lipotesi nulla, secondo la quale nella popolazione da cui stato estratto il campione oggetto di analisi, non esiste nessuna covariazione fra le due variabili prese in esame. Lipotesi alternativa invece sostiene che le due variabili sono correlate nella popolazione nello stesso modo in cui lo sono nel campione. Il test chi2 confronta le frequenze di cella osservate con quelle attese in base allipotesi nulla. Se lipotesi nulla venisse scartata si potrebbe confermare lipotesi alternativa. Se fra le due variabili non esiste relazione, esse sono statisticamente indipendenti ovvero se osservassimo lintera popolazione la distribuzione percentuale della variabile non varierebbe al variare della categoria della variabile indipendente. Per procedere con il test chi 2 necessario dividere i dati tra: frequenze attese, percentuali di colonna e percentuali di riga. Le frequenze attese sono le frequenze che ci si aspetterebbe se lipotesi nulla fosse confermata (e quindi le due variabili fossero statisticamente indipendenti):
Dove: f^ij = frequenza attesa nella cella situata allincrocio tra la riga i e la colonna j fi = frequenza totale marginale di riga fj = frequenza totale marginale di colonna N = numerosit del campione
13
Percentuali di riga: ripartizioni geografiche Italia nord occidentale Italia nord orientale Italia centrale Italia meridionale Italia insulare tot maschi 63% 63% 63% 63% 63% 63% femmine 37 % 37 % 37 % 37 % 37 % 37 % tot 100 % 100 % 100 % 100 % 100 % 100 %
Percentuali di colonna: ripartizioni geografiche Italia nord occidentale Italia nord orientale Italia centrale Italia meridionale Italia insulare tot maschi 25 % 15 % 21 % 25 % 14 % 100 % femmine 25 % 15 % 21 % 25 % 14 % 100 % tot 25 % 15 % 21 % 25 % 14 % 100 %
Il primo passo consiste nel calcolare la statistica chi2 che riassume la differenza tra le frequenze osservate e le frequenze attese di ogni singola osservazione. Per farlo si utilizza la seguente formula:
Dove: fij circonflesso= frequenza attesa nella cella situata allincrocio tra riga i e colonna j secondo H0 fij= frequenza osservata nella stessa cella C = numero di colonne della tavola R = numero di righe della tavola Il x2 mi dice se le variabili sono indipendenti o meno, la loro relazione. Maggiore sar il suo valore pi sar lontana dallaccettare H0.
14
Possiamo cos riassumere i dati: ripartizioni geografiche Italia nord occidentale Italia nord orientale Italia centrale Italia meridionale Italia insulare tot maschi 3,61 1.523,96 0,02 2,17 127,30 1.657,06 femmine 6,11 2.583,30 3.591,70 3,68 215,70 6.400,49 tot 9,72 4.107,26 3.591,72 5,85 343
I valori riassuntivi riportati in questa tabella devono essere esaminati congiuntamente alle frequenze osservate e a quelle attese corrispondenti in modo da determinare, oltre allintensit della differenza che caratterizza ogni cella, anche la sua direzione (negativa o positiva). I valori che compaiono nelle diverse celle indicano lo scostamento delle frequenze attese rispetto a quelle osservate. Lo scostamento pu corrispondere contemporaneamente a una sovrastima o sottostima del campione per ogni cella. Vi sovrastima quando nella matrice dei valori attesi la cella presenta un valore superiore a quello osservato. Vi una sottostima nel caso contrario. La somma di tutte le componenti riportate nella tabella uguale a x2 = 16.115,1 Per accettare o rifiutare lipotesi nulla bisogna confrontare questo valore con il valore critico corrispondente, che si trova sullapposita tabella con =0,001; a questo scopo andiamo a calcolare i gradi di libert tramite la seguente formula: gl=(R-1)(C-1)= (5-1)(2-1)=4x1=4 dove: R= numero delle righe C= numero delle colonne Il valore critico individuato con lapposita tavola 18,46. Dato che 16.115,1 decisamente superiore rispetto 18,46 possiamo rifiutare lipotesi nulla (secondo la quale nella popolazione da cui stato estratto il campione oggetto di analisi, non esiste nessuna covariazione fra le due variabili prese in considerazione) con una possibilit molto piccola di commettere un errore e quindi concludere che la relazione osservata nel campione statisticamente significativa, cio molto probabile che essa esista anche nella popolazione dalla quale stato estratto il campione. Quindi vi una relazione tra la regione di residenza e la decisione di fumare.
15
Dove p la proporzione associata alla categoria di interesse. Nel nostro caso 4.998.384,99/(20.092.561,95-4.998.384,99) = 4.998.384,99/15.094.176,96 = 0.33 Il concetto di Odds semplice pu essere esteso al concetto di Odds condizionato. LOdds condizionato corrisponde al rapporto tra la probabilit di appartenere alla categoria di una determinata variabile e la probabilit di appartenere alle rimanenti categorie della stessa variabile. A partire dalla nostra tavola si possono calcolare molti Odds condizionati, ad esempio lOdss condizionato che confronta il luogo di residenza: Odds condizionato Italia nord occidentale per i maschi 3.147.145/(12.637.385-3.147.145)= 0,33 Odds condizionato Italia nord occidentale per le femmine 1.084.909/(7.455.177-1.084.909) = 0,17 Quando le variabili che formano una tavola di contingenza bivariata sono correlate, i loro Odds condizionati non sono uguali. Per confrontare direttamente due Odds condizionati si pu fare ricorso a una singola statistica descrittiva chiamata Odds-ratio (OR). Esso il rapporto tra due Odds condizionati. Se due variabili non sono correlate i loro Odds condizionati sono identici, quindi Odds-ratio=1. Odds-ratio maggiori di 1 indicano lesistenza di una covariazione positiva fra le due variabili mentre Odds-ratio minori di 1 indicano una covariazione negativa o inversa:
16
17
E possibile affermare che il n di fumatori influisce il n di soggetti malati di tumore ai Polmoni? 0,09 0,088 0,086 0,084 0,082 0,08 0,078 0,076 0,074 21,5 22 22,5 23 Fumatori (%) 2000 2001 2002 2003 2004 2005
2000-2005
Fumatori (X)
Valori Y
23,5
24
24,5
Figura 1. Dati relativi alla (%) di fumatori e soggetti malati di tumore ai polmoni, in Italia nel periodo
18
Tuttavia i dati analizzati dai ricercatori sociali non sono mai perfette relazioni lineari, bisogna perci valutare lesistenza di un errore ei ( anche detto residuo) che rappresenta la porzione del valore assunto di Y in corrispondenza dellosservazione i non predetta dalla sua relazione lineare con X, perci abbiamo un modello di regressione lineare:
Lerrore di regressione anche detto residuo in quanto rappresenta la quantit che rimane dopo aver sottratto lequazione predittiva dal modello di regressione lineare.
COEFFICIENTE DI REGRESSIONE Lanalisi di regressione stima i valori di a e b utilizzando i dati osservati. Compito del modello minimizzare i residui. Il criterio dei minimi quadrati permette di stimare lequazione;
La somma degli errori sempre uguale a zero perch i valori positivi e negativi si controbilanciano esattamente. Gli stimatori dei due coefficienti di regressione (a;b xy) devo soddisfare questo criterio. Dato che la somma degli errori sempre uguale a zero, elevandoli al quadrato vengono eliminati i segni negativi in modo che la somma degli errori risulti sempre maggiore di zero. Sommando poi le differenze tra ogni valore osservato e il corrispondente valore predetto ci che si deve ottenere il minimo valore possibile.
19
Mantenendo lo stesso numeratore e mettendo al denominatore N-1 si ottiene la formula della covarianza
Se, invece, si divide il denominatore della formula bYX per N-1 si ottiene la formula della varianza campionaria
Siccome le due formule hanno gli stessi denominatori, un altro modo per calcolare bYX pu essere espresso dalla formula
Per poter effettuare tutti i calcoli si pu costruire una tabella, come quella che segue, che contiene tutte le informazioni necessarie per calcolare bYX e a.
20
et
Fumatori (X)
X2
Y2
X*Y
= 140,1/6=23,35 = 0,491/6=0,08
Syx = 6(11,479) (140,1)(0,491) 6(6-1) S2x= 6(3.274,31) (140,1)2 6(6-1) = = 68,874 68,7891 = 0,0024 35
La nostra stima del parametro bxy ci dice ci dice che ad ogni aumento dello 0,51% dei soggetti fumatori corrisponde un aumento (atteso) dello 0,0047 di soggetti malati di tumore ai polmoni.
Calcoliamo lintercetta: = 0,08 0,0047(23,35) = - 0,0297 Ora abbiamo tutti i dati per scrivere lequazione di regressione bivariata completa:
21
23,5
24
24,5
22
et
Fumatori
byx
Y^i
ei
(X)
Calcoliamo i rispettivi valori: SQ REGRESSIONE: 3,5481 SQ ERRORE: 4,6235 SQ TOTALE: 8,1716 Ora siamo in grado di calcolare il coefficiente di determinazione R2xy che indica la proporzione della variazione totale di Y che determinata dalla sua relazione lineare con X. Il valore R2xy pu assumere valori compresi tra 1 e 0, dove 1 si verificherebbe nel caso di una predizione perfetta, mentre 0 nel caso in cui tutta la variazione osservata sia dovuta allerrore. R quadrato equivale a uno meno il quoziente del rapporto fra la somma dei quadrati dellerrore e la somma dei quadrati totali
Nel nostro caso R2xy = 0,43 Il che significa che il 43% della variazione totale di Y determinata dalla sua relazione lineare con X e
che quindi il n di fumatori incide sul n di soggetti malati di tumore ai polmoni.
23
Ora possiamo mostrare la direzione della relazione tra le due variabili continue tramite la radice quadrata di R2xy chiamata coefficiente di correlazione di Pearson. In formula:
Il coefficienti di correlazione di Pearson, non essendo elevato al quadrato, pu assumere sia valori positivi che negativi; per questo motivo utile per verificare la direzione della covariazione. Esso pu assumere valori che variano fra -1 (corrispondente a una relazione inversa perfetta) e + 1 (corrispondente a una relazione diretta perfetta). Se fosse uguale a 0, le due variabili sarebbero indipendenti fra loro. Nel nostro caso pari a 0,65 quindi fra x e y c una relazione diretta pari a + 0,65. Ci accingiamo ora a compiere un test di significativit del coefficiente di determinazione. Il test di significativit statistica per R 2xy fa ricorso alla distribuzione F, gi utilizzata nel modello ANOVA. Nellanalisi della regressione la somma dei quadrati totale ha N-1 gradi di libert mentre la somma dei totali della regressione, essendo stimata a partire da b yx, possiede solo un grado di libert. Poich: gl totale = gl regressione + gl errore N-1 = 1 + gl errore gl errore = N-2 Il passo successivo consiste nel calcolare i quadrati medi associati a SQ REGRESSIONE e SQ ERRORE
QM REGRESSIONE = 3,5481
QM ERRORE = 1,1558
24
F1, 4 = 3,5481/1,1558 = 3,0698 Se poniamo = 0,01, la tavola di Fisher ci dice che il valore critico di F, con 1 e 4 gradi di libert, 21,20. Poich F<21,20, non possiamo convalidare il test di significativit (non possiamo rifiutare lipotesi nulla e non possiamo affermare che nella popolazione il coefficiente di determinazione maggiore di zero).
25
26
27