Sei sulla pagina 1di 29

Carrara Laura Matricola n 1012521

Analisi di statistica sociale


(con dati relativi ai tassi di)
Interruzione Volontaria di Gravidanza







Prof. Natale Carra
Statistica sociale





a.a. 2011/2012











INTRODUZIONE
ANALISI DELLA REGRESSIONE e CORRELAZIONE
ANALISI DELLA VARIANZA
ANALISI DEI DATI CATEGORIALI



1
INTRODUZIONE
A partire dal 1979 lIstituto nazionale di statistica, a seguito dellentrata in vigore della legge
numero 194/78, ha avviato, in accordo con le Regioni ed il Ministero della Sanit, la rilevazione dei
casi di interruzione volontaria di gravidanza (Ivg).
Al fine di monitorare il fenomeno, lIstat riceve dallIstituto Superiore di Sanit (ISS) i dati
del sistema di sorveglianza e pubblica usualmente i dati delle interruzioni volontarie della
gravidanza anche nellAnnuario statistico italiano.
Linterruzione volontaria di gravidanza un intervento operativo da parte di uno specialista
che va a rimuovere il prodotto del concepimento e dei suoi annessi, interrompendo il periodo di
gravidanza. Secondo la vigente normativa (legge 194/78) lIvg deve avvenire sotto precisa volont
della donna ed entro i primi 90 giorni dal concepimento nel caso in cui la prosecuzione della
gravidanza, il parto o la maternit comporterebbe serio pericolo per la salute fisica o psichica della
donna. LIvg pu avvenire inoltre per motivi di ordine terapeutico dopo i primi 90 giorni quando la
gravidanza o il parto comportino un grave pericolo per la vita della donna o in presenza di rilevanti
anomalie o malformazioni del nascituro che determinino un grave pericolo per la salute fisica o
psichica della donna.
Avendo deciso di sviluppare questo lavoro su una tematica psicologica di interesse sociale e
considerando i concreti risvolti che Ivg ha sulla donna, sulle famiglie e sulla societ abbiamo potuto
considerare che lIstat si poneva come migliore fonte perch fornisce una vasta gamma di dati
sempre bene organizzati che sono reperibili con discreta facilit.
Una volta recuperati i dati, relativi agli anni 2000-2009, si proceduto ad analizzarli
facendo riferimento a tre modelli statistici (analisi della regressione, analisi della varianza ed analisi
dei dati categoriali) che hanno permesso di correlare i dati anche con altre variabili e fornirci una
spiegazione dellandamento di tale fenomeno allinterno del nostro paese.
Le domande da cui parte questo lavoro sono relative anche ad altre variabili in gioco.
Per prima cosa, oltre ai dati dellIvg, abbiamo recuperato i dati relativi alla soglia di povert del
2009 ponendoci il seguente quesito: Quanto la situazione socio-economica influisce sulla decisione
di Ivg?
La seconda domanda stata chiedersi se i tassi di Ivg negli ultimi dieci anni (2000-2009) sono
variati in modo lineare? Si notato inoltre un aumento o un decremento?
Attraverso unulteriore analisi si accertato quanto i dati relativi allIvg variassero in funzione della
maturit sessuale, organizzata su tre livelli (fasce di et: 15-19, 25-29, 45-49), e dello stato civile
organizzato sempre su tre livelli (nubile, coniugata, separata/vedova). Inoltre, analizzando le
frequenze dellIvg, ci si chiesti se la nazionalit della donna (italiana o straniera) instaurasse una
qualche relazione con let in cui avviene la scelta dellinterruzione volontaria di gravidanza.
2
ANALISI DELLA REGRESSIONE E CORRELAZIONE

Le procedure di regressione e correlazione bivariata assumono che la forma della relazione tra Y e
X sia lineare e che la variabile dipendente sia distribuita normalmente ad ogni livello della variabile
indipendente. Per iniziare questa analisi bisogna partire dal diagramma di dispersione ove, sullasse
delle X pongo la variabile indipendente mentre i valori della variabile dipendente sono disposti
sullasse Y. In corrispondenza delle coordinate X e Y si traccia un punto e linsieme di questi
rappresenta le modalit di covariazione. Questo modello di analisi bivariata permette di verificare
se landamento dei dati sia rappresentato dalla retta e considerando lerrore (e
i
; differenza tra valore
atteso e valore osservato) si evincer dunque come le due variabili continue covariano.

ANALISI DELLA REGRESSIONE (Ivg e soglia di povert-anno 2009)
Quanto la situazione socio-economica influisce sulla scelta di Ivg?

Regioni

Valori soglia di
povert Ivg
Piemonte 117.626 8.854
Valle d'Aosta 3.629 225
Lombardia 184.581 3.195
Liguria 37.159 18.125
Trentino-Alto Adige 35.647 1.360
Veneto 87.292 6.993
Friuli-Venezia Giulia 42.633 1.974
Emilia-Romagna 78.199 9.255
Toscana 87.431 7.171
Umbria 19.599 1.741
Marche 44.266 2.368
Lazio 136.263 12.117
Molise 22.599 596
Campania 518.171 9.845
Puglia 316.730 9.727
Basilicata 56.746 964
Calabria 208.735 3.291
Sicilia 476.386 7.232
Sardegna 143.434 1.900

Per lAbruzzo il valore non riportato, in quanto non significativo a causa della scarsa numerosit
campionaria.

3

Andamento tasso di Ivg e soglia di povert anno 2009

RETTA DI REGRESSIONE
Quando stimiamo la relazione lineare fra una variabile dipendente (Y) e una variabile indipendente
(X), regrediamo Y rispetto a X, producendo una relazione lineare bi-variata. O una regressione bi-
variata Y=a+bX.
I ricercatori sociali normalmente assumono che le variabili siano correlate in modo lineare a meno
che non sia palese lesistenza di collegamento tra le variabili non lineare come quello gaussiano o
logaritmico.
Il punto di partenza unequazione predittiva, nella quale ad ogni valore della variabile
indipendente ne corrisponde linearmente uno della dipendente:



Tuttavia i dati analizzati dai ricercatori sociali non sono mai perfette relazioni lineari, bisogna
perci valutare lesistenza di un errore e
i
( anche detto residuo) che rappresenta la porzione di Y in i

non predetta dalla sua relazione lineare con X, perci abbiamo un modello di regressione lineare:


Lerrore e
i
detto anche residuo perch:

y = 0.0103x + 4203.2
0
2,000
4,000
6,000
8,000
10,000
12,000
14,000
16,000
18,000
20,000
0 100,000 200,000 300,000 400,000 500,000 600,000
| | | |
i i YX i i YX i i
e X b a e X b a Y Y = + + + =

4
COEFFICIENTE DI REGRESSIONE
Lanalisi di regressione stima i valori di a e b utilizzando i dati osservati. Compito del modello
minimizzare i residui.

Il criterio dei minimi quadrati permette di stimare lequazione; secondo

questo criterio (OLS) la somma delle differenze al quadrato deve essere minima.
La stima dei minimi quadrati per il coefficiente di regressione bivariata calcolata come:




Lintercetta si pu ricavare dallequazione predittiva dopo aver trovato b
YX
:
Per poter effettuare tutti i calcoli si pu costruire una tabella, come quella che segue, che contiene
tutte le informazioni necessarie per calcolare b
YX
e a.
X= 137743 Y=5628

(x
i
-M(x)) (y
i
-M(y)) (x
i
-M(x))(y
i
-M(y)) (x
i
-M(x))
2
(y
i
-M(y))
2

-20117 3226 -64897442 404693689 10407076
-134114 -5403 724617942 17986564996 29192409
46838 -2433 -113956854 2193798244 5919489
100584 12497 -1256998248 10117141056 156175009
-102096 -4268 435745728 10423593216 18215824
-50451 1365 -68865615 2545303401 1863225
-95110 -3654 347531940 9045912100 13351716
-59544 3627 -215966088 3545487936 13155129
-50312 1543 -77631416 2531297344 2380849
-118144 -3887 459225728 13958004736 15108769
-93477 -3260 304735020 8737949529 10627600
-1480 6489 -9603720 2190400 42107121
-115144 -5032 579404608 13258140736 25321024
380428 4217 1604264876 144725463184 17783089
178987 4099 733667713 32036346169 16801801
-80997 -4664 377770008 6560514009 21752896
70992 -2337 -165908304 5039864064 5461569
338643 1604 543183372 114679081449 2572816
5691 -3728 -21216048 32387481 13897984


5
b
yx
=4115103200/397823733739= 0.0103 (INCLINAZIONE DELLA RETTA DI REGRESSIONE)

a = 4203.2 (PUNTO IN CUI LA RETTA DI REGRESSIONE TOCCA LASSE Y CON X=0)

Inoltre:

- Il numeratore di b
YX
diviso per N 1 determina la covarianza, indicata come s
yx
:



s
yx
= 228616844.4

- Il denominatore di b
YX
diviso per N 1 determina la varianza di X, indicata come s
2
x
:



s
2
x
= 221013185.4

Dato che N 1 appare nel denominatore di varianza e covarianza questo viene eliminato eliminato
nel rapporto tra le due il quale risulta uguale a b
YX
. Dunque lo stimatore pu anche essere espresso
come

Per determinare la forza della covariazione scomponiamo gli effetti:
dove esprime la differenza tra osservazione e valore atteso: e
i
esprime la parte di valore osservato attribuibile alla relazione lineare tra Y e X





( ) ( ) ( ) Y Y Y Y Y Y
i i i i
+ =

( )
i i
Y Y

( ) Y Y
i

6
COEFFICIENTE DI DETERMINAZIONE R
2
YX

Un modo per determinare la forza della co-variazione tra due variabili misurare la vicinanza tra i
valori osservati e quelli prodotti dalla retta di regressione stimata.
La variazione di Y dovuta sia alleffetto esercitato da X sia dallerrore casuale; possiamo dividere
la somma dei quadrati totale in una componente sistematica ed in una causale.
Se vogliamo conoscere la quota di variazione attribuibile al modello di regressione:





perci =



R
2
yx
= 0.1008

Possiamo dunque affermare che la variabile Y influenzata per il 0.1 dalla variabile X ossia il 10%
della variazione osservata nei tassi di Ivg (dati 2009; regioni italiane) spiegata dai valori della
soglia di povert.

COEFFICIENTE DI CORRELAZIONE DI PEARSON
la radice quadrata del coefficiente di determinazione 0.31

Se r
YX
-1 rappresenta una relazione inversa perfetta tra le variabili, se uguale a 0 indica
linesistenza di relazioni e se uguale ad 1 abbiamo una relazione diretta perfetta; in questo caso
abbiamo una correlazione positiva .




7
TEST DI SIGNIFICATIVIT PER I COEEFICIENTI DI REGRESSIONE
Il test di significativit del coefficiente di determinazione consente di trarre inferenze sulla
popolazione a partire dai dati campionari.
Il test di significativit statistica per R
2
YX
fa ricorso alla distribuzione F. La somma dei quadrati
della regressione, essendo stimata a partire da b
YX
possiede solo un grado di libert. La somma dei
gradi di libert pu essere suddivisa in due come la somma dei quadrati totali, perci:




Nel nostro caso gl
ERRORE
=19-2=17

QM
REGRESSIONE
= R
2
YX
* s
2
Y
* (N - 1) = 42547216

SQ
TOTALE
= s
2
Y
* (N - 1) = 422095392

SQ
ERRORE
= SQ
TOTALE
- SQ
REGRESSIONE
= 379528617

QM
ERRORE
= SQ
ERRORE
/ (N - 2) = 22325213


= 1.91


Il valore critico per = 0.05 4.45. Essendo F inferiore a questo valore il test di significativit non
pu dirsi convalidato.

CONCLUSIONI
Dopo questa analisi possibile notare che in Italia nel 2009 i tassi di Ivg sono variati in relazione ai
tassi della soglia di povert anche se questa relazione non statisticamente significativa. Come
postulato da questa relazione i tassi di Ivg sono correlati con la soglia di povert; questo
probabilmente anche determinato dal fatto che la situazione economica in cui si trova la donna
influisce notevolmente sulla scelta di Ivg. Essendo il coefficiente di correlazione 0.31 possiamo
vedere che questo legame tra variabili, pur non essendo statisticamente significativo, mostra una
correlazione positiva ed infatti con laumento della soglia di povert aumentano i tassi di Ivg.
8
ANALISI DELLA REGRESSIONE (Ivg e andamento negli ultimi dieci anni)
I tassi di Ivg negli ultimi dieci anni (2009-2009) sono variati in modo lineare?

X 2000 (1) 2001 (2) 2002 (3) 2003 (4) 2004 (5) 2005 (6) 2006 (7) 2007 (8) 2008 (9) 2009 (10)
Y 130.162 126.306 123.792 117.239 129.768 121.408 117.156 117.477 112.593 109.109



La variabile anni stata codificata con numeri naturali interi da 1 a 10.
Andamento del tasso di Ivg dal 2000 al 2009

RETTA DI REGRESSIONE
Quando stimiamo la relazione lineare fra una variabile dipendente (Y) e una variabile indipendente
(X), regrediamo Y rispetto a X, producendo una relazione lineare bivariata. O una regressione
bivariata Y=a+bX.
I ricercatori sociali normalmente assumono che le variabili siano correlate in modo lineare a meno
che non sia palese lesistenza di collegamento tra le variabili non lineare come quello gaussiano o
logaritmico.
Il punto di partenza unequazione predittiva, nella quale ad ogni valore della variabile
indipendente ne corrisponde linearmente uno della dipendente:



y = -1973.6x + 131356
105,000
110,000
115,000
120,000
125,000
130,000
135,000
0 1 2 3 4 5 6 7 8 9 10 11
9
Tuttavia i dati analizzati dai ricercatori sociali non sono mai perfette relazioni lineari, bisogna
perci valutare lesistenza di un errore e
i
(anche detto residuo) che rappresenta la porzione di Y in i

non predetta dalla sua relazione lineare con X, perci abbiamo un modello di regressione lineare:


Lerrore e
i
detto anche residuo perch:


COEFFICIENTE DI REGRESSIONE
Lanalisi di regressione stima i valori di a e b utilizzando i dati osservati. Compito del modello
minimizzare i residui.

Il criterio dei minimi quadrati permette di stimare lequazione; secondo

questo criterio (OLS) la somma delle differenze al quadrato deve essere minima.
La stima dei minimi quadrati per il coefficiente di regressione bivariata calcolata come:




Lintercetta si pu ricavare dallequazione predittiva dopo aver trovato b
YX
:

Per poter effettuare tutti i calcoli si pu costruire una tabella, come quella che segue, che contiene
tutte le informazioni necessarie per calcolare b
YX
e a.
X= 5.5 Y=120501
(x
i
-M(x)) (y
i
-M(y)) (x
i
-M(x))(y
i
-M(y)) (x
i
-M(x))
2
(y
i
-M(y))
2

-4,5 9661 -43474.5 20.25 93334921
-3.5 5805 -20317.5 12.25 33698025
-2.5 3291 -8227.5 6.25 10830681
-1.5 -3262 4893 2.25 10640644
-0.5 9267 -4633.5 0.25 85877289
0.5 907 453.5 0.25 822649
1.5 -3345 -5017.5 2.25 11189025
2.5 -3024 -7560 6.25 9144576
3.5 -7908 -27678 12.25 62536464
4.5 -11392 -51264 20.25 128346241


| | | |
i i YX i i YX i i
e X b a e X b a Y Y = + + + =

10
b
yx
= -162826 / 82.50 = -1973.6 (INCLINAZIONE DELLA RETTA DI REGRESSIONE)

a = 131356 (PUNTO IN CUI LA RETTA DI REGRESSIONE TOCCA LASSE Y CON X=0)

Inoltre:

- Il numeratore di b
YX
diviso per N 1 determina la covarianza, indicata come s
yx
:



S
YX
= -18091.7

- Il denominatore di b
YX
diviso per N 1 determina la varianza di X, indicata come s
2
x
:


S
2
X
= 9.16

Dato che N 1 appare nel denominatore di varianza e covarianza questo viene eliminato eliminato
nel rapporto tra le due il quale risulta uguale a b
YX
. Dunque lo stimatore pu anche essere espresso
come

Per determinare la forza della covariazione scomponiamo gli effetti:
dove esprime la differenza tra osservazione e valore atteso: e
i
esprime la parte di valore osservato attribuibile alla relazione lineare tra Y e X







( ) ( ) ( ) Y Y Y Y Y Y
i i i i
+ =

( )
i i
Y Y

( ) Y Y
i

11
COEFFICIENTE DI DETERMINAZIONE R
2
YX

Un modo per determinare la forza della covariazione tra due variabili misurare la vicinanza tra i
valori osservati e quelli prodotti dalla retta di regressione stimata.
La variazione di Y dovuta sia alleffetto esercitato da X sia dallerrore causale; possiamo dividere
la somma dei quadrati totale in una componente sistematica ed in una casuale.

Se vogliamo conoscere la quota di variazione attribuibile al modello di regressione:




perci =


R
2
YX
= 327309608.9/ 9.16*49602279.4 = 0.72

Possiamo dunque affermare che la variabile Y influenzata per il 72% dalla variabile X quindi il
72% della variazione osservata nei tassi di Ivg data dallo scorrere degli anni.

COEFFICIENTE DI CORRELAZIONE DI PEARSON
la radice quadrata del coefficiente di determinazione 0.84

Se r
YX
-1 rappresenta una relazione inversa perfetta tra le variabili, se uguale a 0 indica
linesistenza di relazioni e se uguale ad 1 abbiamo una relazione diretta perfetta. In questo caso
abbiamo una relazione diretta non totalmente perfetta; le due variabili hanno una relazione
inversamente proporzionale.

TEST DI SIGNIFICATIVIT PER I COEEFICIENTI DI REGRESSIONE
Il test di significativit del coefficiente di determinazione consente di trarre inferenze sulla
popolazione a partire dai dati campionari.
Il test di significativit statistica per R
2
YX
fa ricorso alla distribuzione F. La somma dei quadrati
della regressione, essendo stimata a partire da b
YX
possiede solo un grado di libert. La somma dei
gradi di libert pu essere suddivisa in due come la somma dei quadrati totali,perci:
12






Nel nostro caso gl
ERRORE
=10-2=8

QM
REGRESSIONE
= R
2
YX
* s
2
Y
* (N - 1) =3968182.3

SQ
TOTALE
= s
2
Y
* (N - 1) = 5511364.3

SQ
ERRORE
= SQ
TOTALE
- SQ
REGRESSIONE
= 1543182

QM
ERRORE
= SQ
ERRORE
/ (N - 2) = 192897.75


= 20.57

Il valore critico per = 0.05 5.32. Essendo F superiore a questo valore il test di significativit pu
dirsi convalidato.

CONCLUSIONI
Dopo questa analisi possibile notare che in Italia tra il 2000 e 2009 c stato un decremento
lineare nei tassi di Ivg (col procedere degli anni i tassi di Ivg diminuiscono progressivamente, ossia
le due variabili sono correlate inversamente). Come postulato da questa relazione quindi i tassi di
Ivg sono correlati con lo scorrere degli anni e probabilmente ci anche determinato da una
maggiore diffusione dei media sulle conseguenze della scelta di Ivg ed anche dalla maggiore
diffusione di strutture che supportano donne che devono affrontare tale scelta. Essendo il
coefficiente di correlazione vicino ad 1 possiamo vedere che questo legame tra variabili forte, tesi
confermata anche dal test di significativit, ben maggiore del valore critico.




13
ANALISI DELLA VARIANZA

Il modello ANOVA (O ANALISI DELLA VARIANZA) una versione particolare del modello
lineare generale, in cui la variabile indipendente (o manipolata) formata da categorie discrete e la
variabile dipendente di tipo continuo. Con questo modello si sottopone a verifica lipotesi secondo
la quale le medie campionarie di J gruppi diversi provengono da una stessa popolazione, anzich da
popolazioni differenti. Il modello ANOVA permette quindi di ragionare sulla varianza per dire
qualcosa sulle medie e pu analizzare anche pi variabili ma sono richiesti strumenti matematici
complessi.

MISURE DI TENDENZA CENTRALE
La Media si definisce con la somma dei valori di tutte le osservazioni diviso il numero delle
osservazioni

Dove:
= media del campione
= i-esima osservazione della variabile X
n = numero di osservazioni del campione
= sommatoria di tutti gli del campione

Per Mediana si intende il valore che occupa la posizione centrale in una serie ordinata di dati.

La Moda (o norma) indica in statistica la modalit pi frequente fra quelle osservate in un data
distribuzione di frequenze.







14
ANALISI DELLA VARIANZA A UNA VIA (Ivg e Classi di et)
Quanto la classe det di appartenenza e quindi il livello di maturazione sessuale raggiunto,
influenza la decisione per uneventuale Interruzione Volontaria di Gravidanza?

Interruzioni volontarie della gravidanza per tre classi di et e provincia di residenza - Anno 2009

RESIDENZA

15-19(a) 25-29(b) 45-49(c)

Piemonte 771 1.739 61
Valle d'Aosta 16 48 1
Liguria 345 616 24
Lombardia 1.450 3.687 143
Trentino-Alto Adige 132 246 14
Veneto 520 1.456 58
Friuli-Venezia Giulia 166 378 18
Emilia-Romagna 601 1.772 83
Toscana 517 1.393 63
Umbria 127 368 19
Marche 163 479 20
Lazio 1.149 2.343 112
Abruzzo 164 440 24
Molise 39 112 8
Campania 855 2.026 71
Puglia 876 1.931 77
Basilicata 92 195 14
Calabria 282 649 43
Sicilia 805 1.444 50
Sardegna 160 366 29



Medie dellIvg per fasce di et

0
200
400
600
800
1,000
1,200
(a) 15-19 (b) 25-29 (c) 45-49
15
Ai nostri dati possiamo applicare il modello ANOVA (Analisi della varianza) in quanto abbiamo la
variabile indipendente formata da un insieme di categorie discrete (tre fasce det) e la variabile
dipendente di tipo continuo (Ivg).
Riassumendo:

H
0
:
a
=
b
=
c
H
1
: non(
a
=
b
=
c
)


Lipotesi nulla afferma che non ci sia influenza significativa della diversa maturit sessuale sulla
decisione di Ivg; lipotesi alternativa ci dice, invece, che la maturit sessuale incide
significativamente sulla decisione di Ivg. Se come afferma lipotesi nulla le medie dei vari gruppi
sono uguali una allaltra, allora esse sono anche uguali alla media generale della popolazione.
Leffetto esercitato dal gruppo J, indicato con il simbolo o
j
viene definito come la differenza tra la
media di quel gruppo e la media generale:

j
=
j


Se il gruppo non esercita alcun effetto il risultato sar uguale a 0.
Nel nostro caso i valori di sono i seguenti:
M
a
= 461.5
M
b
= 1084
M
c
= 46.6

M
(a,b,c)
=530.8

Il Modello ANOVA generale con una sola variabile scompone ogni valore osservato in tre
componenti:
Y
ij
=+
j
+e
ij

Dove:
Y
ij
= valore dellosservazione i del gruppo j
e
ij
= errore residuo del singolo i del gruppo j
= media generale, comune a tutte le osservazioni

j
= effetto comune esercitato dal gruppo j


16

Per determinare gli effetti di
j
e e
ij
si parte da:

Nel nostro caso otteniamo: che rappresenta la somma dei quadrati totale indicata
con SQ
TOTALE
.

Lanalisi della varianza suddivide la somma dei quadrati totale in due componenti:
La somma dei quadrati nei gruppi SQ
INTRAGRUPPO
pari alla somma delle deviazioni al quadrato
delle osservazioni di ciascun gruppo dalla media di quel gruppo;
La somma dei quadrati fra i gruppi SQ
INTERGRUPPO
pari alla somma delle deviazioni al quadrato di
ciascuna media di gruppo dalla media generale dei gruppi.


SQ
INTRAGRUPPO




SQ
INTERGRUPPO



Nel nostro caso:
SQ
INTRAGRUPPO
= (771-461.5)
2
+(16-461.5)
2
+(345-461.5)
2
+(1.450-461.5)
2
+(132-461.5)
2
+(520-
461.5)
2
+(166-461.5)
2
+(601-461.5)
2
+(517-461.5)
2
+(127-461.5)
2
+(163-461.5)
2
+(1.149-461.5)

2
+(164-461.5)
2
+(39-461.5)
2
+(855-461.5)
2
+(876-461.5)
2
+(92-461.5)
2
+(282-461.5)
2
+(805-461.5)

2
+(160-461.5)
2
+(1.739-1084)
2
+(48-1084)
2
+(616-1084)
2
+(3.687-1084)
2
+(246-1084)
2
+(1.456-
1.084)
2
+(378-1084)
2
+(1.772-1084)
2
+(1.393-1084)
2
+(368-1084)
2
+(479-1084)
2
+(2.343-1084)

2
+(440-1084)
2
+(112-1084)
2
+(2.026-1084)
2
+(1.931-1084)
2
+(195-1084)
2
+(649-1084)
2
+(1.444-
1084)
2
+(366-1084)
2
+(61-46.6)
2
+ (1-46.6)
2
+ (24-46.6)
2
+(143-46.6)
2
+ (14-46.6)
2
+ (58-46.6)

2
+(18-46.6)
2
+ (83-46.6)
2
+ (63-46.6)
2
+(19-46.6)
2
+ (20-46.6)
2
+ (112-46.6)
2
+ (24-46.6)
2
+ (8-
46.6)
2
+(71-46.6)
2
+ (77-46.6)
2
+ (14-46.6)
2
+(43-46.6)
2
+ (50-46.6)
2
+ (29-46.6)
2
= 20635701

SQ
INTERGRUPPO
= 20 (461.5-530.8)
2
+20(1084-530.8)
2
+20(46.6-530.8)
2
= 10914502

SQ
totale
= SQ
INTRAGRUPPO
+ SQ
INTERGRUPPO
= 31550202

Il passo successivo consiste nel calcolare i quadrati medi corrispondenti a SQ
INTERGRUPPO
e
SQ
INTRAGRUPPO
.
Ognuno di essi rappresenta la stima di una varianza : la prima attribuibile agli effetti di gruppo, la
seconda attribuibile all errore.
( )
2
1 1

= =

j
n
i
J ij
J
J
Y Y
( )
2
1

=

J
J
j
J
Y Y n
17
Se non esiste alcun effetto di gruppo allora le due stime saranno identiche, altrimenti il
QM
INTERGRUPPO
sar maggiore del QM
INTRAGRUPPO
.
I quadrati medi vengono calcolati dividendo ciascuna somma di quadrati per i rispettivi gradi di
libert.
Per la varianza nei gruppi i gradi di libert sono uguali a N-J; per la varianza fra i gruppi i sono
uguali a J-1.
QMintragruppo


QMintergruppo



Nel nostro caso:
QMintragruppo= 20635701/57= 362030

QMintergruppo= 10914502/2= 5457251

IL QUOZIENTE F
Il quoziente F viene calcolato come rapporto fra i due quadrati medi

F
j-1,N-j
= QMintergruppo/ QMintragruppo

F
2,57
= 15.07

Ponendo = 0.05

Il valore critico 3.15 pertanto POSSIAMO RIFIUTARE LIPOTESI NULLA.
La decisione di interruzione volontaria di gravidanza influenzata dallet della donna ossia dalla
maturit sessuale raggiunta.



18
FORZA DELLA RELAZIONE 2


Dopo aver rifiutato lipotesi nulla necessario stimare la forza di relazione tra le variabili
calcolando il quoziente di relazione o eta-quadrato.

2
= SQ intergruppo /SQ totale= 0.34


CONCLUSIONI
Possiamo dunque affermare che il 34% della variazione osservata sui tassi di Ivg spiegata dalla
fascia di et di appartenenza della donna.






















19
ANALISI DELLA VARIANZA A UNA VIA (Ivg e Stato civile)
Lo stato civile di una donna condiziona in modo decisivo uneventuale decisione di Ivg?

Interruzioni volontarie della gravidanza per stato civile e regione di residenza - Anno 2009



Medie dellIvg per stato civile

0
500
1000
1500
2000
2500
3000
NUBILE (a) CONIUGATA (b) SEPARATA/VEDOVA
(c)
REGIONI DI
Stato civile
RESIDENZA
Nubile(a) Coniugata(b) Separata/vedova (c)
Piemonte 4.374 3.709 762
Valle d'Aosta 113 88 24
Liguria 1.814 1.086 279
Lombardia 8.773 7.758 1.283
Trentino-Alto Adige 691 569 100
Veneto 3.120 3.346 483
Friuli-Venezia Giulia 936 840 173
Emilia-Romagna 4.503 4.002 738
Toscana 3.452 2.927 606
Umbria 805 785 129
Marche 1.055 1.093 189
Lazio 6.555 4.677 876
Abruzzo 1.056 937 139
Molise 256 305 34
Campania 4.118 5.255 462
Puglia 4.141 5.034 466
Basilicata 442 465 51
Calabria 1.363 1.709 180
Sicilia 3.250 3.593 382
Sardegna 1.022 712 139

20
Anche con questi dati possiamo iniziare ad analizzare la relazione tra le variabili.
Ai nostri dati possiamo applicare il modello ANOVA (Analisi della varianza) in quanto abbiamo la
variabile indipendente formata da un insieme di categorie discrete (nubile-coniugata-
separata/vedova) e la variabile dipendente di tipo continuo (Ivg).
Riassumendo:

H0:
a
=
b
=
c
H1: non (
a
=
b
=
c
)

Lipotesi nulla afferma che non ci sia significativa influenza dello stato civile della donna sulla
decisione di Ivg; lipotesi alternativa ci dice, invece, che la stato civile incide significativamente
sulla decisione di Ivg. Se come afferma lipotesi nulla le medie dei vari gruppi sono uguali una
allaltra, allora esse sono anche uguali alla media generale della popolazione.
Leffetto esercitato dal gruppo J, indicato con il simbolo o
j
viene definito come la differenza tra la
media di quel gruppo e la media generale:

j
=
j


Se il gruppo non esercita alcun effetto il risultato sar uguale a 0.
Nel nostro caso i valori di sono i seguenti:
M
a
= 2592
M
b
= 2445
M
c
= 375

(a,b,c)
=1804

Il Modello ANOVA generale con una sola variabile scompone ogni valore osservato in tre
componenti:
Y
ij
=+
j
+e
ij

Dove:
Y
ij
= valore dellosservazione i del gruppo j
e
ij
= errore residuo del singolo i del gruppo j
= media generale, comune a tutte le osservazioni

j
= effetto comune esercitato dal gruppo j


21
Per determinare gli effetti di j e eij si parte da:

Nel nostro caso otteniamo: che rappresenta la somma dei quadrati totale indicata
con SQ
TOTALE
.

Lanalisi della varianza suddivide la somma dei quadrati totale in due componenti:
La somma dei quadrati nei gruppi SQ
INTRAGRUPPO
pari alla somma delle deviazioni al quadrato
delle osservazioni di ciascun gruppo dalla media di quel gruppo;
La somma dei quadrati fra i gruppi SQ
INTERGRUPPO
pari alla somma delle deviazioni al quadrato di
ciascuna media di gruppo dalla media generale dei gruppi.


SQ
INTRAGRUPPO



SQ
INTERGRUPPO


Nel nostro caso:
SQ
INTRAGRUPPO
= (4.374-2592)
2
+(113-2592)
2
+(1.814-2592)
2
+(8.773-2592)
2
+(691-2592)

2
+(3.120-2592)
2
+(936-2592)
2
+(4.503-2592)
2
+(3.452-2.592)
2
+(805-2592)
2
+(1.055-2592)

2
+(6.555-2592)
2
+(1.056-2592)
2
+(256-2592)
2
+(4.118-2592)
2
+(4.141-2592)
2
+(442-2592)

2
+(1.363-2592)
2
+(3.250-2592)
2
+(1.022-2592)
2
+(3.079-2445)
2
+(88-2445)
2
+(1.086-2445)

2
+(7.758-2445)
2
+(569-2445)
2
+(3.346-2445)
2
+(840-2445)
2
+(4.002-2445)
2
+(2.927-2445)
2
+(785-
2445)
2
+(1.093-2445)
2
+(4.677-2445)
2
+(937-2445)
2
+(305-2445)
2
+(5.255-2445)
2
+(5.034-2445)

2
+(465-2445)
2
+(1.709-2445)
2
+(3.593-2445)
2
+(712-2.445)
2
+(762-375)
2
+ (24-375)
2
+ (279-375)

2
+(1.283-375)
2
+ (100-375)
2
+ (483-375)
2
+(173-375)
2
+ (738-375)
2
+ (606-375)
2
+(129-375)
2
+
(189-375)
2
+ (876-375)
2
+ (139-375)
2
+ (34-375)
2
+(462-375)
2
+ (466-375)
2
+ (51-375)
2
+(180-375)
2
+ (382-375)
2
+ (139-375)
2
= 190735838

SQ
INTERGRUPPO
= 20(2592-1804)
2
+20(2445-1804)
2
+20(375-1804)
2
= 61565950

SQ
totale
= SQ
INTRAGRUPPO
+ SQ
INTERGRUPPO
= 252301788

Il passo successivo consiste nel calcolare i quadrati medi corrispondenti a SQ
INTERGRUPPO
e
SQ
INTRAGRUPPO
.
Ognuno di essi rappresenta la stima di una varianza : la prima attribuibile agli effetti di gruppo, la
seconda attribuibile all errore.


( )
2
1 1

= =

j
n
i
J ij
J
J
Y Y
( )
2
1

=

J
J
j
J
Y Y n
22
Se non esiste alcun effetto di gruppo allora le due stime saranno identiche, altrimenti il
QM
INTERGRUPPO
sar maggiore del QM
INTRAGRUPPO
.
I quadrati medi vengono calcolati dividendo ciascuna somma di quadrati per i rispettivi gradi di
libert.
Per la varianza nei gruppi i gradi di libert sono uguali a N-J; per la varianza fra i gruppi i sono
uguali a J-1.

QM intragruppo



QM intergruppo



Nel nostro caso:
QM intragruppo= 190735838/57=3346243
QM intergruppo= 61565950/2=30782975

IL QUOZIENTE F
Il quoziente F viene calcolato come rapporto fra i due quadrati medi

F
j-1,N-j
= QM intergruppo/ QM intragruppo

F
2,57
= 9.19

Ponendo = 0.05

Il valore critico 3.15 pertanto POSSIAMO RIFIUTARE LIPOTESI NULLA.
I tassi di Ivg sono statisticamente influenzati dallo stato civile.


23

FORZA DELLA RELAZIONE 2


Dopo aver rifiutato lipotesi nulla necessario stimare la forza di relazione tra le variabili
calcolando il quoziente di relazione o eta-quadrato.

2
= SQintergruppo/SQtotale= 0.24


CONCLUSIONI
Possiamo dunque affermare che il 24% della variazione osservata sui tassi di Ivg spiegata dallo
stato civile della donna.






















24
ANALISI DEI DATI CATEGORIALI - TEST DEL CHI-QUADRATO

Un metodo per studiare relazioni tra variabili basarsi sulle tavole di contingenza. Lanalisi dei dati
categoriali un modello di analisi bivariata che si utilizza in presenza di variabili discrete,
categoriali.
Una tavola di contingenza bivariata rappresenta i modi in cui due variabili discrete si manifestano
congiuntamente in un certo insieme di osservazioni. Le categorie di una o di entrambe le variabili
possono essere ordinate o meno.
Quando il campione su cui si basa una tavola di contingenza bivariata sufficientemente grande
(N>100) possibile effettuare un test del chiquadrato per verificare se le due variabili in questione
sono indipendenti nella popolazione di riferimento.

La nazionalit della donna (italiana o straniera) instaura una qualche relazione con let in cui
avviene la scelta di Ivg?

ITALIANE STRANIERE Marginali riga
GIOVANI
(15-27)
30859 23098 53957
MATURE
(28-40)
15350 5865 21215
Marginali
colonna
46209 28963 75172


Donne:
Giovani : 15-27 aa
Mature : 28-40 aa

Origine donne straniere: UE, Europa centro orientale, Romania, Albania, Ucraina, Altri paesi
europei, Africa, Marocco, Nigeria, America del Nord, America centro meridionale, Ecuador, Per,
Asia, R.P. Cinese, Filippine, Oceania, Apolide ed origine non indicata.





25
Andamento Frequenze osservate:



Le frequenze attese vengono calcolate secondo lipotesi nulla per la quale nella popolazione dalla
cui il campione estratto non esiste co-variazione tra variabili (H
o
:le due variabili categoriali sono
indipendenti); non ci dovrebbe quindi essere relazione tra la maturit delle donne e i tassi di Ivg
delle donne italiane e straniere registrate in Italia nel 2009. Lipotesi di ricerca invece prevede che
nella popolazione le variabili sono correlate come nel campione (H
1
: sussiste una relazione tra le
due variabili).
Le frequenze attese sono cos calcolate:

Dove:
= = Frequenza attesa nella cella situata allincrocio tra la riga i e la colonna j
= Frequenza totale marginale di riga
= Frequenza totale marginale di colonna
N = Numerosit del campione

ITALIANE STRANIERE
Marginali
riga
GIOVANI
(15-27)
33168 20789 53957
MATURE
(28-40)
13041 8174 21215
Marginali
colonna
46209 28963 75172



STRANIERE
GIOVANI
(15-27)
MATURE
(28-40)
ITALIANE
GIOVANI
(15-27)
MATURE
(28-40)
26
Andamento Frequenze attese:








Dove:
fij circonflesso= frequenza attesa nella cella situata allincrocio tra riga i e colonna j secondo H
0

fij= frequenza osservata nella stessa cella
C = numero di colonne della tavola
R = numero di righe della tavola
Il mi dice se le variabili sono indipendenti o meno, la loro relazione. Maggiore sar il suo
valore pi sar lontana dallaccettare H
0
.

(33168-30859)
2
/33168= 160.7
(20789-23098)
2
/20789= 256.4
(13041-15350)
2
/13041= 408.8
(8174-5865)
2
/8174= 652.2

= 1478.1

Per accettare o rifiutare lipotesi nulla bisogna confrontare il valore con il valore critico
corrispondente.


Per trovare il valore critico bisogna calcolare i gradi di libert:
STRANIERE
GIOVANI
(15-27)
MATURE
(28-40)
ITALIANE
GIOVANI
(15-27)
MATURE
(28-40)
27

gl= (R-1)(C-1)
Nel nostro caso:
gl = 1
Il valore critico per rifiutare lipotesi nulla 3.84, con pari a 0.05. Il nostro valore maggiore del
valore critico quindi possiamo rifiutare lipotesi nulla accettando lipotesi alternativa.


MISURE DI ASSOCIAZIONE

Se il test di significativit (chi-quadrato) indica la relazione tra le variabili, si tratta ora di misurarne
la forza. Lo si pu fare attraverso diverse misure di associazione.
La misura di associazione gamma (G) una misura di associazione di tipo simmetrico, che
determina la forza di associazione tra due variabili ordinate, valutando sistematicamente tutte le
coppie di osservazioni possibili. In pratica il valore di gamma che si ottiene assumendo come
variabile dipendente la variabile di riga lo stesso che si ottiene assumendo come variabile
dipendente la variabile di colonna. Gamma pu assumere valori tra -1 e 1 mentre lo 0 indica
mancanza di relazione tra le variabili.

Gamma misura la forza di associazione tra coppie di variabili e il suo calcolo comporta, come gi
accennato, la valutazione sistematica di tutte le coppie di osservazioni possibili nella tavola di
contingenza presa in esame e precisamente viene determinato il numero totale di coppie concordanti
(una delle 2 osservazioni maggiore allaltra in entrambe le variabili); e il numero totale delle
coppie discordanti (quando una delle due superiore allaltra in una variabile ma inferiore allaltra
nella seconda variabile). Nel nostro caso non si pu utilizzare la misurazione con gamma in quanto
non abbiamo una distribuzione su scala ordinale.
Per i nostri dati possiamo per applicare la misura di associazione ODDS:
Lodds definisce il rapporto tra la frequenza di appartenenza ad una categoria e la frequenza di non
appartenenza alla stessa categoria. Lodds si differenzia dalla probabilit che invece definisce il
rapporto tra la frequenza di appartenenza ad una categoria e la frequenza di appartenenza a tutte le
categorie.




28
Odds e probabilit sono cos collegate:

Lodds condizionato corrisponde al rapporto tra la probabilit di appartenere alla categoria di una
determinata variabile e le probabilit di appartenere alle rimanenti categorie della stessa variabile.
Ponendo a confronto due odds condizionati ottengo lodds-ratio. Se due variabili non sono correlate
i loro odds condizionati sono identici quindi Odds-ratio =1
In una matrice due per due lodds-ratio equivale al rapporto tra i prodotti incrociati.
In una matrice maggiore di due per due si possono calcolare pi odds-ratio.
Odds-ratio maggiori di 1 indicano lesistenza di una covariazione positiva tra le due variabili,
mentre odds-ratio minori di 1 indicano una covariazione negativa o inversa.

Nel nostro caso:
OR= 30859*5865/15350*23098= 0.51
I tassi di Ivg delle donne giovani italiane sono 0.51 volte maggiori delle donne straniere.

OR=1530*23098/30859*5865= 1.95
I tassi di Ivg delle donne mature italiane sono 1.95 volte maggiori delle donne straniere.


CONCLUSIONI

Lipotesi per la quale c una relazione di dipendenza nelle variazioni dei tassi di Ivg delle donne
italiane e straniere rispetto alla maturit raggiunta verificata in quanto il valore critico del chi-
quadro risulta abbondantemente superato. Il fatto che registriamo un odds quattro volte maggiore
per le donne italiane mature rispetto alle giovani significa che le donne italiane rispetto alle
straniere decidano di interrompere uneventuale gravidanza anche con una maturit maggiore;
questo potrebbe dipendere dal fatto che le donne italiane si sposano pi tardi, che ambiscano molto
pi ad una florida carriera rispetto alle straniere e che forse richiedano maggiore sicurezza per
adempiere al ruolo di madre.