Dispensa Di Statistica Per La Ricerca 2013 2014

Statistica per la ricerca
scientifica e tecnologica
Dott. F. Ferretti
COSA LA STATISTICA?
Come in tutta la ricerca scientifica sperimentale, anche nelle scienze
mediche e biologiche indispensabile la conoscenza dei concetti e dei
metodi statistici, sia per i problemi di gestione, sia per quelli di
indagine.
Per pubblicare i risultati di una ricerca, per esempio. tutte le riviste
scientifiche richiedono che la presentazione dei dati e la loro
elaborazione seguano criteri ritenuti validi universalmente.
Contenuto della statistica moderna:

la raccolta, la presentazione e la elaborazione numerica delle
informazioni, per agevolare l'analisi dei dati ed i processi decisionali
COSA LA STATISTICA?
Statistica
insieme di metodi di natura logica e matematica atti a
raccogliere, analizzare ed interpretare dati numerici o
numerabili
Metodologia della ricerca
insieme di tecniche formali per la corretta impostazione ed
esecuzione di una indagine, dalla sua progettazione alla
elaborazione dei dati
Una prima fondamentale distinzione !.
COSA LA STATISTICA?
Statistica
insieme di metodi e norme atti a cogliere,
analizzare ed interpretare dati numerici o
numerabili
Dalla definizione !!
dati
! al problema della misurazione
il dato statistico rappresentato dallassegnazione di numeri a
variabili o pi in generale a concetti.
Esistono diversi modi per rilevare variabili o concetti e anche la
loro misurazione pu presentare diversi gradi di difficolt
TIPI DI DATI E SCALE DI MISURAZIONE
Nellanalisi statistica, occorre porre sempre molta attenzione alle
caratteristiche dei dati. Gi la fase dellesperimento che conduce
alla raccolta delle informazioni un punto fondamentale, poich da
essa dipendono sia i metodi di descrizione, sia i test da applicare.
Quando si compie una rilevazione di dati, che in seguito saranno
elaborati mediante tecniche descrittive, in realt si rilevano i valori o le
modalit con le quali si presentano determinate VARIABILI.

Sesso, et, altezza, colore degli occhi ed altre ancora non sono che
variabili le cui determinazioni possono essere oggetto di una
rilevazione statistica.

Ognuna di queste presenta particolari caratteristiche che permettono di
classificarla in una ben precisa categoria.
QUALITATIVE
!
Nominali
!
Ordinali
(Attributi)
Lattributo rappresenta la
modalit con la quale si
presenta il dato
Come sopra con la
differenza che le modalit
sono organizzate in una
scala logica
Le categorie di variabili
QUANTITATIVE
!
Discrete
!
Continue
(Numeri)
Numeri non necessariamente interi
collocabili in una scala di tipo ordinale, ma
capaci di assumere solo certi valori
puntuali
Numeri che possono assumere tutti gli
infiniti valori allinterno o meno di un
determinato intervallo
Le categorie di variabili
UNA COSA IMPORTANTE !
Come sar pi volte discusso nelle prossime pagine
occorre porre estrema attenzione al reale significato da
attribuire ai valori numerici che vengono utilizzati.

Si possono avere numeri che apparentemente hanno le
stesse caratteristiche, ma che in realt richiedono
elaborazioni diverse ed impongono il ricorso a metodi
differenti per rispondere ai medesimi quesiti di ricerca
La rappresentazione delle variabili
Le misure che vengono effettuate su pi soggetti in relazione
alla stessa variabile sono rappresentate in forma vettoriale.
n numero di soggetti su cui viene effettuata la misurazione (N se
il gruppo coincide con la popolazione oggetto dello studio)
X la variabile misurata
x
i
sono le misurazioni della variabile realizzate sui soggetti con
i=1,..,n
X = (x
1,
x
2, ! ,
x
n
)
La rappresentazione delle variabili
Nellesempio precedente, se (con n=504)!
X = et
Y = sesso
K = pressione sistolica
X = (x
1,
x
2, ! ,
x
504
)=(32, 64, ! , 56)
Y = (y
1,
y
2, ! ,
y
504
)=(maschio, femmina, ! , femmina)
K = (k
1,
k
2, ! ,
k
504
)=(135, 109, ! , 151)
RAPPRESENTARE I DATI: TABELLE E GRAFICI
Un insieme di misure detto serie statistica o serie dei dati
Una sua prima ed elementare elaborazione pu essere una distribuzione
ordinata di tutti i valori, in modo crescente o decrescente, detta
Seriazione.

Il valore minimo e il valore massimo insieme permettono di individuare
immediatamente il campo (od intervallo) di variazione.

Successivamente, la serie pu essere raggruppata in classi, contando
quanti valori od unit statistiche appartengono ad ogni gruppo o
categoria.

Si ottiene una distribuzione di frequenza o di intensit, detta anche
semplicemente distribuzione.
Consideriamo per esempio una variabile ottenuta dal
conteggio del numero di giorni di incubazione del virus
influenzale trascorsi dal momenti dellinoculazione del
virus in una cavia (variabile discreta).
n=45 X = (x
1,
x
2, ! ,
x
45
)=(5, 6, 3, 4, ! , 5, 0, 4, 5)
Il primo passaggio, quasi intuitivo
in una distribuzione discreta,
consiste nel definire le classi:

- sufficiente identificare il valore
minimo (0, nei dati della tabella)
e quello massimo (9),
- contando quante volte compare
ogni modalit di espressione
(cio quanti sono i le cavie con
uguale numero di giorni di
incubazione del virus).
Queste informazioni di norma
sono presentate in una tabella
impostata come la seguente:
!"#$$% '
()%*+%,-#
#$$."+/# ,
! "
# "
$ %
" #$
& %
' '
( &
% "
) !
* #
!"#$%& '(
La distribuzione di frequenza offre una lettura
rapida delle caratteristiche pi importanti della
serie di dati. Nella tabella precedente, la cavia
tipica sviluppa il virus in 3 giorni; se dovessimo
sintetizzare con un solo valore il numero di giorni
che occorrono per sviluppare linfluenza diremmo
3, che rappresenta la tendenza centrale.
Altra caratteristica importante il numero
minimo e il numero massimo, 0 e 9, che insieme
forniscono il campo di variazione, una indicazione
della variabilit o dispersione.
!"#$$% '
()%*+%,-#
#$$."+/# ,
! "
# "
$ %
" #$
& %
' '
( &
% "
) !
* #
!"#$%& '(
La distribuzione del numero di giorni di incubazione tende ad diminuire in
modo simile allontanandosi da 3, seppure mantenga frequenze pi alte
nelle classi con un numero maggiore di giorni: sono indicazioni sulla forma
della distribuzione, che in questo esempio non simmetrica (ma
asimmetrica) rispetto alla tendenza centrale, a causa di un eccesso dei
valori pi alti.
Sulla base della distribuzione di
frequenza possibile ricavare:
- la frequenza relativa della classe,
ottenuta dividendo la frequenza
assoluta per il numero totale;
- la frequenza cumulata, che la
somma di tutte le frequenze
relative delle classi minori con
quella della classe stessa.
Entrambe sono rappresentate da
percentuali.
!"#$$% '
()%*+%,-#
#$$."+/# ,
()%*+%,-#
)%"#/01#
()%*+%,-#
)%"#/01#
2+3+"#/#
! " #$%& #$%&
' " #$%& '"$"&
( % ')$#& (*$+&
" '( (#$%& ))$#&
, % ')$#& %'$'&
) ) ''$'& *($(&
# , *$+& +'$'&
% " #$%& +%$*&
* ! !$!& +%$*&
+ ' ($(& '!!$!&
!"#$%& '( )**+*,
Le frequenze relative sono utili quando si vogliono confrontare due o pi
distribuzioni, che hanno un differente numero complessivo di osservazioni.
La frequenza cumulata offre informazioni importanti quando si intende
stimare il numero totale di osservazioni inferiore (o superiore) ad un valore
prefissato (ad es.: il 71% delle cavie sviluppa il virus in meno di 5 giorni; il 56%
al massimo in 3 giorni).
Consideriamo adesso laltezza di un gruppo di pazienti visitati in un
ambulatorio ortopedico (variabile continua).
n=40 X = (x
1,
x
2, ! ,
x
40
)=(107, 83, 100, ! , 146, 158, 176)
E evidente come non sia conveniente fare una classe per ogni cm., in
analogia a quanto fatto con i dati dellesempio precedente. In questo
caso, il numero di modalit sarebbe nettamente superiore al numero di
osservazioni, anche se il campione avesse un numero di osservazioni
doppio o triplo. Di conseguenza, si impone la necessit di un
raggruppamento in classi, che comprendano pi modalit di
espressione.
Rappresentare graficamente i dati
Le rappresentazioni grafiche servono per evidenziare in modo
semplice, a colpo docchio, le quattro caratteristiche fondamentali
di una distribuzione di frequenza.

Le rappresentazioni grafiche sono numerose e debbono essere
scelte in rapporto al tipo di dati e quindi alla scala utilizzata.
Sir Ronald A. Fisher, 1958
LE MISURE DI TENDENZA CENTRALE
Per i caratteri qualitativi, la tabella e le rappresentazioni grafiche
esauriscono quasi completamente gli aspetti descrittivi, quando
sia possibile leggere con esattezza le frequenze delle varie classi.

Per i caratteri quantitativi, si pone il problema di sintesi oggettive
che possano essere elaborate matematicamente e quindi che siano
numeriche, al fine di un'analisi obiettiva che deve condurre tutti i
ricercatori, con gli stessi dati, alle medesime conclusioni.
Una serie di dati numerici compiutamente
descritta da 3 propriet principali:

1) la tendenza centrale o posizione;
2) la dispersione o variabilit;
3) la forma.
Le misure di tendenza centrale o posizione servono per individuare
il valore intorno al quale i dati sono raggruppati; la tendenza
centrale la misura pi appropriata per sintetizzare l'insieme delle
osservazioni, se una distribuzione di dati dovesse essere descritta
con un solo valore.

la prima indicazione della dimensione del fenomeno. Le misure
proposte sono essenzialmente tre: la media, la moda e la mediana.

La scelta della misura di tendenza centrale di una serie di dati
dipende dalle caratteristiche della distribuzione e dal tipo di scala.
m
ovvero...
m
Media aritmetica
La media aritmetica la misura di tendenza centrale pi
comunemente utilizzata. definita come la somma del valore
di tutte le osservazioni, diviso il numero di unit.
dove ...
m
La media pu essere vista come il baricentro della distribuzione
campionaria, quando ogni singola osservazione rappresentata da
un peso convenzionale, identico per tutte, lungo l'asse che riporta i
valori su una scala di intervalli o di rapporti.
La rappresentazione grafica dei dati e della media, riportata nella
figura seguente, mostra otticamente come la somma della distanza
dalla media dei valori collocati prima sia uguale alla somma della
distanza dei valori collocati dopo.
Media aritmetica
Media aritmetica ponderata
In una distribuzione di frequenza raggruppata in classi, come valore
rappresentativo di ogni classe preso il dato centrale, nellassunzione
che, entro ogni classe, i dati siano distribuiti in modo uniforme. La
media aritmetica di distribuzioni di frequenza raggruppate in classi,
detta media aritmetica ponderata, calcolata pi rapidamente
secondo la seguente formula.
dove ...
m
m
Esempio di calcolo della media aritmetica ponderata
m
Media geometrica
In genere la media aritmetica viene utilizzata quando tra le grandezze
in esame esiste un legame di natura additiva. Esistono altre medie
(appartenenti ancora al gruppo delle medie analitiche) da utilizzare
quando tra le grandezze esistono altri tipi di legami.
La media geometrica (che si indica con m
g
) si applica di fronte a
grandezze in cui vi un comportamento di tipo moltiplicativo. Per il
calcolo della media geometrica, condizione necessaria che le quantit
siano tutte positive. Se alcune fossero negative, si deve ricorrere al
valore assoluto.
ovvero... m
g
m
g
Conviene ricorrere alla media geometrica quando necessario uno
strumento pi sensibile ad una variazione assoluta dei termini bassi
piuttosto che ad una eguale variazione dei termini alti .
Media armonica
La media armonica la stima pi corretta della tendenza centrale, per
distribuzioni di dati in cui devono essere usati gli inversi. E utilizzata
quando i valori di X sono espressi come rapporti di un totale costante
od in misure di tempi di reazione.

La media armonica data da:
La mediana il valore che occupa la posizione centrale in un insieme
ordinato di dati.

E una misura robusta, in quanto poco influenzata dalla presenza di dati
anomali. La sua utilizzazione indispensabile nel caso di scale ordinali o
di ranghi. La sue caratteristiche pi importante sono due:

- calcolata sul numero di osservazioni; si ricorre al suo uso quando si
vuole attenuare l'effetto di valori estremi o comunque prendere in
considerazione solo linformazione fornita dai ranghi;
- in una distribuzione o serie di dati, ogni valore estratto a caso ha la
stessa probabilit di essere inferiore o superiore alla mediana.
Mediana
Mediana
Per calcolare la mediana di un gruppo di dati, occorre prima di tutto
disporre i valori in una fila ordinata in modo crescente oppure
decrescente e contare il numero totale n di dati.
Se n dispari Se n pari
la mediana corrisponde al valore
numerico del dato centrale, quello che
occupa la posizione (n+1)/2
la mediana stimata utilizzando i due
valori centrali che occupano le
posizioni n/2 e n/2+1; con poche
osservazioni, come mediana viene
assunta la media aritmetica di queste
due osservazioni intermedie; con
molte osservazioni raggruppate in
cl assi , si ri corre tal vol ta al l e
proporzioni.
Mediana
Esempio di calcolo della mediana:
La serie di dati gi ordinata in modo crescente. ll numero di
osservazioni pari e i due valori centrali sono 13,1 e 13,9; la
mediana individuata dalla loro media aritmetica e quindi
uguale a 13,5.
Mediana
Per meglio comprendere le differenze tra media aritmetica e mediana,
con la stessa serie di 6 dati (10,1 10,8 13,1 13,9 14,2 14,5 ) in cui:

- la media 12,85 e
- la mediana 13,5
la rappresentazione grafica evidenzia come la media sia il baricentro
della distribuzione e la mediana sia collocata tra i valori pi addensati.
Mediana
Il calcolo della mediana in una
distribuzione di frequenza
leggermente pi complesso.
Se per esempio la variabile
discreta si deve utilizzare la
distribuzione cumulata delle
frequenze e trovare con I criteri
sopra indicati il valore mediano, il
quale indicher la classe a cui
corrisponde la mediana.
Nel caso in cui la distribuzione di
frequenza sia stata fatta su una
variabile in classi necessario
ricorrere a specifiche formule per
il calcolo della Me.
X (giorni di
incubazione)
Y
(Frequenze)
Frequenze
cumulate
1 1 1
2 3 4
3 3 7
4 7 14
5 11 25
6 8 33
7 4 37
8 2 39
9 1 40
Totale 40
Moda
La moda (detta pi raramente anche dato prevalente) il valore pi
frequente di una distribuzione. Essa non influenzata dalla presenza di
nessun valore estremo; tuttavia viene utilizzata solamente a scopi
descrittivi, perch meno stabile e meno oggettiva delle altre misure
di tendenza centrale.

Pu infatti differire nella stessa serie di dati, quando si formano classi
di distribuzione con ampiezza differente. Per individuare la moda
entro una classe di frequenza, non conoscendo come i dati sono
distribuiti, si ricorre all'ipotesi della uniforme ripartizione.

Oltre alle distribuzioni di frequenza che hanno una sola moda e che si
chiamano distribuzioni unimodali, si trovano distribuzioni di frequenza
che presentano due o pi mode; sono denominate distribuzioni
bimodali o plurimodali.
Moda
La moda corrisponde alla determinazione della variabile a cui
associata la maggiore frequenza.
X (giorni di
incubazione)
Y
(Frequenze)
1 1
2 3
3 3
4 7
5 11
6 8
7 4
8 2
9 1
Totale 40
X

= giorni di incubazione della malattia ABC
n

= 40
X = (x
1
,
x
2
, ! ,
x
40
) = (5, 6, ! ,5)
La moda della variabile X 5,
perch a questa determinazione associata
la frequenza pi alta (11)
Moda
Pi problematica e meno precisa la
determinazione del valore modale nel caso
in cui la variabile organizzata in classi. La
moda non corrisponde pi ad una singola
determinazione, ma ad una classe di valori
della variabile.
Il valore modale contenuto nella classe
200-299, ma non se ne conosce il valore
preciso (occorrerebbe applicare una
specifica formula).
La moda un efficace indicatore di
tendenza centrale solo quando si verifica
unelevata concentrazione di frequenze nei
pressi della classe modale (non nel caso
della precedente tabella)
Classi (X)
Frequenze
(Y)
100-199 857
200-299 4311
300-399 4127
400-499 2109
500-599 1864
Totale 13268
LE MISURE DI DISPERSIONE O VARIABILIT
La dispersione o variabilit la seconda importante caratteristica di
una distribuzione di dati. Essa definisce la forma pi o meno raccolta
della distribuzione intorno al valore centrale.
B
A
m
b
m
a
La prima misura ad essere stata storicamente utilizzata per descrivere
la dispersione o variabilit dei dati il campo o intervallo di variazione,
definito come la differenza tra il valore massimo e quello minimo.
NELLESEMPIO DELLA VARIABILE X (giorni di incubazione della malattia ABC)

Minimo = 1, Massimo = 9
Campo di variazione = min max = 9-1 = 8

Tale indicatore, dipendendo solo dal primo e dallultimo termine della
successione di osservazioni, non tiene conto dei termini intermedi e
dunque della loro concentrazione attorno al valore medio.
Il campo di variazione
Tutti gli indici di variabilit sono calcolati sulla distanza tra le singole
osservazioni ed il rispettivo valore medio della variabile.
Il concetto di base nel calcolo degli indici di variabilit
B
A
m
b
m
a
x
a
-m
a
x
b
-m
b
D
i
= x
i
-m
x
Nota bene: la distanza non pu
essere una misura negativa.
Questa concetto trova uno
specifico riscontro allinterno
delle formule
Lo Scostamento Semplice Medio
La formula per lo scostamento semplice medio la somma
delle distanze prese in valore assoluto tra le osservazioni e la
media aritmetica.
Oppure nel caso delle distribuzioni di
frequenza
n
m x
S
n
i
i
m
!
=
"
=
1
!
!
=
=
" #
=
n
i
i
i
n
i
i
m
y
y m x
S
1
1
La Deviazione Standard
La formula molto simile a quella dello S
m
, ma al posto della
norma troviamo un elevamento alla seconda potenza e
lestrazione della radice quadrata per ridimensionare leffetto
dellelevamento a potenza.
frequenza
( )
2
1
2
n
m x
S
n
i
i !
=
"
=
( )
2
1
1
2
!
!
=
=
" #
=
n
i
i
n
i
i i
y
y m x
S
La Varianza
Il quadrato di S genera un ulteriore indicatore di variabilit
che prende il nome di varianza.
frequenza
( )
n
m x
S
n
i
i !
=
"
=
1
2
2
( )
!
!
=
=
" #
=
n
i
i
n
i
i i
y
y m x
S
1
1
2
2
Il calcolo delle misure di variabilit per una serie di dati
! # $%&'())* +* ,- .'%+(&'* /0 '(.' +* /11*..*2&( $(3 0/ 0/%3(/ +* $3*12 0*4(002 *& 5&6(31*(3*.'*7/
8'%+(&'* 9%&'())*2 :!; <=1 :<=1;>? @<=1@
! "#
" $%
$ $&
' !(
% '%
) '!
# '*
& $)
( %!
!* %)
!! $(
!" '*
!$ "%
!' "#
!% %"
A2'/0(
Per prima cosa necessario
calcolare la media.
! # $%&'())* +* ,- .'%+(&'* /0 '(.' +* /11*..*2&( $(3 0/ 0/%3(/ +* $3*12 0*4(002 *& 5&6(31*(3*.'*7/
8'%+(&'* 9%&'())*2 :!; <=1 :<=1;>? @<=1@
! "#
" $%
$ $&
' !(
% '%
) '!
# '*
& $)
( %!
!* %)
!! $(
!" '*
!$ "%
!' "#
!% %"
A2'/0(
+,-./0 $&1*)#
calcolare la media.
Nelle colonne successive al
punteggio si calcolano le
differenze dal valore medio
(semplici, al quadrato e in
valore assoluto).
! # $%&'())* +* ,- .'%+(&'* /0 '(.' +* /11*..*2&( $(3 0/ 0/%3(/ +* $3*12 0*4(002 *& 5&6(31*(3*.'*7/
8'%+(&'* 9%&'())*2 :!; <=1 :<=1;>? @<=1@
! "# $!!%! !""%& !!%!
" '& $'%! (%) '%!
' '* $+%! +%+ +%!
) !( $!(%! ','%& !(%!
& )& ,%( )*%! ,%(
, )! "%( *%, "%(
# )+ !%( '%# !%(
* ', $"%! )%' "%!
( &! !"%( !,#%' !"%(
!+ &, !#%( '"!%, !#%(
!! '( +%( +%( +%(
!" )+ !%( '%# !%(
!' "& $!'%! !#+%# !'%!
!) "# $!!%! !""%& !!%!
!& &" !'%( !()%! !'%(
A2'/0(
-./012 '*%+,#
calcolare la media.
valore assoluto).
I totali delle ultime due
colonne rappresentano i
numeratori delle tre formule
per il calcolo degli indici di
variabilit.
! # $%&'())* +* ,- .'%+(&'* /0 '(.' +* /11*..*2&( $(3 0/ 0/%3(/ +* $3*12 0*4(002 *& 5&6(31*(3*.'*7/
8'%+(&'* 9%&'())*2 :!; <=1 :<=1;>? @<=1@
! "# $!!%! !""%& !!%!
" '& $'%! (%) '%!
' '* $+%! +%+ +%!
) !( $!(%! ','%& !(%!
& )& ,%( )*%! ,%(
, )! "%( *%, "%(
# )+ !%( '%# !%(
* ', $"%! )%' "%!
( &! !"%( !,#%' !"%(
!+ &, !#%( '"!%, !#%(
!! '( +%( +%( +%(
!" )+ !%( '%# !%(
!' "& $!'%! !#+%# !'%!
!) "# $!!%! !""%& !!%!
!& &" !'%( !()%! !'%(
A2'/0( BCB ,-DBCE ,,FCE
-./012 '*%+,#
calcolare la media.
valore assoluto).
I totali delle ultime due
colonne rappresentano i
numeratori delle tre formule
per il calcolo degli indici di
variabilit.
Per n=15 si sostituiscono i
valori nelle formule per
trovare il risultato.
! # $%&'())* +* ,- .'%+(&'* /0 '(.' +* /11*..*2&( $(3 0/ 0/%3(/ +* $3*12 0*4(002 *& 5&6(31*(3*.'*7/
8'%+(&'* 9%&'())*2 :!; <=1 :<=1;>? @<=1@
! "# $!!%! !""%& !!%!
" '& $'%! (%) '%!
' '* $+%! +%+ +%!
) !( $!(%! ','%& !(%!
& )& ,%( )*%! ,%(
, )! "%( *%, "%(
# )+ !%( '%# !%(
* ', $"%! )%' "%!
( &! !"%( !,#%' !"%(
!+ &, !#%( '"!%, !#%(
!! '( +%( +%( +%(
!" )+ !%( '%# !%(
!' "& $!'%! !#+%# !'%!
!) "# $!!%! !""%& !!%!
!& &" !'%( !()%! !'%(
A2'/0( BCB ,-DBCE ,,FCE
-./012 '*%+,#
3456718.975 3.8;<04. -./052 #%("(
=.>01?059. 3719/1@/2 !+%!',
A1@019?12 !+"%#"(
Il coefficiente di variazione
Si ricorre a questo indice quando necessario confrontare la variabilit
di due grandezze che differiscono non solo per lordine di grandezza ma
anche lunit di misura delle rispettive metriche.

un indice di variabilit relativa poich ottenuto rapportando un indice
assoluto (la deviazione standard) con la consistenza media del
fenomeno.

Il risultato un numero adimensionale che permette paragoni tra
distribuzioni con caratteristiche differenti.
m
S
CV =
Il coefficiente di variazione: un esempio
In un ambulatorio di diabetologia viene rilevato il peso di due gruppi di
soggetti: il primo di numerosit n
1
=5 composto da ragazzi con et
inferiore a 10 anni ed il secondo di numerosit n
2
=8 composto da
anziani con et superiore a 65 anni. I dati sono riportati nella seguente
tabella:
!"##$%%"
&$'" )* +# ,
-./00) 1
2.3#344)5
&$'" )* +# ,
-./00) 6
23*4)3*)5
! "# $#
% %$ #&
" "% '"
( "& &)
# %# #&
' '&
$ '*
& $%
possibile affermare che le due distribuzioni di valori abbiano la stessa
variabilit ?
E possibile dire che i valori di peso nei due gruppi si addensano in modo
simile attorno al valore medio?
!"##$%%"
&$'" )* +# ,
-./00) 1
2.3#344)5
&$'" )* +# ,
-./00) 6
23*4)3*)5
! "# $#
% %$ #&
" "% '"
( "& &)
# %# #&
' '&
$ '*
& $%
Difficile poterlo affermare, i due
gruppi sono misurati su scale di
misura non omogenee e noi
sappiamo quanto il livello di
grandezza del valore della
variabile influisca sul valore
della variabilit.
!"##$%%"
&$'" )* +# ,
-./00) 1
2.3#344)5
&$'" )* +# ,
-./00) 6
23*4)3*)5
! "# $#
% %$ #&
" "% '"
( "& &)
# %# #&
' '&
$ '*
& $%
+,-./ "!0( '$0*
1,23 56/7-/8- #0(!" !)0!"(
Se calcoliamo il valore degli indici di tendenza centrale e di quelli di
variabilit il risultato il seguente:
Nel gruppo degl i anzi ani
sembra esserci una variabilit
doppi a ri spetto a quel l a
riscontrata nel gruppo dei
ragazzi.
Se calcoliamo il valore degli indici di tendenza centrale e di quelli di
variabilit il risultato il seguente:
Nel gruppo degl i anzi ani
sembra esserci una variabilit
doppi a ri spetto a quel l a
riscontrata nel gruppo dei
ragazzi.

Se invece calcoliamo il CV si
pu notare come la variabilit
degli anziani sia addirittura
inferiore a quella dei ragazzi.
!"##$%%"
&$'" )* +# ,
-./00) 1
2.3#344)5
&$'" )* +# ,
-./00) 6
23*4)3*)5
! "# $#
% %$ #&
" "% '"
( "& &)
# %# #&
' '&
$ '*
& $%
+,-./ "!0( '$0*
1,23 56/7-/8- #0(!" !)0!"(
7"$889 :3.)349 ;<1=6 ;<1>?
INDICATORI DELLE CARATTERISTICHE
DISTRIBUTIVE
Insieme agli indici di tendenza centrale e agli indicatori di variabilit,
possibile utilizzare alcuni indicatori per completare la conoscenza
delle caratteristiche distributive di una variabile.

Si tratta di:
!
i percentili,
!
lindice di asimmetria,
!
lindice di curtosi.
Mentre nel primo caso si pu parlare di un indicatore di posizione, nel
secondo e nel terzo caso gli indicatori forniscono informazioni sulla
morfologia delle distribuzioni.
DISTRIBUTIVE
Hanno la funzione di dividere la distribuzione in parti ugualmente
numerose, cos come la mediana divideva in due sezioni esattamente
uguali la distribuzione.
I percentili
Si classificano in:
!
quartili (Q),
!
decili (D),
!
centili (C).
Per esempio, i quartili dividono la distribuzione dei casi (posta in un
ordinamento non decrescente) in 4 parti ugualmente numerose, i
decili in 10 parti ugualmente numerose, i centili in 100 parti
ugualmente numerose.
I quartili sono 3
I decili sono 9
I centili sono 99
DISTRIBUTIVE
I percentili
Q
1
: quel valore della distribuzione al di sotto del quale
si trovano 1/4 dei termini considerati e al di sopra
del quale si trovano i rimanenti 3/4.
Q
2
Q
3
UNA IMPORTANTE CARATTERISTICA
Il terzo quartile, il quinto decile ed il cinquantesimo centile coincidono
esattamente con la mediana della distribuzione.
Q
2
= D
5
= C
50
= M
e
DISTRIBUTIVE
Indice di asimmetria
Una qualsiasi curva si dice simmetrica se innalzato verticalmente un
asse in corrispondenza del valore medio, la distribuzione risulta divisa
in due parti specularmente identiche. In una curva perfettamente
simmetrica !

M
o
= M
e
= m

Invece, la curva asimmetrica positiva se ..

M
o
< M
e
< m

o la curva asimmetrica negativa se ..

M
o
> M
e
> m
DISTRIBUTIVE
Indice di asimmetria
Per calcolare lindice di asimmetria si
utilizzano i quartili. La formula:
( ) ( )
( ) ( )
1 2 2 3
1 2 2 3
Q Q Q Q
Q Q Q Q
A
! + !
! ! !
=
m=M
o
=M
e
m
M
e

M
o

m
M
e

M
o

DISTRIBUZIONE SIMMETRICA: A=0
DISTRIBUZIONE ASIMMETRICA NEGATIVA: A<0
DISTRIBUZIONE ASIMMETRICA POSITIVA: A>0
DISTRIBUTIVE
Indice di curtosi
La curtosi descrive le caratteristiche morfologiche in termini
di lunghezza delle code della distribuzione e della larghezza
della parte sommitale.

La formula:
4
4
4
S
m
a =
dove:
( )
n
m x
m
n
i
i !
=
"
=
1
4
4
il quarto
momento centrale
4
S
lelevamento alla quarta potenza della
Deviazione Standard
DISTRIBUTIVE
Indice di curtosi
Lindice a
4
sensibile allaltezza ed alla lunghezza delle code della
distribuzione ed in misura inferiore alla gibbosit della curva intorno al
suo massimo.
Se le code sono lunghe ed il vertice della distribuzione piuttosto
appuntito lindice di curtosi elevato; viceversa se le code sono corte e
la sommit piatta lindice risulta basso.
a
4
< 3
a
4
= 3
a
4
> 3
a
4
> 3 la curva leptocurtica
a
4
= 3 la curva mesocurtica (normale)
a
4
< 3 la curva platicurtica
CENNI SULLE DISTRIBUZIONI BIVARIATE
Finora abbiamo parlato di distribuzioni di frequenza facendo
riferimento alle determinazioni di una sola variabile.

In realt si possono realizzare distribuzioni di frequenza facendo
riferimento alle determinazioni combinate di due grandezze.

Tali strumenti vanno sotto il nome di:

TAVOLE DI CONTINGENZA

Si tratta di tavole a doppia entrata dove in riga ed in colonna si trovano
le determinazioni assunte dalle variabili, mentre allinterno della tavola
si distribuiscono le frequenze corrispondenti alle varie combinazioni
assunte dalle determinazioni delle variabili.
Allinterno delle celle della tavola di contingenza si possono
trovare i valori di:
!
Frequenze assolute
!
Percentuali di riga
!
Percentuali di colonna
!
Percentuali riferite al totale
A seconda del numero di righe e colonne la tavole di contingenza
possono essere 2x2, 2x3, 3x3, ecc..
Tavole di contingenza
Tavole di contingenza: un esempio
Y

= sesso
Z

= sigarette fumate al giorno
K

= peso corporeo in classi
Tavola di contingenza
con valori assoluti

Tavola di contingenza con percentuali di riga

Tavola di contingenza Sigarette fumate al giorno * Sesso
12 8 20
60,0% 40,0% 100,0%
5 9 14
35,7% 64,3% 100,0%
3 3 6
50,0% 50,0% 100,0%
20 20 40
50,0% 50,0% 100,0%
Conteggio
% entro Sigarette fumate
al giorno
Conteggio
al giorno
Conteggio
al giorno
Conteggio
al giorno
1-10
11-20
Oltre 20
Sigarette
fumate al
giorno
Totale
Maschio Femmina
Sesso
Totale
Tavola di contingenza con percentuali di colonna

Tavola di contingenza Peso corporeo in classi * Sesso
6 4 10
30,0% 20,0% 25,0%
9 8 17
45,0% 40,0% 42,5%
4 5 9
20,0% 25,0% 22,5%
1 3 4
5,0% 15,0% 10,0%
20 20 40
100,0% 100,0% 100,0%
Conteggio
% entro Sesso
Conteggio
% entro Sesso
Conteggio
% entro Sesso
Conteggio
% entro Sesso
Conteggio
% entro Sesso
Meno di 60 Kg
61-80 Kg
81-100 Kg
Pi di 100 Kg
Peso
corporeo
in classi
Totale
Maschio Femmina
Sesso
Totale
Tavola di contingenza con percentuali riferite al totale

Tavola di contingenza Sigarette fumate al giorno * Sesso
12 8 20
30,0% 20,0% 50,0%
5 9 14
12,5% 22,5% 35,0%
3 3 6
7,5% 7,5% 15,0%
20 20 40
50,0% 50,0% 100,0%
Conteggio
% del totale
Conteggio
% del totale
Conteggio
% del totale
Conteggio
% del totale
1-10
11-20
Oltre 20
Sigarette
fumate al
giorno
Totale
Maschio Femmina
Sesso
Totale
La misura delle variabili in campioni e popolazioni
Supponiamo di poter osservare unintera popolazione di individui e
non solo un campione, anche se rappresentativo, di questi.
E PER FARLO IMMAGINIAMO DI FARCI UN VIAGGIO NELLO SPAZIO !
MARTE VENERE
Su MARTE misuro
laltezza dei 200
marziani presenti
Su VENERE misuro
laltezza dei 150
venusiani presenti
Universit degli studi di Siena
Statistica per la ricerca sperimentale e tecnologica
30 35 40 45 50
Statura (cm)
10 15 20
Statura (cm)
I risultati delle nostre esplorazioni ci riportano i seguenti dati:
Marziani
N=200
Venusiani
N=150
N la numerosit
della popolazione; LA
SIMBOLOGIA
IMPORTANTE !!
Le DISTRIBUZIONI
delle stature
30 35 40 45 50
Statura (cm)
10 15 20
Statura (cm)
Marziani N=200
Venusiani N=150
La maggior parte dei marziani alta tra 35 cm e 40
cm.
Solo pochi (6 su 200, il 3%) sono alti meno di 30
cm o pi di 50 cm.
Quasi tutti i venusiani sono alti tra 10 cm e 20 cm.
Sono pochi (6 su 150, il 4%) ad essere alti meno di
10 cm o pi di 20 cm.
COSA SI PU OSSERVARE
30 35 40 45 50
Statura (cm)
10 15 20
Statura (cm)
Differenze
La maggior parte dei marziani si addensa intorno
al valore di 40 cm, mentre la maggior parte dei
venusiani attorno al valore di 15 cm [valore
centrale].
Il 97% dei marziani ha una statura compresa tra 30
e 50 cm (intervallo di 20 cm), il 96% dei venusiani
tra 10 e 20 cm (intervallo di 10 cm) [variabilit].
Analogie
Nonostante le diverse numerosit, in entrambi i
casi gli extraterrestri hanno una uguale
probabilit di trovarsi al di sotto o al di sopra del
valore centrale della distribuzione che di forma
campanulare [forma della distribuzione].
COSA SI PU OSSERVARE
Sintetizzare le misure: la tendenza centrale (media)
N
X
!
=
In una popolazione
la media definita come la somma di tutte le osservazioni effettuate sulla
popolazione divisa per il numero degli elementi nella popolazione.
Le determinazioni della
variabile X nella
popolazione (se variabile
discreta)
La numerosit degli
elementi nella popolazione
Simbolo greco con cui si
indica la media di una
variabile nella popolazione
Sintetizzare le misure: la variabilit (varianza)
Generalmente la variabilit si ottiene dalla media dei quadrati
degli scostamenti delle osservazioni dalla loro media
( )
N
X
2
2
!
"
= #
Varianza
2
! = !
Deviazione
Standard
NOTA BENE: pi elevato il valore
di questi parametri e maggiore la
dispersione dei dati intorno alla
media, anche se il loro valore
fortemente influenzato dalla
metrica.
E ALLA FINE DELLA NOSTRA ESPLORAZIONE ABBIAMO RILEVATO CHE

MARTE VENERE
N=150
= 15 cm
! = 2,5 cm
N=200
= 40 cm
! = 5,0 cm
C " U
Il campione sempre un
sottoinsieme della popolazione
Popolazione
(U)
Campione
(C)
Se misuro una variabile X nel campione e nella popolazione
i simboli che uso sono i seguenti
Popolazione Campione

Numerosit dei casi N
Media
Deviazione S. !

Numerosit dei casi n
Media m
Deviazione S. S
Per popolazione intendiamo il gruppo complessivo di individui che
possiedono l'attributo esaminato dalla ricerca.
devo studiare in modo opportuno una popolazione attraverso un
gruppo ristretto di oggetti, affinch le stime provenienti da quest'ultimo
possano essere estese, con un determinato margine di errore, alla
popolazione di riferimento.
In molti casi, per, risulta impossibile
studiare il fenomeno nell'intera
popolazione per tutta una vasta
serie di motivi
Tecniche campionarie
Popolazione
(U)
Campione
(C)
Lutilizzo di un campione consiste
nell'esaminare un numero n di soggetti
selezionati tra gli N individui
appartenenti alla popolazione.
Gli n elementi estratti rappresentano quello che comunemente chiamiamo
campione casuale della popolazione oggetto di studio
IMPORTANTE CHE IL CAMPIONE SIA PROBABILISTICO (ovvero,
scelto con tecniche probabilistiche)
La correttezza e la precisione delle stime sono influenzate in maniera
determinante anche dal criterio di campionamento che viene utilizzato.
CASUALE SEMPLICE
CASUALE SEMPLICE NON RIPETITIVO
SISTEMATICO
STRATIFICATO
GRAPPOLO
La probabilit
1. la prova, o esperimento;
2. l'evento, o risultato;
3. la probabilit.
Tutta la teoria probabilistica
poggia su tre concetti
elementari:
La prova genera l'evento con una certa probabilit
Il classico esempio: la moneta
1. Prova = lancio della moneta;
2. Evento = luscita della faccia testa;
3. Probabilit = la probabilit associata
La PROBABILIT rappresentata da un numero, il quale esprime il livello di fiducia
che vogliamo assegnare alla realizzazione di un risultato, ovvero al verificarsi di un
evento nel contesto di una prova
La probabilit
Sempre considerando l'esempio della moneta, supponiamo di
effettuare N lanci nelle medesime condizioni e supponiamo che
durante queste prove l'evento "testa" si sia presentato un numero n di
volte. Sotto queste condizioni ovvio che:
0 n N ! !
La quantit di eventi favorevoli (testa) viene anche detta frequenza
assoluta. Se dividiamo la precedente disuguaglianza per il numero
complessivo di prove effettuate otteniamo la cosiddetta frequenza
relativa dell'evento considerato, cio:
1
N
n
0 ! !
La probabilit
( )
N
n
lim E Pr
N ! "
=
Nellimpostazione frequentista delle teorie probabilistiche il riprodursi
di un evento ripetibile un numero di volte molto elevato, porta la
frequenza relativa verso una stabilit che cresce con il numero delle
prove, fino ad arrivare ad un valore costante. Questa una definizione
abbastanza approssimativa di probabilit che pu anche essere
riformulata nel seguente modo:
E l'evento favorevole che attendiamo dall'esperimento, N il numero
complessivo di volte in cui viene ripetuta tale prova, n il numero di
volte in cui si verifica E ed infine n/N la frequenza relativa dell'evento
E.
( ) 1 E Pr 0 ! !
L'insieme degli eventi possibili in un esperimento indicato con il
termine spazio degli eventi. In questo spazio ogni elemento viene
messo in corrispondenza biunivoca con tutti o possibili esiti
dell'esperimento stesso. Nel caso del lancio di due monete lo
spazio degli eventi risulta essere il seguente, dove T indica l'evento
"testa" e C l'evento "croce":

(T , T) (T , C)
(C , T) (C , C)

Come possibile osservare, questi elementi rappresentano tutti i
possibili risultati dell'esperimento consistente nel lancio di due
monete.
Le variabili casuali
Si definisce VARIABILE CASUALE DISCRETA una
grandezza che assume i valori x
1
, x
2
, .... , x
n
a cui
vengono associate le rispettive probabilit p
1
, p
2
, .... ,
p
n
. La somma di queste probabilit deve essere pari ad
1, ovvero:
p 1
i
i 1
n
=
=
!
Una variabile casuale rappresentata da un insieme di coppie di
valori del tipo:

(x
1
, p
1
); (x
2
, p
2
); (x
3
, p
3
); ... (x
n
, p
n
)

dove il primo valore indica la determinazione della grandezza X,
mentre il secondo la probabilit che viene associata al verificarsi
dell'evento.
UN ESEMPIO
La variabile X, che descrive
l'esperimento, esprime il numero
di "croci" che possono apparire in
tre lanci di una moneta.

Tale numero non noto a priori,
ma possiamo con certezza
affermare che i possibili risultati
dell'esperimento variano in uno
spazio discreto compreso tra 0 e
3.

In questo spazio si trovano le
determinazioni x
i
della variabile
X.

Per individuare le probabilit
associate ad ogni singolo evento
opportuno costruire lo spazio
campionario originario illustrato
nella seguente tavola.
Probabilit Eventi
(1/2)*(1/2)*(1/2)=1/8 C,C,C
(1/2)*(1/2)*(1/2)=1/8 C,C,T
(1/2)*(1/2)*(1/2)=1/8 C,T,C
(1/2)*(1/2)*(1/2)=1/8 T,C,C
(1/2)*(1/2)*(1/2)=1/8 C,T,T
(1/2)*(1/2)*(1/2)=1/8 T,C,T
(1/2)*(1/2)*(1/2)=1/8 T,T,C
(1/2)*(1/2)*(1/2)=1/8 T,T,T
Spazio campionario originario Spazio campionario ridotto
Probabilit Eventi X P
(1/2)*(1/2)*(1/2)=1/8 C,C,C 3 (1/8)=0,125
(1/2)*(1/2)*(1/2)=1/8 C,C,T 2 (3/8)=0,375
(1/2)*(1/2)*(1/2)=1/8 C,T,C
(1/2)*(1/2)*(1/2)=1/8 T,C,C
(1/2)*(1/2)*(1/2)=1/8 C,T,T 1 (3/8)=0,375
(1/2)*(1/2)*(1/2)=1/8 T,C,T
(1/2)*(1/2)*(1/2)=1/8 T,T,C
(1/2)*(1/2)*(1/2)=1/8 T,T,T 0 (1/8)=0,125
Totale 1
da cui si ricava lo spazio campionario ridotto, nel quale sono contenuti i
valori assunti dalla variabile e le probabilit ad essi associate.
La distribuzione di variabili casuali
Le determinazioni di una variabile casuale discreta generano una
funzione di massa, che graficamente rappresentata da un diagramma
a bastoni, in cui la somma delle asticelle che vengono innalzate in
corrispondenza delle determinazioni della variabile deve essere pari
ad uno.
Parliamo di funzione, al posto del simbolo p
i
possiamo sostituire
quello di f(x
i
), in quanto valore associato alla variabile X
f(x)
1/8
2/8
3/8
0 1 2 3 X
( ) 1
8
8
8
1
8
3
8
3
8
1
x f
4
1 i
i
= = + + + =
!
=
Nellesempio precedente
Se ampliamo il concetto alle variabili casuali continue allora dovremo
definire la forma distributiva di queste variabili come funzione di densit.
Immaginiamo che, a determinati intervalli di una variabile casuale
continua, venga associata una certa probabilit di realizzazione dei valori in
essi contenuti.
x
1
x
2 X
Siccome ogni rettangolo contiene un
certo numero di frequenze n
i
, la
probabilit che una determinazione
della variabile X sia contenuta
nell'intervallo (x
1
, x
2
) data da:
( )
N
n
x X x Pr
i
2 1
= < <
Se scegliamo di stringere l'intervallo (x
1
, x2) fino a dimensioni molto
piccole, allora vedremmo ridurre l'ampiezza dei rettangoli dell'istogramma
fino a divenire un continuo che descrive una vera e propria funzione di
densit.
x
1
x
2
In questa funzione la
probabilit che un valore della
variabile X sia contenuto in un
intervallo (x
1
, x
2
) data
dall'area racchiusa dalla curva
in quell'intorno, ovvero
dall'integrale della forma
funzionale calcolato
nell'intervallo x
1
,x
2
.
La distribuzione normale
La classica rappresentazione di una variabile casuale X quella in cui la
distribuzione assume una curva dal caratteristico andamento
campanulare.
Nella teoria statistica
questa classe di funzioni
prende il nome di

distribuzione normale
(GAUSSIANA)
La distribuzione normale
( )
!
!
"
#
$
$
%
&
'
(
)
*
+
,
-
.
.
/ -
=
2
X
2
1
exp
2
1
X f
La distribuzione normale governata
dalla seguente funzione:
Tale distribuzione completamente governata dalla media della
popolazione () e dalla sua deviazione standard (!).
X
N(, !)
In sintesi si pu scrivere
SU MARTE
( )
!
!
"
#
$
$
%
&
'
(
)
*
+
,
-
-
.
=
2
5
40 X
2
1
exp
2 5
1
X f
La funzione normale che descrive la
distribuzione dellaltezza degli abitanti di
Marte:
N=200
= 40 cm
! = 5,0 cm
Per esempio, se volessimo sapere con quale probabilit possiamo trovare
su Marte un soggetto alto 33 cm la soluzione sarebbe .
( ) 074883 , 0
5
40 33
2
1
exp
2 5
1
X f
2
=
!
!
"
#
$
$
%
&
'
(
)
*
+
,
-
-
.
=
Le determinazioni delle variabili e i valori di probabilit
associati
Finora abbiamo calcolato la
probabilit associata al verificarsi di
una determinazione della variabile
X in modo puntuale.
In realt pu essere molto pi utile
calcolare la probabilit associata ad
un intervallo di valori di X, ovvero:
[Pr(x
1
<X<x
2
)]
la probabilit che X assuma valori
compresi in un intervallo (x
1
, x
2
)
[Pr(x
1
<X)]
la probabilit che X assuma valori
inferiori a x
1

[Pr(x
1
<X<x
2
)]
la probabilit che X
assuma valori compresi in
un intervallo (x
1
, x
2
)
se x
1
=0 e x
2
=1
[Pr(0<X<1)]
x
1
x
2
Le determinazioni delle variabili e i valori di probabilit
associati
Dalla normale alla normale standardizzata
x
1
x
2
Come abbiamo detto, per
calcolare la probabilit associata
allintervallo (x
1
, x
2
) necessario
utilizzare strumenti matematici
quali gli integrali, visto che la
funzione che governa la normale
una funzione continua.
Se non si vogliono utilizzare i
suddetti strumenti si deve
ricorrere alla cosiddetta ..
STANDARDIZZAZIONE !!
La distribuzione normale standardizzata
Questo procedimento una trasformazione di variabile che,
lasciando immutata la forma distributiva, ne trasla il valore centrale
sullo zero e fissa la varianza su un valore unitario. La trasformazione
avviene secondo la seguente formula:
Z
X
=
!
"
Z la variabile casuale normale
standardizzata
Z ha ancora una distribuzione normale ma con media uguale a
0 e deviazione standard uguale a 1.
Z N(0, 1)
0 -1 -2 +1 +2
=0
!=1
Normale
Normale standardizzata
La probabilit associata alle determinazioni della variabile Z
possono essere determinate mediante opportune tavole
" la curva simmetrica,
" complessivamente larea
sottostante alla campana
unitaria.
Visto che .
Normale standardizzata
Nelle tavole sono riportati solo i
valori relativi ad una met della
distribuzione.
0 -1 -2 -1 -2
=0
!=1
La tavole della normale standardizzata
Se la determinazione
della Z fosse 1,65

Z= 1,65
Allinterno della
tavola trovo la
probabilit che la
variabile Z assuma
valori inferiori a
questo.
0,9505.
La tavole della normale standardizzata
Supponiamo che
In una popolazione P di numerosit N sia stata misurata la variabile X
e che
X
N(, !)
Dalla popolazione P si estrae un campione C1 di numerosit n e su
questo si calcolano
m media campionaria
S Deviazione Standard
COSA SUCCEDEREBBE A TALI PARAMETRI SE DALLA STESSA
POPOLAZIONE POTESSI ESTRARRE UN SECONDO CAMPIONE
C2 DELLA STESSA NUMEROSIT DEL PRIMO, E POI UN TERZO
CAMPIONE C3 E COS VIA
La distribuzione dei parametri campionari
Da una popolazione di N elementi
possibile selezionare un numero
molto elevato di campioni, ognuno
con i propri parametri
caratteristici.
Popolazione
(U)
Numerosit N
Media
D. S. !
Campione (C1)
Campione (C3)
Campione (C2)
m
1
# m
2
# m
3
#
S
1
# S
2
# S
3
# !
Consideriamo la solita popolazione di N=10.000 individui.

Come abbiamo detto, da questa possibile estrarre numerosissimi
campioni ognuno di numerosit n, ma con media campionaria e
deviazione standard differenti.

Supponiamo di estrarne solo 8 di numerosit n=1.000, in cui i valori
di media e deviazione standard calcolati per una ipotetica variabile
casuale X sono i seguenti:
Campioni
C1 C2 C3 C4 C5 C6 C7 C8 Popolazione
Media 9,2 11 10 8,7 11 10 9,5 9,8 10
Deviazione Stan. 4,3 4,5 2,7 5,3 4,9 2,9 3,1 2,7 3,8
Campioni
Media 9,2 11 10 8,7 11 10 9,5 9,8 10
Deviazione Stan. 4,3 4,5 2,7 5,3 4,9 2,9 3,1 2,7 3,8
Queste medie campionarie possono essere considerate le
determinazioni di una nuova variabile e questi sono 8 dei possibili
valori che questa pu assumere (gli altri sono dati dal resto dei
campioni che non sono stati estratti ma che sarebbe possibile estrarre
dalla popolazione)
Questa nuova variabile indica la
distribuzione delle medie campionarie la
cui simbologia
X
Campioni
Media 9,2 11 10 8,7 11 10 9,5 9,8 10
Deviazione Stan. 4,3 4,5 2,7 5,3 4,9 2,9 3,1 2,7 3,8
La distribuzione delle medie campionarie
X
N(, !)
UNA IMPORTANTE CONSIDERAZIONE
Se la variabile X si
distribuisce
allora la variabile X si
distribuisce
X
N(, !/$n)
Nellesempio la distribuzione delle medie campionarie ha una media
molto vicina alla media della popolazione .. Ma i campioni sono solo
8 !!!
Media delle
medie dei
campioni=9,95
La variabile X ha dunque la stessa distribuzione normale della variabile
originaria X, sullasse orizzontale si trovano tutte le possibili medie dei
campioni che possibile estrarre dalla popolazione, sullasse verticale
si trovano le probabilit che questi hanno di verificarsi; la media della
distribuzione equivale alla media della popolazione .

X m
j
m
k
f(X)
La distribuzione delle medie campionarie
Abbiamo visto come ogni volta che estraggo un campione i parametri
caratteristici che questo esprime (media e deviazione standard) possono
essere in varia misura diversi dal corrispondente valore reale nella
popolazione.
Se io potessi estrarre tutti i possibili
campioni da una popolazione, potrei
anche osservare che le diverse
determinazioni delle medie
campionarie assumerebbero la
seguente distribuzione

una caratteristica forma
campanulare con una sua specifica
variabilit !!!
Distribuzioni di variabili casuali e stime
Distribuzioni di variabili casuali e stime
X
N(, !)
UNA IMPORTANTE CONSIDERAZIONE
allora la variabile X si
distribuisce
X
N(, !/$n)
Se la variabile X si
distribuisce

X m
j
m
k
f(X)
Sono stime campionarie
della media della
popolazione
STIAMO FACENDO
INFERENZA STATISTICA!!!
Inferenza statistica
Linferenza statistica quel
processo di
generalizzazione dei
parametri campionari ai
corrispondenti parametri
della popolazione

ovvero stimare
attraverso un dato
campionario il valore che
tale parametro assume
nella popolazione da cui il
campione stato tratto.
Inferenza statistica
Le sue tecniche possono essere utilizzate
solo se il campione di tipo
probabilistico !

Se il campione non probabilistico
Il problema della stima
B X
B
X
A
X
A
N(
A
, !
A
)
X
A
e X
B
sono due variabili casuale distribuite normalmente provenienti
da diverse popolazioni
X
B
N(
B
, !
B
)
I grafici sottostanti rappresentano le rispettive distribuzioni delle medie
campionarie
X
A
N(
A
, $!
A
/n
A
) X
B
N(
B
, $ !
B
/n
B
)
B
X
B
X
A
Se per le variabili X
A
e X
B
si estraggono due campione
di uguale numerosit n
A
e n
B
,

in quale dei due casi la stima che si potr
ottenere dai campioni estratti pi precisa?
B
X
B
X
A
La distribuzione delle medie campionarie della variabile
X
B
fornir delle stime pi precise, in quanto c una
maggiore probabilit di ottenere medie campionarie pi
vicine alla media della popolazione
Questa variabilit altro non esprime che la precisione delle stime
provenienti dai campioni. Come detto, tale precisione migliora in
funzione della tecnica di campionamento utilizzata.

CASUALE SEMPLICE O NON
RIPETITIVO
SISTEMATICO
STRATIFICATO
Diminuisce la variabilit delle stime e
quindi migliora la precisione delle
stime
Organizzazione del disegno sperimentale
Dimostrare lesistenza di una differenza
statisticamente significativa, di per s non
la prova che esista una relazione causale
unica
Per esempio, se vogliamo dimostrare che il farmaco A pi efficace del
farmaco B, non solo devo riuscire a dimostrare che la proporzione dei
pazienti migliorati a cui stato somministrato il farmaco A maggiore
della proporzione dei migliorati trattati con il farmaci B, ma devo anche
assicurarmi che i due gruppi non abbiano qualche caratteristica che possa
influire sullesito della sperimentazione.
Organizzazione del disegno sperimentale
Gli strumenti che possono limitare lintroduzione di errori sistematici
o comunque di fattori che possono influenzare lesito
dellesperimento sono
!
selezionare i pazienti con tecniche di campionamento probabilistico
(casuale, sistematico, stratificato, );
!
prevedere la presenza di un gruppo di controllo in cui sono presenti
soggetti che non vengono sottoposti al trattamento;
!
utilizzare dove possibile prove ripetute sullo stesso gruppo di soggetti,
confrontando la situazione prima e dopo il trattamento.
I disegni sperimentali di ricerca
I disegni sperimentali consentono il livello pi alto di interpretabilit; si
caratterizzano per il completo controllo che lo sperimentatore esercita
sulla variabile della quale si suppone il ruolo causale e per la selezione
casuale dei soggetti che costituiscono sia il gruppo sperimentale che
quello di controllo.

Nella prossima diapositiva sono illustrati tre diversi disegni
sperimentali:

1. il disegno di Solomon,
2. il disegno pre e post-test con gruppo di controllo,
3. il disegno gruppo di controllo con solo post-test
I disegni sperimentali di ricerca
Solomon

G
a
R

O
1a

X

O
2a

G
b
R

O
1b

O
2b

G
c
R

X

O
2c

G
d
R

O
2d

Pre e post test con gruppo di controllo

G
a
R

O
1a

X

O
2a

G
b
R

O
1b

O
2b

Solo post test con gruppo di controllo

G
c
R

X

O
2c

G
d
R

O
2d

La lettera G indica il Gruppo, la presenza della X indica il trattamento, la R
indica lattribuzione casuale dei soggetti ai diversi gruppi, con la lettera O si
indicano le Osservazioni effettuate
Idee, obiettivi e quesiti di ricerca
116
# Alla base dl ognl processo dl rlcerca deve essercl un queslLo: ln alLre parole,
l'oblemvo della rlcerca deve essere quello dl dare una rlsposLa espllclLa a un
problema denlLo ln manlera espllclLa.
# L' necessarlo per prlma cosa conoscere bene l'argomenLo che pu essere
oggeuo della rlcerca, approfondlrlo, avere famlllarlLa con l suol varl aspem.
# ualla conoscenza dl un argomenLo dovrebbero scaLurlre le ldee dl rlcerca.
# ualla maLurazlone dlsclpllnaLa delle ldee, derlvera alla ne la formulazlone del
queslLo dl rlcerca.
# k|spondere |n modo ch|aro a| ques|to d|venta a||ora |'ob|emvo de||a r|cerca,
che deve guldare Luuo ll resLo della planlcazlone.
Il processo della ricerca statistica
117
Conoscenza
dell'argomenLo
ldee dl rlcerca
lormulazlone
del queslLo
reclsare e
rlnlre ll queslLo
lormulare le
lpoLesl
lanlcare
la rlcerca
Lsegulre
la rlcerca
Anallzzare
l rlsulLau
uare rlsposLa
al queslLo
Il quesito di ricerca
118
I| pr|mo passo ne||a r|cerca stansnca que||o d|
costru|re un ques|to che s|a !"#$%&'(&), *#)+!,+$,
e a cu| s| possa -'%) /(' %!*#$*&' per mezzo d|
uno stud|o.
119
Le carauerlsuche dl un buon queslLo dl rlcerca sono spesso rlassunLe
nell'acronlmo l-l-n-L-8:
$ lLASl8LL - e fomblle, cloe e posslblle dargll una rlsposLa auraverso uno
sLudlo reale.
$ ln1L8LS1lnC - e lotetessoote, ln alLre parole rlsveglla la vosLra curloslLa e
ll vosLro enLuslasmo.
$ nCvLL - e ooovo, esplora LerrlLorl non conoscluu.
$ L1PlCAL - e euco, cloe non pu arrecare danno al soggem dello sLudlo.
$ 8LLLvAn1 - e tllevoote, cloe la rlsposLa al queslLo cambla qualcosa, non
e banale (provaLe a fare ll LesL dl domandarvl L allora?").
120
Lsemp|o d| ques|to
lo bomblol coo oute, ll ttouomeoto coo ooubloucl
mlqlloto lo ptoqoosl cllolco?
121
Lsemp|o d| ques|to
lo bomblol coo oute, ll ttouomeoto coo ooubloucl
mlqlloto lo ptoqoosl cllolco?
Lo stesso ques|to r|hn|to
lo bomblol souo l 5 oool coo oute meJlo, ll ttouomeoto coo
omoxlclllloo po essete tltotJoto Jl 1-2 qlotol seozo cbe cl
compotu Jl[eteoze oellootcome lo tetmlol Jl petceotooll Jl
tlsolozlooe Jel Jolote e/o Jel pooJto otoscoplco?
122
Un ques|to ben dehn|to .
. conuene l'ldenucazlone della popolazlone dl rlferlmenLo .
123
. descrlve ll dlsegno della rlcerca .
124
. lndlca quall sono le varlablll da prendere ln conslderazlone.
125
k|assumendo, || ques|to m| ha permesso d| |dennhcare .
La popo|az|one d| r|fer|mento (bamblnl souo l 3 annl con ouLe
medla).
I| d|segno de||a r|cerca (due gruppl dl bamblnl, un gruppo al quale
ll LrauamenLo con anublouco vlene eeuuaLo normalmenLe ed un
gruppo al quale ll LrauamenLo vlene rlLardaLo dl 1-2 glornl).
LnLrambl sono valuLau al momenLo della presa ln carlco e al
Lermlne del LrauamenLo.
Le var|ab||| da un||zzare per |o stud|o (per esemplo la scala vAS
per ll dolore).
126
$ opu|anon: l'lnsleme dl coloro che hanno le carauerlsuche per poLer far parLe
dello sLudlo
$ Ind|cator: e un LesL dlagnosuco o un lnLervenLo Lerapeuuco o una condlzlone dl cul
cl lnLeressa valuLare ll rapporLo con l'ouLcome
$ Comparator: e la popolazlone con cul sl confronLa quella oggeuo dello sLudlo (cloe
quella carauerlzzaLa dalla presenza dell'lndlcaLor)
$ Cutcome: e ll parameLro che sl deve mlsurare per valuLarne l'evenLuale relazlone
con l'lndlcaLor
$ 1|me: e ll Lempo, denlLo ln anuclpo, che cl occorrera per compleLare ll nosLro
sLudlo
ICC1 un acron|mo che r|corda g|| oggem fondamenta|| da prendere |n cons|deraz|one
ne| p|an|hcare una r|cerca
127
# opu|anon: bamblnl souo l 3 annl con ouLe medla
# Ind|cator: ll LrauamenLo con anubloucl (amoxlcllllna) rlLardaLo dl 1-2
glornl
# Comparator: gruppo dl bamblnl con meno dl 3 annl con ouLe medla
Lrauau con amoxlcllllna sln dal prlmo glorno
# Cutcome: la varlazlone percenLuale del dolore e la sLessa?
Seguendo |'esemp|o precedente .
Dal quesito alle ipotesi di ricerca
128
Conoscenza
dell'argomenLo
ldee dl rlcerca
lormulazlone
del queslLo
reclsare e
rlnlre ll queslLo
lormulare le
lpoLesl
lanlcare
la rlcerca
Lsegulre
la rlcerca
Anallzzare
l rlsulLau
uare rlsposLa
al queslLo
129
# Supponlamo dl aver lndlvlduaLo un dlsegno della rlcerca che prevede
l'esLrazlone casuale dl un camplone dl bamblnl souo l 3 annl aem da ouLe
medla e l'assegnazlone, ln modo alLreuanLo casuale, a due gruppl, uno che
sara LrauaLo sublLo con l'anublouco (Cruppo A) e l'alLro che sara LrauaLo
con lo sLesso farmaco ma dopo 1-2 glornl (Cruppo 8). er enLrambl l gruppl
saranno eeuuaLe due mlsurazlonl delle varlablll: una al momenLo della
presa ln carlco del bamblno e l'alLra al Lermlne del LrauamenLo.
# vlsLo che la mlsura del dolore e una delle varlablll lndlvlduaLe per lo sLudlo
dal queslLo dl rlcerca, l parameLrl che dovr confronLare una volLa ouenuu
l dau poLrebbero essere l seguenu:
m
A
=medla delle varlazlonl percenLuall della mlsura del dolore nel Cruppo A
m
8
=medla delle varlazlonl percenLuall della mlsura del dolore nel Cruppo 8
Dal quesito alle ipotesi di ricerca
130
uaLe le precedenu condlzlonl sara posslblle souoporre a verlca,
medlanLe apposlu sLrumenu sLausucl, le seguenu lpoLesl:
P
o
: m
A
=m
8

P
a
: m
A
#m
8

un'|potes| nu||a un'|potes| a|ternanva
Le ipotesi di ricerca
llpotesl oollo poello
cbe vleoe souoposto o
vetlfco
klsoltoto Jello vetlfco
pooloto llpotesl oollo
Jovesse essete tlqeuoto
131
P
o
: m
A
=m
8

P
a
: m
A
#m
8

Ipotes| nu||a Ipotes| a|ternanva
5e veto poesto lpotesl ooo
c Jl[eteozo oello
votlozlooe petceotoole Jel
Jolote oel Joe qtoppl.
5e stoto tlqeuoto llpotesl
oollo sot posslblle
cooslJetote llpotesl
oltetoouvo, secooJo lo
poole lo votlozlooe
petceotoole Jel Jolote oel
Joe qtoppl Jl[eteote.
132
P
o
: m
A
=m
8

P
a
: m
A
#m
8

Ipotes| nu||a Ipotes| a|ternanva
er dare una rlsposLa a quale delle due lpoLesl sla vera
non serve la sLausuca descrlmva, ma e necessarlo
rlcorrere alle Lecnlche dl stansnca |nferenz|a|e, ln
parucolare al test per |a ver|hca de||e |potes|.
Gli strumenti dellinferenza statistica
Il processo di generalizzazione si regge su una batteria di strumenti
che sostanzialmente possiamo cos riassumere:
Stimatori puntuali (medie, varianze, )
Stimatori per intervallo (intervalli di confidenza)
Tests di significativit (verifica delle ipotesi)

Attraverso questi strumenti possibile stabilire una corrispondenza
tra i parametri del campione e quelli che caratterizzano la
popolazione.
Gli strumenti dellinferenza statistica
Stimatori puntuali Stimatori puntuali (medie, (medie, varianze varianze, !) , !)
Stimatori per intervallo Stimatori per intervallo (intervalli di confidenza) (intervalli di confidenza)
Tests Tests di significativit di significativit
Stimatori puntuali Stimatori puntuali (medie, (medie, varianze varianze, !) , !)
Stimatori per intervallo Stimatori per intervallo (intervalli di confidenza) (intervalli di confidenza)
Tests Tests di significativit di significativit
Fatta eccezione per gli stimatori puntuali, negli altri casi gli
strumenti dellinferenza statistica non forniscono risultati
deterministici (ovvero fissi e puntuali), ma sempre risultati a cui
viene associata una probabilit di verificarsi!!
Gli strumenti dellinferenza statistica: stimatori puntuali
Metodologie che forniscono un valore preciso da assumere quale
parametro per l'universo. In pratica sono delle regole o metodi per
stimare un parametro della popolazione sulla base dei valori
campionari. Tali stimatori per fornire stime attendibili devono
possedere le seguenti caratteristiche:
a) non distorto se la sua distribuzione campionaria ha media uguale a
quella del parametro da stimare nella popolazione.
b) migliore se ha la varianza minore di altri stimatori;
c) efficiente se possiede entrambe le precedenti propriet.
I PRINCIPALI STIMATORI PUNTUALI
Se la variabile X nella popolazione governata da una
distribuzione normale gli stimatori che potr utilizzare per
stimare i parametri della popolazione attraverso i dati
campionari saranno:
n
x
m
n
1 i
i !
=
=
( )
2
n
1 i
2
i
1 n
m x
S
!
!
=
"
=
MEDIA
DEVIAZIONE
STANDARD
MA QUANTO SONO ATTENDIBILI QUESTE STIME ?
La media e la deviazione standard calcolate da un
campione scelto con procedura casuale sono stime
della media e della deviazione standard dellintera
popolazione dalla quale il campione stato tratto.
Il parametro da tenere sotto controllo :
LERRORE STANDARD DELLA MEDIA
quantifica il grado di certezza con il quale la media, campionaria stima la
vera media della popolazione.
LERRORE STANDARD DELLA MEDIA
Lerrore standard della media dei campioni di numerosit n tratti da
una popolazione avente deviazione standard !
n
x
!
= !
La sua migliore stima
sar
n
S
S
x
=
La deviazione standard e lerrore standard della media misurano
due aspetti decisamente diversi !!
PROBLEMA
Due autori hanno studiato le caratteristiche di 612 articoli pubblicati
dal 1946. Gli articoli sono stati scelti con procedura casuale. Una delle
caratteristiche esaminate era il numero degli autori.
Anno N. articoli
esaminati
N. medio di
autori
D.S.
1946
1956
1966
1976
151
149
157
155
2,0
2,3
2,8
4,9
1,4
1,6
1,2
7,3
Descrivere le popolazioni
relative al numero di tutti
gli autori per ogni anno.
In che misura la
distribuzione normale
rappresenta un buon
modello per ogni anno
dosservazione.
Valutare il grado di incertezza con il quale questi campioni stimano il
reale numero medio di autori in tutti gli articoli pubblicati in giornali
assimilabili a quelli esaminati.
Per ridurre il grado di incertezza della stima preferibile prendere in
considerazione, piuttosto che un singolo valore della media, un
intervallo di valori e vedere se, dato un certo livello di probabilit, il
valore vero del parametro ignoto m contenuto in esso.
Livello di probabilit = 1-&
& rappresenta un numero
compreso tra 0 ed 1 e che
generalmente abbastanza
piccolo
Di solito vengono adottati valori di & pari a 0,10, 0,05 e 0,01 a cui
corrispondono valori di 1-& rispettivamente di 0,90, 0,95 e 0,99
Stimatori per intervallo
lo scopo degli intervalli di confidenza quello di individuare,
sulla base dei valori campionari di media e deviazione
standard, un intervallo all'interno del quale contenuto il
valore vero della popolazione , dato un certo livello di
probabilit 1-&.
X
N(, !)
X
N(, !/$n)
Come abbiamo visto, se.
! " =
#
$
%
&
'
( )
+ < <
)
"
! !
1
n
u X
n
u P Da ci concludiamo che .
! " =
#
$
%
&
'
( )
+ < <
)
"
! !
1
n
u X
n
u P
La determinazione campionaria della media
contenuta in un intorno simmetrico della media della
popolazione, dove u
&
e -u
&
sono i due valori della
distribuzione che isolano, il primo alla propria sinistra
ed il secondo alla sua destra, due aree di probabilit
pari ad &/2.
! " =
#
$
%
&
'
( )
< <
)
! !
1
n
u + X
n
u - X P
Dopo pochi passaggi aritmetici facile arrivare alla formula
degli intervalli di confidenza .
in cui facile verificare che il valore medio
della popolazione contenuto nell'intervallo
costruito sulla base delle determinazioni
campionarie, infatti allinterno della formula
possibile sostituire i valori dati dagli stimatori

n
x
m
n
1 i
i !
=
=
n
S
S
n
X x
= =
!
= !
PER ESEMPIO
" disponete di una variabile X che si distribuisce come una normale
standardizzata,
" avete estratto un campione di numerosit n=16,
" le caratteristiche di questo campione sono media pari a 5 e varianza
pari a 4,
" avete scelto di utilizzare un livello &=0,05.
! " =
#
$
%
&
'
( )
< <
)
! !
1
n
u + X
n
u - X P
Come costruire lintervallo di confidenza ?
Siccome disponiamo di tutti i dati, lunico problema da affrontare
rispondere al quesito
Quanto vale u
&
e come calcolarlo ?
X
P(X)
P(X<
L
)=0,025
P(X>
H
)=0,025
=0,95
P(X)
L

H
Abbiamo gi detto che
questi sono i due valori
della distribuzione
normale che isolano, il
primo alla propria
sinistra ed il secondo alla
sua destra, due aree di
probabilit pari ad a/2.
Occorrono le tavole della
normale standardizzata.
PER ESEMPIO
Se &=0,05 il valore da
cercare nelle tavole
sar

&/2=0,025

ovvero il valore
complementare
allunit.
IL VALORE DI U
&

ASSOCIATO
SAR
U
&
= 1,96

95 , 0
16
2
1,96 5
16
2
1,96 5 Pr =
!
"
#
$
%
&
+ < < '
" n=16,
" m=5
" S=4,
" U
&
=1,96.
Se dunque
Lintervallo di confidenza sar
[ ] 95 , 0 98 , 5 4,02 Pr = < <
Da cui
Il valore vero della media nella popolazione compreso tra 4,02 e 5,98 con
una probabilit del 95%.
PER ESEMPIO
ANCORA SUGLI INTERVALLI DI CONFIDENZA
Cosa succeder allintervallo di confidenza se

Aumenta la numerosit del campione
Aumenta la deviazione standard
Scelgo un valore pi basso di &
lintervallo si stringe
lintervallo si allarga
lintervallo si allarga
I tests di significativit
Un test di significativit una procedura statistica che permette di
valutare la conformit dei risultati ottenuti nei confronti di una
determinata ipotesi.
L'obiettivo di un test di significativit quello
di determinare il grado di accordo tra una
specifica ipotesi, che indicheremo con H, ed un
gruppo di osservazioni.
I tests possono essere di vario genere: tests su un parametro, tests
parametrici, tests non parametrici,

Per capire meglio il funzionamento di un test partiamo dallesempio pi
semplice di un test su un parametro, passando attraverso la definizione
di ipotesi e attraverso la definizione di significativit.
I tests e le ipotesi
" supponiamo di aver estratto un campione da una popolazione di N
individui,
" supponiamo che la variabile X che intendiamo studiare si distribuisce
normalmente nella popolazione con media e deviazione standard !,
" supponiamo di aver calcolato il valore medio m delle osservazioni
campionarie.
Potremmo sottoporre a test il valore medio campionario per sapere
se questo uguale a quello della popolazione formulando
H
o
: m= H
A
: m#
unipotesi nulla unipotesi alternativa
Ipotesi nulla vs ipotesi alternativa
Lipotesi nulla (Ho) solitamente rappresenta la negazione
dellipotesi di lavoro che si vuole verificare e si formula con il
proposito di respingerla.
Quando possibile respingere
H
o
,

accettiamo lipotesi
alternativa (H
A
)
anche se non possiamo
affermare con certezza
che questa sia vera!!
Ricordate??? I dati sperimentali permettono solo di formulare
delle affermazioni probabilistiche relative alle ipotesi.
H
o
: m= H
A
: m#
Ipotesi nulla Ipotesi alternativa
Lipotesi nulla quella che
viene sottoposta a test
Comportamento del test
qualora lipotesi nulla
debba essere rigettata
In sintesi
H
o
: m= la media osservata m non altro che una
determinazione della variabile casuale media
campionaria X, la quale si distribuisce
nuovamente come una normale N(, !/$n).
Nell'ipotesi H
o
, come si pu osservare, si confronta il valore
campionario con quello della popolazione. Per sua natura (essendo un
parametro relativo ad un campione), pu assumere anche valori
molto diversi (distanti) da m.
nostro compito individuare dei limiti oltre i quali la
differenza tra m e eccessivamente elevata.
I tests e le zone di rifiuto
X
P(X)
P(X<
L
)=0,025
P(X>
H
)=0,025
=0,95
P(X)
L

H
Zone di rifiuto
nostro compito individuare dei limiti oltre i quali la differenza tra
m e eccessivamente elevata
I tests e le zone di rifiuto
X
P(X)
P(X<
L
)=0,025
P(X>
H
)=0,025
=0,95
P(X)
L

H
Zone di rifiuto
Quello che rappresentato nel grafico valido per
&=0,05
?
La significativit di un test
In ogni test statistico per verificare lipotesi nulla necessario stabilire
un valore di probabilit (&) che uguale o minore ad un livello
prescelto.
La scelta di un livello di significativit poco severo ci pu aiutare a
rifiutare lipotesi nulla, cos come un livello di significativit troppo
rigoroso pu portare ad una sua accettazione arbitraria.
Livello di probabilit = 1-&
& rappresenta un numero
compreso tra 0 ed 1 e che
generalmente abbastanza
piccolo
Di solito vengono adottati valori di & pari a 0,10, 0,05 e 0,01 a cui
corrispondono valori di 1-& rispettivamente di 0,90, 0,95 e 0,99
1-&
livello di probabilit che abbiamo stabilito affinch la nostra
affermazione possa essere ritenuta corretta
& rischio di sbagliare che sono disposto a correre nella stima
ho il 95% di probabilit di fare un'affermazione corretta
mentre il 5% rappresenta il rischio che sono disposto a correre
nella stima.
se &=0,05 e 1-&=0,95 .
Ma nella pratica cosa significano questi termini?
X
P(X)
P(X<
L
)=0,025
P(X>
H
)=0,025
=0,95
P(X)
L

H
Nel caso precedente
&=0,05
ho il 95% di probabilit di fare un'affermazione corretta
dicendo che m uguale a , mentre sono disposto a tollerare un
errore del 5% ad affermare quanto sopra!
H
o
: m=
H
A
: m#
X
P(X)
P(X<
L
)=0,025
P(X>
H
)=0,025
=0,95
P(X)
L

H
H
sono i limiti inferiori
e superiori della zona di
rifiuto allinterno della
quale viene accettata
lipotesi H
o
.
&=0,05
Se nostro compito individuare dei limiti oltre i quali la differenza
tra m e eccessivamente elevata
X
P(X)
P(X<
L
)=0,025
P(X>
H
)=0,025
=0,95
P(X)
L

H
Se &=0,05
( ) ( ) 05 , 0 X P X P
H L
= > + <
dobbiamo scegliere i due valori
L
e
H
in
modo che
Data la simmetria della
distribuzione avremo che
( ) 025 , 0 X P
L
= <
( ) 025 , 0 X P
H
= >
Per effettuare il test necessario ricorrere alle distribuzione della
variabile Z, ovvero la normale standardizzata, dove Z
L
e Z
L
sono
equivalenti ai limiti
L
e
H
, traslati per nella variabile normale
standardizzata.
Lipotesi nulla
rigettata se
( )
1,96 Z
n m
L
! = <
"
!
( )
1,96 Z
n m
H
= >
!
"
In tal caso si
accetta lipotesi
alternativa
Lipotesi nulla non pu
essere rigettata se
( )
L L
Z
n m
Z <
!
"
<
Se &=0,05 e larea di
ogni zona di rifiuto a
destra o a sinistra della
media m &/2=0,025

il valore da cercare
nelle tavole sar
corrispondente al valore
complementare allunit
rispetto ad &/2.
0,9750
Z
H
=1,96

e per simmetria

Z
L
=-1,96
Il test che abbiamo appena descritto ha la particolarit di
essere a DUE CODE.
Tale caratteristica dipende dall'ipotesi alternativa H
A

H
o
: m=
H
A
: m#
Ipotesi nulla Ipotesi alternativa
In realt si possono
formulare anche altri
tipi di ipotesi
alternative.
H
A
: m>
H
A
: m<
Tests ad una e due code
Tests ad una e due code
X
P(X<
L
)=0,05
P(X) =0,95
P(X)
L
H
A
: m<
H
o
: m=
X
P(X<
L
)=0,025 P(X>
H
)=0,025
P(X) =0,95
P(X)
L

H
H
A
: m!
H
o
: m=
X
P(X>
H
)=0,05
P(X) =0,95
P(X)
H
H
A
: m>
H
o
: m=
In termini grafici
Test a due code
Test a una coda
Le tipologie dei test
I tests si dividono in due categorie:
Tests parametrici

che richiedono quale
condizione fondamentale
che i dati campionari
provengano da una
popolazione in cui la
variabile oggetto dello
studio ha una
distribuzione nota.
Tests non parametrici

Non richiedono che la
distribuzione sia nota,
oppure non necessario
precisare tra le ipotesi la
presenza di una
particolare forma
distributiva.
X
P(X)
P(X<
L
)=0,025
P(X>
H
)=0,025
=0,95
P(X)
L

H
H
o
: m=
H
A
: m#
X

N(, $ !

/n)
X

N(, !)
Questo un test parametrico
poich per applicare il test ho bisogno di affermare la
distribuzione normale della variabile nella popolazione
Qualora non sia nota la distribuzione della variabile nella
popolazione necessario utilizzare un test non parametrico.
Utilizzare un metodo non parametrico quando invece
lecito usare un metodo parametrico pu portare a delle
conclusioni errate !!
I metodi parametrici sono pi potenti e attendibili
quando si conosce la distribuzione cos come quelli non
parametrici sono pi potenti e attendibili quando non
si conosce la distribuzione.
La scelta del test di significativit
I tre principali criteri sulla base dei quali viene scelto un
test sono i seguenti:
!
Il tipo di scala con cui stata misurata la variabile
!
La conoscenza o meno della distribuzione che governa la
variabile nella popolazione
!
Le caratteristiche del disegno di ricerca (campioni
indipendenti, prove ripetute, ecc..)
Alcuni esempi
Se la scala che viene utilizzata a intervalli o a rapporti ed nota la
distribuzione della variabile posso ricorrere a test di tipo parametrico, per
esempio
!
Test del t di student
Se a quanto sopra si aggiungono disegni di indagine pi sofisticati (per
esempio le prove ripetute) si continuano ad utilizzare test di tipo
parametrico, ma di tipo specifico, per esempio
!
Analisi della varianza per prove ripetute
!
Test di Student-Neuman_Keuls per confronti multipli e prove ripetute
Altri esempi
Se la scala che viene utilizzata ordinale e non individuabile la
distribuzione posso ricorrere a test di tipo non parametrico, tra cui
Se la scala che viene utilizzata nominale e non individuabile la
distribuzione posso ancora ricorrere a test di tipo non parametrico, tra
cui
!
Test di Mc Nemar
!
Test Q di Cochrane
!
Test di Kruskal-Wallis
!
Test di Friedman
Una tavola sinottica per i tests
Due gruppi
con soggetti
diversi
Pi di due
gruppi con
soggetti
diversi
Prima e
dopo con gli
stessi
soggetti
Pi tempi
negli
stessi
soggetti
Quantitativa
continua o
discreta
(normale)
T-test di
Student
Anova
T-test per
dati appaiati
Anova per
misure
ripetute
Nominale Chi-quadro Chi-quadro
Test di
McNemar
Test Q di
Cochrane
Ordinale
Test per la
somma dei
ranghi di
Mann-
Whitney
Test di
Kruskal-
Wallis
Test di
Wilcoxon
Test di
Friedman
Tipo di
variabile
Disegno
Esempio di un test bambini con otite
media
172
lo bomblol souo l 5 oool coo oute meJlo, ll ttouomeoto coo omoxlclllloo po
essete tltotJoto Jl 1-2 qlotol seozo cbe cl compotu Jl[eteoze oellootcome lo
tetmlol Jl petceotooll Jl tlsolozlooe Jel Jolote e/o Jel pooJto otoscoplco?
La popo|az|one d| r|fer|mento (bamblnl souo l 3 annl con ouLe medla).
I| d|segno de||a r|cerca (due gruppl dl bamblnl, un gruppo al quale ll LrauamenLo con anublouco
vlene eeuuaLo normalmenLe ed un gruppo al quale ll LrauamenLo vlene rlLardaLo dl 1-2 glornl).
LnLrambl valuLau al momenLo della presa ln carlco e alla ne del LrauamenLo.
Le var|ab||| da un||zzare per |o stud|o (la varlazlone percenLuale della mlsura della vAS).
L'|potes| da souoporre a test: P
o
: m
A
=m
8
P
a
: m
A
#m
8

dove: m
A
m
8
173
media
Supponlamo che la rlcerca sla sLaLa reallzzaLa secondo l crlLerl sopra lndlcau e
supponlamo che al Lermlne dello sLudlo slano sLau raccolu ln LoLale 10 casl (equamenLe
dlvlsl nel due gruppl), le cul osservazlonl sono rlporLaLe nella seguenLe Labella.
10 = valuLazlone del dolore al momenLo della
presa ln carlco del bamblno
11 = valuLazlone del dolore al Lermlne del
LrauamenLo.
174
media
L'|potes| da souoporre a test: P
o
: m
A
=m
8
P
a
: m
A
#m
8

dove: m
A
m
8
uunque, lo sLudlo prevede che non slano
uullzzau l dau osservau dlreuamenLe sul
bamblnl, ma una nuova varlablle cosLrulLa
sulla varlazlone percenLuale della vAS Lra ll
10 ed ll 11, l cul dau sono rlporLau nella
Labella a anco.
175
media
La var|ab||e un||zzata (varl azl one
percenLuale della vAS) e assoclablle alla
caLegorla della quanuLauve conunue,
lpouzzlamo anche che nella popolazlone
ques L a var l abl l e s l a dl s L r l bul L a
normalmenLe.
I| d|segno de||a r|cerca, come abblamo
vlsLo, e rappresenLaLo da due gruppl dl
bamblnl con soggem dlversl.

I| test da un||zzare || t-Student per
camp|on| |nd|pendenn.
176
media
m
1
, m
2
= medie campionarie
S
1
, S
2
= deviazioni standard campionarie
n
1
, n
2
= numerosit campionarie
I| test t-Student per camp|on| |nd|pendenn
Gradi di Libert del test:
t e una varlablle casuale, la sua dlsLrlbuzlone e Leorlca ed e rappresenLauva della
popolazlone, |'area souostante va|e 1 ed espr|me probab|||t.
177
Ne| nostro esemp|o:

I| va|ore de||a &=0,26 |asc|a a||a sua destra un'area
d| probab|||t par| 0,39 ovvero par| a| 39
de||'|ntera area d| probab|||t.
Ma ll valore della t cosl basso lndlca anche che Lra
le due medle la dlerenza e molLo bassa e quesLo
e lndlce del fauo che |'|potes| nu||a non pu
essere r|geuata.
media
178
media
8lassumendo.

# Abblamo formulaLo un'lpoLesl nulla e una lpoLesl alLernauva .
# Abblamo lndlvlduaLo ll LesL da uullzzare per decldere se rlgeuare o meno
l'lpoLesl nulla.
# ll rlsulLaLo del LesL ha sLablllLo che non posso rlgeuare l'lpoLesl nulla,
ovvero, le medle delle varlazlonl percenLuall del dolore nel due gruppl
non sono dlerenu, qulndl .
... r|tardare d| 1-2 g|orn| |a somm|n|straz|one de||'annb|onco non mod|hca ||
do|ore percep|to da bamb|n| con onte med|a con meno d| S ann|.
179
un LesL e slgnlcauvo quando e posslblle rlgeuare l'lpoLesl nulla, ma quando sl
verlca che un LesL e slgnlcauvo ?
t = 4,15
uesto va|ore de||a & avrebbe |asc|ato a||a sua destra
un'area d| probab|||t par| 0,002 ovvero par| a||o 0,2
de||'|ntera area d| probab|||t.
CuesLo valore dl probablllLa (deuo anche s|gn|hcanv|t)
lndlca che le due medle dell'lpoLesl nulla sarebbero sLaLe
Lroppo dlsLanu Lra loro per poLerle denlre uguall e dunque
posslamo rlgeuare l'lpoLesl nulla a favore dl quella
alLernauva.
Se nell'esemplo precedenLe ll valore dl t fosse sLaLo :

180
ln esLrema slnLesl l'area dl probablllLa lndlvlduaLa dal valore dl t esprlme .

|a probab|||t d| sbag||are ne| r|geuare |'|potes| nu||a.

Ne| pr|mo caso: L=0,26, slgnlcauvlLa= 0,39, ho una probablllLa del 39 dl
sbagllare se l'lpoLesl nulla venlsse rlgeuaLa.

Ne| secondo caso: L=4,13, slgnlcauvlLa= 0,002, ho una probablllLa dello
0,2 dl sbagllare se l'lpoLesl nulla venlsse rlgeuaLa.
181
La slgnlcauvlLa vlene lndlcaLa con dlversl slmboll (p, &, s|gn.) e, come deuo,
lndlca ll grado dl lncerLezza con ll quale e posslblle decldere dl rlgeuare
l'lpoLesl nulla dl un LesL per la verlca delle lpoLesl.

L poss|b||e r|geuare |'|potes| nu||a so|o quando |a s|gn|hcanv|t
(ovvero || va|ore de||'area d| probab|||t |asc|ato ne||a coda)
|nfer|ore a| va|ore &<0,0S.

Sl Lraua dl una soglla deLermlnaLa a prlorl. Adouando quesLo valore come
rlferlmenLo sl auesLa che la probablllLa masslma acceuaLa per rlgeuare
l'lpoLesl nulla sara sempre lnferlore al 3.
Un esempio
Supponiamo di volere confrontare in
un campione di 20 soggetti la conta dei
leucociti effettuata subito dopo il
prelievo e dopo 24 ore di
conservazione del campione in
frigorifero a +4
o
C, per verificare se vi
sono delle differenze nel risultato.
Al termine dell'esperimento avremo
una serie di dati ottenuti al tempo
zero, e una serie corrispondente di dati
ottenuti al tempo 24 ore; i dati sono
riportati nella Tabella seguente.

Si pu affermare che il numero dei
leucociti alla prima e alla seconda
misurazione significativamente
diverso?
n
o
coppia 1
o
valore 2
o
valore
1 10,9 10,5
2 4,9 5
3 9,2 8,9
4 7,6 7,6
5 5,9 5,9
6 4,8 4,5
7 4,9 4,9
8 5,9 5,9
9 11,4 11,4
10 6,4 6,5
11 10,1 10,1
12 9,5 9,4
13 3,8 3,5
14 10,9 10,5
15 4,9 5
16 5,9 5,9
17 11,4 11,4
18 6,4 6,5
19 10,1 10,1
20 9,5 9,4
Un esempio
Supponiamo di volere confrontare in
un campione di 20 soggetti la conta dei
leucociti effettuata subito dopo il
prelievo e dopo 24 ore di
conservazione del campione in
frigorifero a +4
o
C, per verificare se vi
sono delle differenze nel risultato.
Al termine dell'esperimento avremo
una serie di dati ottenuti al tempo
zero, e una serie corrispondente di dati
ottenuti al tempo 24 ore; i dati sono
riportati nella Tabella seguente.

Si pu affermare che il numero dei
leucociti alla prima e alla seconda
misurazione significativamente
diverso?
n
o
coppia 1
o
valore 2
o
valore
1 10,9 10,5
2 4,9 5
3 9,2 8,9
4 7,6 7,6
5 5,9 5,9
6 4,8 4,5
7 4,9 4,9
8 5,9 5,9
9 11,4 11,4
10 6,4 6,5
11 10,1 10,1
12 9,5 9,4
13 3,8 3,5
14 10,9 10,5
15 4,9 5
16 5,9 5,9
17 11,4 11,4
18 6,4 6,5
19 10,1 10,1
20 9,5 9,4
In questo esempio ho tutti gli
elementi per poter scegliere
il tipo di test:
Una variabile intervallare (il
numero dei leucociti)
Un disegno di ricerca (prima
e dopo sugli stessi soggetti)
Una ipotesi (verificare se il
numero dei leucociti
significativamente diverso a
distanza di 24 ore).

Avendo verificato la
normalit della variabile nella
popolazione (test di
Kolmogorov-Smirnov) posso
utilizzare un test parametrico
quale il t-test per dati
appaiati.
Un esempio
!
"
!
#
$
%
=
24 0
24 0
:
:
0
t t A
t t
m m H
m m H
( ) ( )
1
2
2
!
!
=
" "
"
n
D D n
D
t
( )
99 , 1
566 , 0
5 , 1
19
25 , 2 65 , 0 20
5 , 1
= =
! "
=
calc
t
n
o
coppia 1
o
valore 2
o
valore D
1 10,9 10,5 0,4
2 4,9 5 -0,1
3 9,2 8,9 0,3
4 7,6 7,6 0
5 5,9 5,9 0
6 4,8 4,5 0,3
7 4,9 4,9 0
8 5,9 5,9 0
9 11,4 11,4 0
10 6,4 6,5 -0,1
11 10,1 10,1 0
12 9,5 9,4 0,1
13 3,8 3,5 0,3
14 10,9 10,5 0,4
15 4,9 5 -0,1
16 5,9 5,9 0
17 11,4 11,4 0
18 6,4 6,5 -0,1
19 10,1 10,1 0
20 9,5 9,4 0,1
Ipotesi
Formula di
calcolo del test
Dove D e la differenza tra le coppie di
osservazioni
Il valore empirico del test calcolato sulla base
delle osservazioni il seguente:
Un esempio
Scegliendo un &=0,05 e con 19 gradi di libert il valore critico della distribuzione t
(che possibile trovare in apposite tavole dei valori critici) il seguente:
093 , 2 =
crit
t
e siccome il valore empirico non supera il valore critico del test
crit calc
t t <
Con un livello di significativit del 95% non possiamo rigettare lipotesi
nulla di uguaglianza delle medie: trascorse le 24 ore il numero dei leucociti
non significativamente diverso da quello rilevato al tempo t
0
.
093 , 2 99 , 1 <
Alcune cose da chiarire sullesempio!!
!
Cosa sono i gradi di libert?
!
Cosa sono e come funzionano le tavole dei valori critici della
distribuzione del test
!
Perch se il valore empirico (calcolato) del test non supera il valore
critico trovato sulla tavole non posso rigettare lipotesi nulla
formulata per il test?
I gradi di libert di un test
I gradi di libert rappresentano il numero di possibilit che i dati
che compongono un campione hanno di variare liberamente.

In generale si calcolano togliendo dal numero delle unit del
campione il numero delle condizioni cui essi sono vincolati.

Ad esempio se io ho n numeri positivi e negativi, ciascuno dei quali
pu assumere un valore qualsiasi ed un vincolo, ad esempio la
somma deve essere 100, io posso assegnare un valore qualsiasi ai
primi n-1 numeri, ma l'ultimo sar vincolato dal fatto che la
somma deve essere 100, quindi in questo caso, i gradi di libert
sono n-1.
Tavola dei valori critici della distribuzione t-Student
Le tavole dei tests
In questa
colonna si
trovano i gradi di
libert
In queste colonne si
trovano i valori critici del
test rispetto ai diversi
livelli di significativit
Le tavole dei tests
Quindi, dato un &=0,05 e
un numero di g.d.l. pari a
19 il valore critico del test
pari a 2,093
Le tavole dei tests
t
P(t)
P(t>t
crit
)=0,025 P(t<-t
crit
)=0,025
-t
crit
=-2,093
t
crit
=2,093

99 , 1 =
calc
t
Il t calcolato sulla
base dei dati
dellesempio
precedente
inferiore al t
critico, non entra
quindi in quellare
della distribuzione
che prima abbiamo
indicato con il
nome di zona di
rifiuto dellipotesi
nulla.
( ) ( )
1
2
2
!
!
=
" "
"
n
D D n
D
t
La formula di calcolo del test rappresenta in realt
una variabile casuale distribuita secondo la forma
della distribuzione t-Student con n-1 g.d.l. (la sua
forma simile a quella raffigurata qui sotto)
Il risultato empirico di un test ed il confronto con il
valore critico delle tavole
Questo procedimento di confronto tra il valore calcolato del test
empiricamente sui dati con il valore critico trovato sulle tavole
comune alla maggior parte dei test di significativit, parametrici e non
parametrici.
Se il valore calcolato del test inferiore al valore critico trovato sulle
tavole non si pu rigettare lipotesi nulla, a favore dellipotesi
alternativa.
Distribuzione t-Student

Si tratta di una distribuzione continua con densit data dalla relazione:
( )
!
"
#
$
%
& +
'
!
!
"
#
$
$
%
&
+ =
2
1
2
1
(
(
t
C t f
!
C
dove:

= gradi di libert
= costante tale da
a s s i c u r a r e c h e l a r e a
delimitata sotto la curva sia
pari a 1

1. la distribuzione t

una distribuzione continua, con valori compresi tra
-' e +';
2. si rivela particolarmente utile nello studio di fenomeni casuali relativi
a campioni piccoli (n < 30);
3. il valore dei gradi di libert dato da ! = n - 1
4. con (

) ' la distribuzione tende alla distribuzione normale
Se v=1 Se v=10
Distribuzione t-Student
Proviamo con un altro esempio
! conosciuta la distribuzione delle variabili nella popolazione ?
! Qual lipotesi nulla che posso formulare ?
! Quale tipo di disegno di ricerca stato utilizzato ?
! Su quali tipologie di variabili stato realizzato lo studio ?
Frank J. et al. hanno applicato sullo stesso gruppo di soggetti sia
lEcografia che la TC per lo studio dei tumori pancreatici allo scopo di
verificare lefficacia delle due diverse tecniche diagnostiche.

In 38 casi i risultati furono concordemente positivi per tumore e in 18
concordemente negativi. Due casi negativi alla TC risultarono positivi
allecografia; per contro la TC risult positiva in ben 12 casi negativi
allecografia.
Frank J. et al. hanno applicato sullo stesso gruppo di soggetti sia lEcografia che la
TC per lo studio dei tumori pancreatici allo scopo di verificare lefficacia delle due
diverse tecniche diagnostiche.
In 38 casi i risultati furono concordemente positivi per tumore e in 18
concordemente negativi. Due casi negativi alla TC risultarono positivi allecografia;
per contro la TC risult positiva in ben 12 casi negativi allecografia.
! Distribuzione della variabili nella popolazione: non nota
! Ipotesi nulla: le due tecniche diagnostiche hanno la stessa efficacia
nel diagnosticare i tumori pancreatici
! Disegno sperimentale: prima e dopo con gli stessi soggetti
! Tipologia della variabile: positivi/negativi nominale dicotomica
DIAMO UNA RISPOSTA ALLE PRECEDENTI DOMANDE!
Due gruppi
con soggetti
diversi
Pi di due
gruppi con
soggetti
diversi
Prima e dopo
con gli stessi
soggetti
Pi tempi
negli stessi
soggetti
Associazione
tra due
variabili
Intervallare
(normale)
T-test di
Student
Anova
T-test per dati
appaiati
Anova per
misure ripetute
Correlazione di
Pearson e
regressione
Test di
McNemar
Test Q di
Cochrane
Coefficiente di
contingenza K
di Kendall
Ordinale
Test per la
somma dei
ranghi di
Mann-Whitney
Test di
Kruskal-Wallis
Test di
Wilcoxon
Test di
Friedman
Correlazione
dei ranghi di
Spearman
QUALE TRA QUESTI TESTS VORRESTE UTILIZZARE ?
Scala di
misura
Disegno
Due gruppi
con soggetti
diversi
Pi di due
gruppi con
soggetti
diversi
Prima e dopo
con gli stessi
soggetti
Pi tempi
negli stessi
soggetti
Associazione
tra due
variabili
Intervallare
(normale)
T-test di
Student
Anova
T-test per dati
appaiati
Anova per
misure ripetute
Correlazione di
Pearson e
regressione
Test di
McNemar
Test Q di
Cochrane
Coefficiente di
contingenza K
di Kendall
Ordinale
Test per la
somma dei
ranghi di
Mann-Whitney
Test di
Kruskal-Wallis
Test di
Wilcoxon
Test di
Friedman
Correlazione
dei ranghi di
Spearman
IL TEST PI OPPORTUNO IL TEST DI MCNEMAR!!!!
Scala di
misura
Disegno
IL TEST DI MCNEMAR
Questo test pu essere utilizzato per variabili nominali dicotomiche, o
dicotomizzate, esprimendo un risultato come positivo (+) e il risultato
alternativo come negativo (-).
Si dispongono i risultati in una tabella 2x2 mettendo nelle righe quelli (positivi e
negativi) ottenuti con un metodo (oppure prima) e nelle colonne i risultati
ottenuti con laltro metodo (o dopo).
Se sulla base dei dati costruiamo la seguente
tabella
Per il test si tiene conto solo dei risultati
che divergono fra loro, cio a e d per la
disposizione sopra riportata, e si calcola:
IL TEST DI MCNEMAR
Il test di McNemar utilizza la distribuzione del *
2
con 1 g.d.l. e, come
per gli altri test, se!
2 2
crit calc
! ! < non posso rigettare lipotesi nulla.
Questa formula corretta con la correzione di
continuit di Yates (la formula del test senza
correzione non contiene il -1 al numeratore), in
quanto il Chi quadrato una distribuzione
continua, mentre quella campionaria discreta.
Per frequenze basse (a+d < 10) sarebbe opportuno
usare il test binomiale.
IL TEST DI MCNEMAR
Ricostruendo la tavola con i dati sperimentali
dellesempio otteniamo
Da cui
78 , 5
2
=
calc
!
Scegliendo un &=0,05 e sapendo che i g.d.l.=1, andiamo a trovare il
valore critico sulle tavole della distribuzione del chi-quadro
Tavola dei valori critici della distribuzione Chi-quadro
Tavola dei valori critici della distribuzione Chi-quadro
Dato un &=0,05 e un
numero di g.d.l. pari a 1 il
valore critico del test
pari a 3,841
IL TEST DI MCNEMAR
Siccome
84 , 3 78 , 5
2 2
= < =
crit calc
! !
Il chi-quadro calcolato sulla base dei dati dellesperimento inferiore
al chi-quadro critico, si entra quindi nelle zona di rifiuto che ci
permette di rigettare lipotesi nulla.
possibile rigettare lipotesi nulla ad un livello di significativit del 95%,
affermando che i risultati dei due metodi non sono concordi nel
diagnosticare il tumore pancreatico
( )
( )
( )
!
!
"
#
$
$
%
&
'
!
"
#
$
%
&
'
=
2
2
2 2
2
1
(
)
)
( ( e C f
!
( ) !
C
dove:

= gradi di libert
= costante tale da assicurare
che larea delimitata sotto la
curva sia pari a 1

1. la distribuzione *
2
una distribuzione continua, con valori compresi tra 0 e +';
2. al crescere dei gradi di libert la curva tende ad assumere la forma della normale;
3. dato che la v.c. *
2
generata da una somma dei quadrati di n valori indipendenti
di una v.c. normale standardizzata, quando tali valori non sono indipendenti
necessario stabilire le condizioni che li vincolano; sottraendo ad n tali vincoli, si
ottiene il numero di gradi di libert, cio il numero di valori, tra loro
indipendenti, della v.c. normale standardizzata.
Distribuzione Chi-Quadrato

Si tratta di una distribuzione continua con densit data dalla relazione:

Distribuzione Chi-Quadrato
Se v=1 Se v=2 Se v=3
Abbiamo imparato ad utilizzare questa tavola sinottica
dei test
Due gruppi
con soggetti
diversi
Pi di due
gruppi con
soggetti
diversi
Prima e dopo
con gli stessi
soggetti
Pi tempi
negli stessi
soggetti
Associazione
tra due
variabili
Intervallare
(normale)
T-test di
Student
Anova
T-test per dati
appaiati
Anova per
misure ripetute
Correlazione di
Pearson e
regressione
Test di
McNemar
Test Q di
Cochrane
Coefficiente
phi
Ordinale
Test per la
somma dei
ranghi di
Mann-Whitney
Test di
Kruskal-Wallis
Test di
Wilcoxon
Test di
Friedman
Correlazione
dei ranghi di
Spearman
MA NON ABBIAMO ANCORA CONSIDERATO LULTIMA COLONNA!!!!
Come verificare il legame tra due variabili ?
Per analizzare i legami che esistono tra le grandezze prese in
esame occorrono strumenti diversi dai test illustrati nella
precedente lezione, il cui utilizzo, ancora una volta varia in
funzione della categoria di variabile sottoposta ad analisi.
!
Correlazione/associazione tra variabili,
!
Regressione.
In questa lezione parleremo di:
PARTIAMO DA UN ESEMPIO
Abbiamo analizzato su un campione di 40 soggetti il periodo di
incubazione di una malattia infettiva, rilevando le seguenti variabili:
Le variabili:

X=giorni di incubazione
Y=sesso
K=peso corporeo
Peso corporeo espresso in chilogrammi
140 120 100 80 60 40
G
i
o
r
n
i

d
i

i
n
c
u
b
a
z
i
o
n
e

d
e
l
l
a

m
a
l
a
t
t
i
a

A
B
C
10
8
6
4
2
0
Una delle ipotesi di
ricerca potrebbe essere:
esiste una relazione tra i
giorni di incubazione ed il
peso dei soggetti?
Se rappresentassimo i valori
della variabile x (gg di
incubazione) e k (peso
corporeo) nel grafico a fianco, si
potrebbe affermare che tra le
due esiste un legame?
140 120 100 80 60 40
G
i
o
r
n
i

d
i

i
n
c
u
b
a
z
i
o
n
e

d
e
l
l
a

m
a
l
a
t
t
i
a

A
B
C
10
8
6
4
2
0
Una delle ipotesi di
ricerca potrebbe essere:
esiste una relazione tra i
giorni di incubazione ed il
peso dei soggetti?
Se rappresentassimo i valori
della variabile x (gg di
incubazione) e k (peso
corporeo) nel grafico a fianco, si
potrebbe affermare che tra le
due esiste un legame?
In sintesi vero che allaumentare del peso
aumentano i giorni di incubazione
(o viceversa)?
IL CONCETTO DI CORRELAZIONE
Correlare significa stabilire una reciproca relazione tra due
ordini di grandezze, ovvero verificare se le variazioni che si
verificano in una variabile possono o meno determinare
delle corrispondenti variazioni nella seconda.

In questa parte parleremo di misure di correlazione,
proponendo alcune metodologie che, applicate sui dati
osservati, indicheranno se esista una relazione tra le
variabili, quanto essa forte ed in quale modo si esplica
questa relazione.
LA CORRELAZIONE
Date due grandezze X e Y
si possono verificare questi
tre casi .
X
10000 9000 8000 7000 6000 5000 4000 3000
Y
90
80
70
60
50
X
10000 9000 8000 7000 6000 5000 4000 3000
Y
90
80
70
60
50
X
10000 9000 8000 7000 6000 5000 4000 3000
Y
90
80
70
60
50
LA CORRELAZIONE
IL LORO SIGNIFICATO IL
SEGUENTE .
X
10000 9000 8000 7000 6000 5000 4000 3000
Y
90
80
70
60
50
ASSENZA DI CORRELAZIONE:
le osservazioni non presentano
una direzione ben precisa, ma
piuttosto tendono a disporsi come
una "nuvola di punti" attorno ad
un valore centrale.
X
10000 9000 8000 7000 6000 5000 4000 3000
Y
90
80
70
60
50
CORRELAZIONE NEGATIVA: le osservazioni
assumono una tendenza decrescente e lasciano
ipotizzare che tra la variabile X e la variabile Y vi sia
un rapporto inverso.
X
10000 9000 8000 7000 6000 5000 4000 3000
Y
90
80
70
60
50
CORRELAZIONE
POSITIVA: ad un
aumento nella variabile
X corrisponde un
aumento anche nella
variabile Y; vi un
legame diretto tra le
due grandezze.
LA CORRELAZIONE: lo strumento per calcolarne il valore
Il valore della correlazione lineare si ottiene con il coefficiente
r di Pearson. Si calcola solo su variabili quantitative e serve a
valutare lintensit del legame tra due variabili.
Il coefficiente r ha un campo di variazione che varia tra -1 e 1.
Se r=0 non vi legame tra X e Y, ovvero le variazioni della Y non possono
essere spiegate dalla X.
Quanto pi il suo valore si differenzia da 0 e si avvicina agli estremi del
campo di variazione, tanto pi evidente la presenza di un legame tra le
suddette grandezze.
In particolare, se r tende verso 1 (p.e.: r=0,85, r=0,92 o superiori), allora vi
una relazione diretta tra le variabili, cio al crescere dell'una si verifica
un aumento anche nell'altra.
Se invece r tende verso -1, allora la relazione di tipo inverso, cio al
crescere di X la Y decresce.
LA CORRELAZIONE: lo strumento per calcolarne il valore
r
S
S S
xy
x y
=
!
r
(coefficiente di correlazione lineare di
Pearson)
dove:
( ) ( )
y i
n
1 i
x i xy
m y m x
n
1
S ! " ! =
#
=
(covarianza)
x
S
y
S
deviazione standard della variabile X
deviazione standard della variabile Y
LA CORRELAZIONE
IL VALORE DI r IL SEGUENTE .
X
10000 9000 8000 7000 6000 5000 4000 3000
Y
90
80
70
60
50
ASSENZA DI CORRELAZIONE
X
10000 9000 8000 7000 6000 5000 4000 3000
Y
90
80
70
60
50
CORRELAZIONE NEGATIVA
X
10000 9000 8000 7000 6000 5000 4000 3000
Y
90
80
70
60
50
CORRELAZIONE POSITIVA
r + -1
r + 0
r + 1
TORNANDO ALLESEMPIO
Correlazioni
,008
40
Correlazione
di Pearson
N
Peso corporeo
espresso in
chilogrammi
Giorni di
incubazione
della
malattia
ABC
140 120 100 80 60 40
G
io
r
n
i
d
i
in
c
u
b
a
z
io
n
e

d
e
lla

m
a
la
t
t
ia

A
B
C
10
8
6
4
2
0
Il valore del coefficiente lineare
di correlazione r di Pearson
calcolato tra i giorni di
incubazioni ed il peso corporeo
ha dato il seguente risultato
?
TORNANDO ALLESEMPIO
Correlazioni
,008
40
Correlazione
di Pearson
N
Peso corporeo
espresso in
chilogrammi
Giorni di
incubazione
della
malattia
ABC
140 120 100 80 60 40
G
io
r
n
i
d
i
in
c
u
b
a
z
io
n
e

d
e
lla

m
a
la
t
t
ia

A
B
C
10
8
6
4
2
0
Il valore del coefficiente lineare
di correlazione r di Pearson
calcolato tra i giorni di
incubazioni ed il peso corporeo
ha dato il seguente risultato
Il valore di r praticamente 0:
tra le due variabili non esiste
legame (ovvero, le variazioni
del peso non determinano le
variazioni del numero di giorni
di incubazione della malattia)
LA REGRESSIONE LINEARE
Se il coefficiente r indica lintensit del legame tra due variabili, il
calcolo della regressione restituisce la forma di questo legame.

Potremmo, infatti, scegliere di descrivere l'andamento delle
osservazioni mediante una funzione matematica che,
interpolando i dati, sia in grado di rappresentarne la tendenza e
di conservarne le informazioni principali.
Tale metodo si chiama, appunto,
regressione lineare.
Il metodo della regressione lineare consiste appunto
nell'individuare una retta che sia capace di rappresentare la
distribuzione dei punti nel piano a due dimensioni.

Come facile immaginare, se i punti corrispondenti alle
osservazioni si dispongono vicino alla retta, allora il modello
scelto sar in grado di descrivere con efficacia il legame tra le
variabili.

In teoria esistono un numero infinito di rette che potrebbero
essere tracciate per interpolare le osservazioni; ma in pratica vi
un solo modello matematico che ottimizza la
rappresentazione dei dati.
X
10000 9000 8000 7000 6000 5000 4000 3000
Y
90
80
70
60
50
Y = a + b X
il modello matematico attraverso cui vogliamo
rappresentare la forma della relazione tra le variabili.
Il termine lineare sta proprio
ad indicare che il legame che
vogliamo studiare di tipo
lineare ed rappresentabile da
una retta
Y = a + b X
Questo modello utilizza la X come variabile indipendente
e la Y come dipendente.
I parametri a e b (che rappresentano rispettivamente
l'intercetta con l'asse delle Y ed il coefficiente angolare,
ovvero la pendenza della retta), dovranno essere stimati
sulla base delle osservazioni raccolte per le due variabili
incluse nel modello

i valori osservati delle variabili X e Y vengono utilizzati
per trovare la retta che fornisce la migliore
rappresentazione dei dati sul piano cartesiano.
Y = a + b X
Il metodo di stima dei parametri va sotto il nome di MINIMI
QUADRATI.
Tra le rette che si possono
tracciare per interpolare i dati
la pi adatta a rappresentarne
l'andamento sar certamente
quella che minimizza la
somma delle distanze tra i
valori osservati ed i relativi
valori stimati mediante il
modello.
X
10000 9000 8000 7000 6000 5000 4000 3000
Y
90
80
70
60
50
(La retta migliore quella che minimizza la
somma di queste distanze)
X
10000 9000 8000 7000 6000 5000 4000 3000
Y
90
80
70
60
50 !
!
"
!
!
#
$
=
% & = % & =
2
x
xy
x
2
x
xy
y x y
S
S
b
m
S
S
m m b m a
Saltando la dimostrazione la stima dei due parametri si ottiene
nel seguente modo
y
m
x
m
xy
S
2
x
S
dove:
= media della variabile Y
= media della variabile X
= covarianza
= varianza della variabile X
Y = a + b X
TORNANDO ALLESEMPIO
Coefficienti
a
4,946 1,191 4,154 ,000
7,236E-04 ,015 ,008 ,047 ,963
(Costante)
Peso corporeo espresso
in chilogrammi
Modello
1
B Errore std.
Coefficienti non
standardizzati
Beta
Coefficien
ti
standardi
zzati
t Sig.
Variabile dipendente: Giorni di incubazione della malattia ABC
a.
Riepilogo del modello
,008
a
,000 -,026 1,78
Modello
1
R R-quadrato
R-quadrato
corretto
Errore std.
della stima
Stimatori: (Costante), Peso corporeo espresso in
chilogrammi
a.
Come pu essere scritto il modello ?
Y = a + b X
TORNANDO ALLESEMPIO
Coefficienti
a
4,946 1,191 4,154 ,000
7,236E-04 ,015 ,008 ,047 ,963
(Costante)
Peso corporeo espresso
in chilogrammi
Modello
1
B Errore std.
Coefficienti non
standardizzati
Beta
Coefficien
ti
standardi
zzati
t Sig.
Variabile dipendente: Giorni di incubazione della malattia ABC
a.
Y = 4,946 + 0,00007236 X
Il coefficiente angolare del modello (parametro b) praticamente
0 in termini matematici significa che qualsiasi modifica nei valori
della variabile X non influenzano i valori della Y (conferma
dellassenza di correlazione)
E LINFERENZA STATISTICA DOVE ST ?
Fino ad ora non abbiamo parlato
di inferenza statistica, stato
prima necessario definire il
concetto di correlazione

ma allo stesso modo dei test gi
illustrati, anche nel caso dello
studio dellassociazione tra
variabili i processi inferenziali sono
assolutamente importanti

ricordandosi che solo un
campione di osservazioni estratto
casualmente consente di fare
inferenza!!!
DI NUOVO CON UN
ESEMPIO
Consideriamo una
POPOLAZIONE di 200
marziani
Come si pu vedere dal
grafico le due grandezze
sembrano essere associate !
Siccome stiamo parlando di
una popolazione i valori
caratteristici sono i seguenti:
Peso =40, !=5
Altezza =12, !=2,5
Entrambe le grandezze si distribuiscono
come una Normale
UNA IMPORTANTE OSSERVAZIONE !!!
Per esempio

i marziani alti 32 cm pesano 7,1-7,9-8,1-8,8 (peso medio=8)

I marziani alti 46 cm pesano 13,4-14,5-14,8-15,0-15,1-15,2-15,3-15,8
(peso medio=15)
IL PESO MEDIO DEI MARZIANI DI UGUALE STATURA CRESCE AL
CRESCERE DELLA STATURA STESSA
IMPORTANTE !! Non possibile per predire il peso di un
singolo marziano essendo nota la sua altezza, poich esiste
una variabilit nei pesi dei marziani di uguale statura
Nel nostro caso la D.S. dei pesi dei marziani di uguale
statura circa 1, che diversa da quella calcolata su tutti i
marziani
Siccome stiamo considerando le variazioni dei pesi al
variare delle stature, possiamo definire
La variabile dipendente Peso
Y
La variabile indipendente Altezza
X
Dato un valore di X
possiamo calcolare la media
di tutti i possibili valori di Y
corrispondenti, ricavando
x y!
ovvero la media
della y dato un
certo valore di x
Le medie .
x y!
si dispongono lungo una

linea retta di equazione
x
x y
! " + =
#
Come abbiamo detto esiste una variabilit intorno alla
retta delle medie:
Per ogni valore della X i valori della Y si distribuiscono
Y N(
y"x
, !
y"x
)
ANCORA UNA VOLTA DALLA POPOLAZIONE AL CAMPIONE
Nella popolazione i parametri di cui ci dobbiamo
occupare sono
y"x
!
y"x
& e ,

(che definiscono la retta delle medie)
(media della popolazione di Y dato un certo X)
(variabilit intorno alla retta delle medie)
Nelle pagine scorse sono stati citati alcuni termini che
richiamano i contenuti della precedente serie di lezioni:
1. Popolazione,
2. Parametri campionari e di popolazione,
3. Distribuzione dei parametri nella
popolazione,
4. Stima dei parametri nel campione.
Trattandosi di inferenza statistica, anche per le tecniche di
analisi dellassociazione tra variabili deve essere chiara la
differenza tra metodi parametrici e non parametrici (i
primi richiedono la conoscenza della distribuzione della
variabile nella popolazione), cos come devono essere ben
identificate le tipologie di variabili su cui si vuole effettuare
lanalisi.
Ripartiamo da qua
Due gruppi
con soggetti
diversi
Pi di due
gruppi con
soggetti
diversi
Prima e dopo
con gli stessi
soggetti
Pi tempi
negli stessi
soggetti
Associazione
tra due
variabili
Intervallare
(normale)
T-test di
Student
Anova
T-test per dati
appaiati
Anova per
misure ripetute
Correlazione di
Pearson e
regressione
Test di
McNemar
Test Q di
Cochrane
Coefficiente
phi
Ordinale
Test per la
somma dei
ranghi di
Mann-Whitney
Test di
Kruskal-Wallis
Test di
Wilcoxon
Test di
Friedman
Correlazione
dei ranghi di
Spearman
CONSIDERANDO SOLO LULTIMA COLONNA!!!!
Ripartiamo da qua
Due gruppi
con soggetti
diversi
Pi di due
gruppi con
soggetti
diversi
Prima e dopo
con gli stessi
soggetti
Pi tempi
negli stessi
soggetti
Associazione
tra due
variabili
Intervallare
(normale)
T-test di
Student
Anova
T-test per dati
appaiati
Anova per
misure ripetute
Correlazione di
Pearson e
regressione
Test di
McNemar
Test Q di
Cochrane
Coefficiente
phi
Ordinale
Test per la
somma dei
ranghi di
Mann-Whitney
Test di
Kruskal-Wallis
Test di
Wilcoxon
Test di
Friedman
Correlazione
dei ranghi di
Spearman
questi sono i metodi parametrici !!!!
Ripartiamo da qua
Due gruppi
con soggetti
diversi
Pi di due
gruppi con
soggetti
diversi
Prima e dopo
con gli stessi
soggetti
Pi tempi
negli stessi
soggetti
Associazione
tra due
variabili
Intervallare
(normale)
T-test di
Student
Anova
T-test per dati
appaiati
Anova per
misure ripetute
Correlazione di
Pearson e
regressione
Test di
McNemar
Test Q di
Cochrane
Coefficiente
phi
Ordinale
Test per la
somma dei
ranghi di
Mann-Whitney
Test di
Kruskal-Wallis
Test di
Wilcoxon
Test di
Friedman
Correlazione
dei ranghi di
Spearman
questi sono i metodi non parametrici !!!!
Un esempio
In una ricerca realizzata negli Stati Uniti stato selezionato un
campione di Stati nei quali stato misurato il consumo di
sigarette pro-capite e lincidenza di due malattie (cancro ai
polmoni e leucemia).
Dato per scontato che le tre
variabili si distribuiscono
normalmente nella
popolazione!

! si pu affermare che
lincidenza del cancro al
polmone direttamente
correlato al consumo di
sigarette pro-capite?
Un esempio
In una ricerca realizzata negli Stati Uniti stato selezionato un
campione di Stati nei quali stato misurato il consumo di
sigarette pro-capite e lincidenza di due malattie (cancro ai
polmoni e leucemia).
Dato per scontato che le tre
variabili si distribuiscono
normalmente nella
popolazione!

! si pu affermare che
lincidenza del cancro al
polmone direttamente
correlato al consumo di
sigarette pro-capite?
Sono tutte variabili
quantitative (scale
intervallari), quale
strumento utilizziamo??
Due gruppi
con soggetti
diversi
Pi di due
gruppi con
soggetti
diversi
Prima e dopo
con gli stessi
soggetti
Pi tempi
negli stessi
soggetti
Associazione
tra due
variabili
Intervallare
(normale)
T-test di
Student
Anova
T-test per dati
appaiati
Anova per
misure ripetute
Correlazione di
Pearson e
regressione
Test di
McNemar
Test Q di
Cochrane
Coefficiente
phi
Ordinale
Test per la
somma dei
ranghi di
Mann-Whitney
Test di
Kruskal-Wallis
Test di
Wilcoxon
Test di
Friedman
Correlazione
dei ranghi di
Spearman
Scegliamo lo strumento di analisi
Dallosservazione dei dati
campionari gi potremmo
ipotizzare che lincidenza
del cancro al polmone
aumenta al crescere del
consumo di sigarette.
Ma basandoci sui dati
campionari in che modo
possiamo affermare che
ci avvenga anche nella
popolazione di stati da cui
il campione stato
estratto ?
Questo obiettivo viene raggiunto stimando lintercetta a ed il
coefficiente b della retta delle medie attraverso i dati campionari.
Cancro ai polmoni
28 26 24 22 20 18 16 14 12 10
S
i
g
a
r
e
t
t
e

p
r
o
-
c
a
p
i
t
e
5000
4000
3000
2000
1000
Texas
Utah
Nevada
Alaska
New York
Minnesota
Massachuse
Kentucky
Kansas
Iowa
Indiana
Illinois
Idaho
California
Se:

X = consumo di sigarette pro-capite
(variabile indipendente)
y = incidenza cancro ai polmoni
(variabile dipendente)

Dopo pochi calcoli:

m
x
= 2.554,43
m
y
= 19,49
S
xy
= 2.047,63
S
x
= 651,06
S
y
= 4,37
S
2
x
= 423.882,1
r
S
S S
xy
x y
=
!
!
!
"
!
!
#
$
=
% & = % & =
2
x
xy
x 2
x
xy
y x y
S
S
b
m
S
S
m m b m a
bX a Y + =
Utilizzando le seguenti formule:
Si ottiene:

r = 0,720
a = 7,147
b = 0,005
0,005X 7,147 Y
+ =
Il modello di regressione:
I
parametri
a = 7,147
b = 0,005
sono stime di
&, ,
PARAMETRI DI
POPOLAZION
E
Come abbiamo detto a e b sono solo delle stime di & e , e pi
precisamente sono solo due dei possibili valori ottenibili dai
numerosissimi campioni che possono essere estratti dalla
popolazione.
LA DISTRIBUZIONE DELLE
STIME DEI PARAMETRI
Al variare del campione variano
anche i parametri a e b
I parametri a e b hanno delle distribuzioni le cui medie sono
rispettivamente & e , e le cui D.S. sono !
&
e !
,
.
Dove
!
&
!
,
lerrore standard dellintercetta
lerrore standard del coefficiente angolare
Fino a qui abbiamo stimato la
relazione tra due variabili nella
popolazione attraverso i dati
campionari. Adesso cercheremo di
sottoporre a verifica alcune ipotesi
Tra i numerosi test che si
possono realizzare la pi
importante verifica delle ipotesi
la seguente:
H
o
: ,=0

Ovvero, essendo nullo il coefficiente angolare non c
relazione tra la variabile dipendente e quella
indipendente.
X Y ! " + =
Siccome la popolazione dei possibili
valori di b si distribuisce (anche se
approssimativamente) in modo
normale, per fare il test possiamo
utilizzare la seguente formula:
b
S
! b
t
!
=
siccome lipotesi nulla
H
o
: ,=0

b
S
b
t =
X
X Y
b
S
S
n
S
!
"
=
1
1
( )
2 2 2
2
1
X Y X Y
S b S
n
n
S !
!
!
=
"
Dove e
Come avviene genericamente per tutti
i test il valore ottenuto dalla formula
viene confrontato con il valore critico
ricavato dalle tavole della distribuzione
t-Student con v=n-2 gradi di libert.
La retta stimata
b=0,004831 S
b
=0,00129 I dati necessari per il test sono
3,7456
0,00129
0,004831
t = =
Il valore del test il seguente
Il valore del test deve essere confrontato con quello critico
ricavato dalle tavole della distribuzione t di Student
0,005X 7,147 Y
+ =
b
S
b
t =
Quindi, dato un &=0,01 e
un numero di g.d.l. pari a
12 (v=n-2) il valore critico
del test pari a 3,012
Scegliendo un &=0,01 e con 13 gradi di libert (gdl, v=n-2) il
valore critico della distribuzione t il seguente:
055 , 3 =
crit
t
crit calc
t t >
Con un livello di significativit del 99% possiamo rigettare lipotesi
nulla posta (il parametro , nella popolazione nullo): i valori
dellincidenza di cancro al polmone nella popolazione degli Stati
Uniti sono determinati dai valori del consumo pro-capite di
sigarette con una probabilit del 99%.
055 , 3 7456 , 3 >
Siccome
Ancora sulla verifica delle ipotesi nel caso di rette di
regressione
Come detto, lipotesi nulla sul coefficiente angolare della
retta di regressione uno dei numerosi test che si possono
realizzare per studiare il legame tra due variabili.

Nelle prossime pagine affronteremo un altro caso
altrettanto interessante:

un test per verificare la differenza dei coefficienti angolari
(indipendentemente dallintercetta).

Perch fare questo genere di confronto?

CONTINUA LESEMPIO
Se la verifica dellipotesi nulla sul valore del coefficiente angolare
della retta di regressione per le variabili consumo di sigarette e
cancro ai polmoni aveva lo scopo di verificare il legame tra le due
variabili!
! come si potrebbe
verificare se il consumo di
sigarette provoca uno
stesso rischio sia per il
cancro ai polmoni che per la
leucemia?
Cancro ai polmoni
28 26 24 22 20 18 16 14 12 10
S
i
g
a
r
e
t
t
e

p
r
o
-
c
a
p
i
t
e
5000
4000
3000
2000
1000
Texas
Utah
Nevada
Alaska
New York
Minnesota
Massachuse
Kentucky
Kansas Iowa
Indiana
Illinois
Idaho
California
LEUCEMIA
8,5 8,0 7,5 7,0 6,5 6,0 5,5 5,0 4,5
S
i
g
a
r
e
t
t
e

p
r
o
-
c
a
p
i
t
e
5000
4000
3000
2000
1000
Texas
Utah
Nevada
Alaska
New York
Minnesota
Massachuse
Kentucky
Kansas Iowa
Indiana
Illinois
Idaho
California
Alcune osservazioni
1. I due grafici mostrano una diversa dispersione delle variabili
attorno ad una ipotetica retta di regressione;
2. Nelle due coppie di variabili la correlazione sar sicuramente
diversa;
3. Dire che entrambi le rette di regressione hanno lo stesso
coefficiente angolare che significato avrebbe?
Cancro ai polmoni
28 26 24 22 20 18 16 14 12 10
S
i
g
a
r
e
t
t
e

p
r
o
-
c
a
p
i
t
e
5000
4000
3000
2000
1000
Texas
Utah
Nevada
Alaska
New York
Minnesota
Massachuse
Kentucky
Kansas Iowa
Indiana
Illinois
Idaho
California
LEUCEMIA
8,5 8,0 7,5 7,0 6,5 6,0 5,5 5,0 4,5
S
i
g
a
r
e
t
t
e

p
r
o
-
c
a
p
i
t
e
5000
4000
3000
2000
1000
Texas
Utah
Nevada
Alaska
New York
Minnesota
Massachuse
Kentucky
Kansas Iowa
Indiana
Illinois
Idaho
California
Le caratteristiche delle due rette
r = 0,720
a = 7,147
b = 0,005
0,005X 7,147 Y
canc
+ =
r = -0,230
a = 7,626
b = -0,00027
0,00027X 7,626 Y
leuc
! =
Una verifica di ipotesi che riguardi luguaglianza dei due
coefficienti angolari delle rette di regressione vuole verificare se
le due variabili dipendenti subiscono lo stesso effetto da parte
della stessa variabile indipendente!.
Il consumo di sigarette provoca lo
stesso livello di rischio sia per il
cancro al polmone che per la
leucemia?
Una prima analisi dei dati
sembrerebbe smentire questa
ipotesi (due valori di r opposti,
due coefficienti angolari molto
diversi), ma per dare
significativit a questa ipotesi
occorre fare un test!
Ricordandoci che i valori dei parametri a e b sono stime dei
parametri a e b della popolazione e come tali godono di una
propria distribuzione (assunta come Normale per quanto detto
in precedenza), la formula per calcolare il test la seguente:
parametri i tra differenza della standard errore
parametri i tra differenza
t =
2 1
b b
2 1
S
b b
t
!
!
=
In entrambi i casi i valori
critici per il calcolo del test
vanno individuati con
v=n
1
+n
2
-4 g.d.l.
Ovvero
Il denominatore viene calcolato in modo diverso se le due
regressioni sono basate sullo stesso numero di osservazioni
oppure se questi sono diversi.
Le formule per il calcolo del test
Se n
1
=n
2
2
2 b
2
b b b
S S S
1 2 1
+ =
!
Se n
1
#n
2
2
x 2
2
x y
2
x 1
2
x y
b b
2
p
1
p
2 1
S ) 1 (n
S
S ) 1 (n
S
S
!
+
!
=
" "
!
Dove

4 n n
1)S (n 1)S (n
S
2 1
2
x y 2
2
x y 1
2
x y
2 1
p
! +
! + !
=
" "
"
Come si calcola lerrore standard della differenza dei parametri b
delle due rette di regressione
Tornando allesempio
Siccome lipotesi nulla
H
o
: ,
canc
= ,
leuc
e la statistica per il test la seguente
leuc canc
b b
leuc canc
S
b b
t
!
!
=
Siccome nei due gruppi la numerosit la stessa
0,004831 b
canc
= -0,00027 b
leuc
=
06 - 1,66331E S
2
b
canc
= 0,072847 S
2
b
leuc
=
8 0,26990422 0,072847 06 - 1,66331E S S S
2
b
2
b b b
leuc canc leuc canc
= + = + =
!
7 0,01889136
8 0,26990422
0,00027 0,004831
S
b b
t
leuc canc
b b
leuc canc
=
+
=
!
=
!
Scegliendo un &=0,05 e con 24 gradi di libert (gdl, v= n
1
+n
2
-4 ) il
valore critico della distribuzione t il seguente:
064 , 2 =
crit
t
crit calc
t t <
Con un livello di significativit del 95% non possiamo rigettare
lipotesi nulla posta:
064 , 2 0,01889 <
Siccome
H
o
: ,
canc
= ,
leuc

Dispensa Di Statistica Per La Ricerca 2013 2014

Caricato da

Informazioni sul documento

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Dispensa Di Statistica Per La Ricerca 2013 2014

Caricato da

Copyright:

Formati disponibili

Statistica per la ricerca

si dispongono lungo una

Potrebbero piacerti anche