Sei sulla pagina 1di 28

Inferenza Statistica

Popolazione vs. Campione

Popolazione Campione

Misure che descrivono una popolazione si Misure calcolate su un campione si


chiamano parametri, in genere non noti: chiamano statistiche campionarie:
media (µ), dev. std. (σ), prop (π) media (m), dev. std.(s), prop (p)
Inferenza Statistica
Trarre conclusioni e/o prendere decisioni su una
popolazione basandoci su un piccolo
sottoinsieme di osservazioni (campione)
  Stima di parametri (Intervalli di Confidenza, 95%CI)
Es.: In un trial, l’intervallo di confidenza calcolato per una misura dell’effetto
di un trattamento mi dice il range all’interno del quale si trova, quasi
sicuramente, il vero effetto del trattamento
  Verifica di ipotesi (Test Statistici, p≤0.05)
Es.: In un trial, l’efficacia di un trattamento vs placebo che osserviamo è
dovuta al caso (ovvero al campionamento) oppure indica effettivamente la
presenza di un effetto? Con quale probabilità? Il p-value ci aiuta a decidere.
  Dimensionamento di uno studio (n=?)
Es.: Quanti pz devo arruolare per ottenere stime di effetto di una prefissata
precisione oppure per evidenziare quasi sicuramente l’esistenza di un
prefissato effetto?
Definizioni
  Una Variabile Aleatoria (X) è il risultato di un evento
casuale, di cui conosciamo a priori solo i possibili valori
(Distribuzione di Probabilità p(X)), ma non sappiamo
quali valori si verificheranno in realtà.
p(X) X Discreta p(X) X Continua

0 1 2 3 4 5 6 7 8 91011 n. di figli 175 Liv. di Colesterolo

  Una Distribuzione Campionaria è la distribuzione di tutti i


possibili valori di una statistica campionaria che si ottiene
estraendo tutti i possibili campioni di numerosità n da una
popolazione
La distribuzione Normale
  forma a campana
  simmetrica
p(X)
  Media = Mediana = Moda

Posizione è determinata dalla σ


media µ X
Variabilità intorno alla media µ µ
è determinata dalla Dev.St. σ
Mean
La variabile aleatoria può = Median
assumere infiniti valori
= Mode
nell intervallo teorico (-∞; +∞)
La distribuzione Normale

Al variare dei parametri µ e σ, si ottengono


differenti distribuzioni normali
Proprietà della Normale
p(X) µ ± 1σ include il 68.3% dei valori possibili
µ ± 1.96σ include il 95% dei valori possibili
68.3% µ ± 2.58σ include il 99% dei valori possibili

σ σ

X
µ-1σ µ µ+1σ

1.96σ 1.96σ 2.58σ 2.58σ


µ X µ X
95% 99%
La distribuzione Normale
Standardizzata (Z)
  Ogni distribuzione normale X (con qualsiasi µ e σ)
può essere sempre trasformata nella Distribuzione
Normale Standardizzata (anche nota come
Distribuzione Z)

p(X) Z=
X!µ p(Z)
!
σ 1
X Z
µ 0

  La distr. Z ha sempre media µZ = 0 e DS σZ = 1


Proprietà della Normale Standardizzata (Z)

α α
% (1-α)% %
2 2

-zα/2 zα/2

L intervallo (-1;+1) include il 68.3% dei valori possibili


ovvero esclude il 31.7% dei valori (15.85% per lato)

L intervallo (-1.96;+1.96) include il 95% dei valori possibili


ovvero esclude il 5% dei valori (2.5% per lato)

L intervallo (-2.58;+2.58) include il 99% dei valori possibili


ovvero esclude l 1% dei valori (0.5% per lato)
Un esperimento …
Consideriamo una Variabile Aleatoria X avente Distribuzione Normale con media µ =16 e Dev. St. σ = 5
Estraiamo un elevato numero di campioni di numerosità n=10.
Poniamoci i seguenti interrogativi:

1) Come sarà la “distrib media


campionaria” ovvero la distribuzione
delle medie di tutti i possibili campioni
che possiamo estrarre?

2) Che relazione sussiste tra la distrib. X


e la distribuzione media campionaria
riguardo le loro medie e Dev. Standard?

3) Cosa succede se aumentiamo il


numero delle osservazioni in ciascun
campione: n=10, 20, 25, …?

4) Cosa succede alla “distrib. media


campionaria” se X non si distribuisce in
modo Normale?
… risultati
Consideriamo una Variabile Aleatoria X avente Distribuzione Normale con media µ =16 e Dev. St. σ = 5
Estraiamo un elevato numero di campioni di numerosità n=10.
Poniamoci i seguenti interrogativi:
Var. X
1) Come sarà la “distrib media
campionaria” ovvero la distribuzione
delle medie di tutti i possibili campioni µ X
che possiamo estrarre?
µX = µ ! Distr. Media
!X = Campionaria X
2) Che relazione sussiste tra la distrib. X n
e la distribuzione media campionaria
riguardo le loro medie e Dev. Standard? µx X
Se X non è normale, al crescere di n…
… la Distr. Media Camp. tende
3) Cosa succede se aumentiamo il verso una Distribuzione Normale
numero delle osservazioni in ciascun
campione: n=10, 20, 25, …? Teorema
n del Limite

4) Cosa succede alla “distrib. media


↑ Centrale

campionaria” se X non si distribuisce in


modo Normale? x
Intervallo di Confidenza al 95%
Distribuzione media campionaria

2.5% 95% 2.5%

µ !1.96
! µx = µ
µ +1.96
! x
n n
x1
x2

Intervallo di Confidenza al 95%


Formula Generale e Casi Specifici

Stima puntuale ± Valore Critico × Errore Standard

Parametro Valore Errore Intervallo di confidenza (1-α)%


Critico Standard
Media µ (σ noto) z! 2 ! n x ± z! 2 " n
Media µ (σ ignoto) t" 2,n !1 s n x ± t" 2,n !1 s n
Proporzione π (*) z! 2 p (1 ! p ) n p ± z" 2 p (1 ! p ) n
Rischio Relativo e Odds Ratio Vedere:
“Analisi degli studi clinici Randomizzati”
“Analisi negli studi Caso-Controllo”
Misure derivate dalle Tabelle 2x2: Sensibilità, http://statpages.org/ctab2x2.html
Specificità, Valori Predittivi, Kappa, NNT, …
(*) Formula basata sull’approssimazione alla normale: valida quando p e (1-p) ≥ 5/n
Una selezione di valori critici
per la distrib. Z e per la distrib. T di Student

Livello di α/2 zα/2 tα/2;n-1


Confidenza
(1- α)% n=10 n=20 n=30 n=40 n=60 n-> +∞

80 % 0.10 1.28 1.38 1.33 1.31 1.30 1.30 1.28

90 % 0.05 1.645 1.83 1.73 1.70 1.68 1.67 1.645

95 % 0.025 1.96 2.26 2.09 2.04 2.02 2.00 1.96

99 % 0.005 2.58 3.25 2.86 2.75 2.70 2.66 2.58

Per calcolare i valori critici esatti per la distribuzione z, t di Student, F di Fischer e Chi quadro
usare le tavole al link: www2.stat.unibo.it/roverato/index_file/Tavole_CLAMED.pdf
calcolare i valori esatti al link: http://statpages.org/pdfs.html
Esempio 1
  In un campione casuale di 216 pazienti con Cirrosi Biliare
Primitiva (PBC), è stata misurata l’Albumina Sierica
ottenendo una media dei valori del campione m =34.46 g/l e
una Dev. St. s = 5.84 g/l.
  Cosa possiamo dire riguardo i valori di Albumina nella
popolazione di tutti i pazienti affetti da PBC?

& 5,84 #
95%CI = 34,46 ± 1,96 ' $ !
% 216 "

34,46 ( 33,68 - 35,24)

  Perciò possiamo affermare che la nostra migliore stima del


valore medio di Albumina Serica nei pazienti con PBC è
34.46 g/l e che, con il 95% di probabilità, il “vero” valore
medio sarà un valore nell’intervallo (33,68 – 35,24) g/l.
Esempio 2
  In un campione casuale di 80 donne preso dalla popolazione
Inglese Femminile in età 20-45 anni si è osservato che 12
(15%) soffrono di Asma.
  Cosa possiamo dire riguardo la proporzione (Prevalenza) di
donne con Asma nella Popolazione Inglese Femminile in età
20-45 anni?
0.15 ! (1 - 0.15)
95%CI = 0.15 ± 1,96 !
80
= 0.15 ± 1,96 ! 0,0399

15% ( 7,18% - 22,82%)

  Perciò possiamo affermare con il 95% di probabilità che la


“vera” prevalenza di Asma nella Popolazione Inglese
Femminile in età 20-45 anni si colloca nell’intervallo (7,18%–
22,82%) di cui il 15% è la nostra migliore stima puntuale.
Verifica delle Ipotesi
  Una Ipotesi Statistica è un affermazione riguardante un Parametro
incognito di una Popolazione, o più in generale una Distribuzione

  Una Ipotesi viene sottoposta a verifica applicando un appropriato


Test Statistico, su uno o più campioni di osservazioni (Verifica delle
Ipotesi)

  Anche in questo caso il processo di induzione (inferenza) dal


campione alla popolazione ci porta a dover gestire un certo margine
di incertezza.

  Quindi qualsiasi decisione nell’accettare o rifiutare un’ipotesi viene


accompagnata da un livello di probabilità
  Test basati su un solo campione

  Test basati sul confronto tra 2 o più campioni:


tra trattamenti: verificare l’efficacia di un trattamento A vs B
tra gruppi: verificare > incidenza tumore polm. tra fumatori e non
L ipotesi Nulla: H0
  Rappresenta l asserzione da testare (sottoporre a
verifica)
  ATTENZIONE: quasi sempre è la NEGAZIONE dell’ipotesi
di ricerca che ha motivato uno studio epidemiologico
  L’altezza media degli italiani maschi alla visita di leva è 167 cm (Fonte ISTAT 1937)

  Il livello di ematocrito nel sangue è lo stesso tra uomini e donne


  Il peso del bimbo alla nascita è uguale tra donne fumatrici e non
  I 2 farmaci A e B sono ugualmente efficaci

  In genere del tipo = , ≤ , ≥


  H0: µ = 167 cm
  H0: µ1 = µ2 oppure H0: µ1- µ2 = 0 oppure H0: µ1/µ2 = 1
L ipotesi Alternativa: H1
  E l opposto dell ipotesi Nulla
  quasi sempre rappresenta l’ipotesi di ricerca
  L’altezza media dei maschi italiani alla visita di leva è diversa da 167 cm
  Il livello di ematocrito nel sangue è diverso tra uomini e donne
  Il peso del bimbo alla nascita è minore nelle donne fumatrici
  Il farmaco A è più efficace del farmaco B

  In genere del tipo ≠ , > , <


  H1: µ ≠ 167 cm
  H0: µ1 ≠ µ2 oppure H0: µ1- µ2 ≠ 0 oppure H0: µ1/µ2 ≠ 1
Step della verifica delle ipotesi
(continua)
  Formuliamo H0: Altezza media nella popolazione è 167 cm
H0: µ = 167 cm H1: µ ≠ 167 cm

  Estraiamo un campione di numerosità ad es. n=80 e


calcoliamo la media delle altezze nel campione.
Otteniamo m=174 cm con una Dev. St. s= 14 cm
Popolazione

Campione
Step della verifica delle ipotesi
(continua)
  Osserviamo che m = 174 cm è maggiore di H0: µ = 167 cm

  Questa differenza che abbiamo osservato può essere dovuta al caso


ovvero al campionamento?

  Come facciamo a decidere se H0 è vera o no? Ovvero ad accettare o


rifiutare H0? Ovvero ad attribuire o no al caso la differenza osservata?

  Per decidere dobbiamo rispondere alla seguente domanda:


Se l’ipotesi nulla H0 fosse vera, quale sarebbe la probabilità di ottenere
una media campionaria osservata m tanto (o più lontana) dal valore
medio atteso µ?

In generale quale sarebbe la probabilità di ottenere i valori campionari


osservati (o valori ancora più estremi) se fosse vera H0?

  Questa probabilità è nota in statistica inferenziale con il nome di p-value


Step della verifica delle ipotesi
(continua)
Al fine di prendere una decisione se accettare o meno H0, si può
 
procedere in 2 modi del tutto equivalenti:

1 Si individuano 2 regioni di valori:


Distribuzione media campionaria quando è vera H0

14 / 80

2.5% 95% 2.5%

163,89 167 170,11 174


X
Regione di Regione di Regione di
Rifiuto H0 Accettazione H0 Rifiuto H0
In base a dove cade il valore campionario stimato si accetta (se cade nella
Regione di accettazione) o rifiuta (se cade nella regione di Rifiuto) H0 con
un livello di probabilità (in genere 5% = prob. di errore di tipo I)
Step della verifica delle ipotesi
2 Si calcola una funzione dei dati campionari detta Statistica Test,
valore osservato - valore ipotetico (H 0 ) valore osservato 1 - valore osservato 2 - 0
statistica test = oppure
errore standard osservato errore standard basato sui 2 campioni

di cui è nota la distribuzione sotto l’ipotesi H0.


Ricorrendo alle tavole si calcola quindi la probabilità di ottenere un valore della
!
statistica test pari (o più estremo di quello osservato): il p-value appunto
Distribuzione media campionaria quando è vera H0
Stat. Test = 4,47
P-value = 0,0001

167 174
X
Se H0 vera, la prob. di ottenere 174 (o più) da un campione è molto bassa,
Circa 1/10000. Se p ≤ 0.05 rifiuto H0 altrimenti se p > 0.05 accetto H0
Scegliere la procedura statistica
Distribuzione Normale Ranghi, Punteggi, Variabili dicotomiche
oppure Distribuzione Non normale (2 Possibili Outcome)
grandi campioni (su piccoli campioni)

Confrontare 1 campione con t Test per un campione Wilcoxon Test Chi-quadrato Test o
valore incognito della Test Binomiale
popolazione
Confrontare 2 campioni Unpaired t Test Mann-Whitney Test Chi-Quadrato Test
non appaiati (indipendenti) F di Fisher Test
Confrontare 2 campioni Paired t Test Wilcoxon Test McNemar's Test
appaiati
Confrontare 3 o + campioni One-way ANOVA Kruskal-Wallis Test Chi-quadrato Test
non appaiati (indipendenti)
Confrontare 3 o + campioni Misure Ripetute ANOVA Friedman Test Cochrane Q Test
appaiati
Quantificare l associazione Correlazione di Pearson Correlazione di Spearman Coefficienti di Contingenza
tra 2 variabili
Predire il valore a partire da Regressione lineare semplice Regressione non parametrica Regressione Logistica
un altra variabile misurata Regress. non lineare semplice

Predire il valore a partire da Regressione lineare Multipla Regress. Logistica Multipla


molte variabili Regressione non lineare Mult.
Confrontare la sopravvivenza Log Rank Test
tra 2 campioni
Tipologia degli errori
nei Test Statistici
(continua)
  Errore di I Tipo
  Rifiutare H0 quando questa è vera

  La probabilità dell errore di Tipo I si indica con α

  Anche chiamato livello di significatività del test


  Definito in anticipo (in genere 0.05 ovvero 5%)

  Il suo complemento (95%) viene chiamato livello di confidenza

  α è considerato un errore molto grave per questo fissato molto piccolo

  Errore di II Tipo
  Non Rifiutare H0 quando questa è falsa

  La probabilità dell errore di tipo II si chiama β

  (1- β) è anche nota come la Potenza di un Test ovvero la sua capacità di


rifiutare H0 quando questa è falsa
Tipologia degli errori
nei Test Statistici
Se Prob. errore I Tipo ( α )
H0 H1
allora prob. Errore II Tipo ( β )

β α
Valore Critico Casi Possibili
Ceteris paribus,
Realtà
β quando la distanza tra H0 e H1
Decisione H0 Vera H0 Falsa
β quando α
Non Rifiutare H0 No Errore Err. Tipo II
Prob. 1 - α Prob. β
β quando σ

β quando n Rifiutare H0 Err. Tipo I No Errore


Prob. α Prob. 1 - β
Dimensionamento
(continua)
Esiste un legame tra tutte le grandezze
precedentemente definite. Pertanto:

1 fissato Il valore di α = 0.05 (molto piccolo),

2 nota la variabilità delle misure che si confrontano (σ),

3 Scelta (!!!) la differenza che ci si aspetta di trovare


ovvero la misura di effetto che si vuole essere in grado
di evidenziare come significativa con lo studio,
oppure
Il livello di precisione delle stime ottenute in termini di
intervalli di confidenza al livello (1- α)
Dimensionamento
4 Bisogna trovare quella dimensione campionaria
(numero di unità n nel campione) che mi consentono
di avere una potenza del test (1-β) elevata in genere
0.80
Esistono formule specifiche per il calcolo di n a seconda:
•  dei parametri su cui si vuole fare inferenza (proporzione, media, Odds Ratio, …),
•  dell’eventuale modello statistico utilizzato (Modello di Regressione, …),
•  del tipo di studio (Coorte, Caso controllo, …)
•  del disegno di campionamento e/o randomizzazione (campionamento semplice, a cluster, …)

Riferimenti bibliografici:
C D Florey. Sample size for beginners. BMJ. 1993 May 1; 306(6886): 1181–1184.
Software libero: PS: Power and
http://biostat.mc.vanderbilt.edu/twiki/bin/view/Main/PowerSampleSize Sample Size
Calculator