Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Statistica descrittiva
Popolazione e campione
Per effettuare uno g di oggetti di numerosità finita o infinita oggetto della nostra ricerca.
Campione: insieme di numerosità finita di oggetti o individui estratti da una popolazione di riferimento.
Campionamento
Popolazione Campione
Interferenza
Tipi di studio
Sulla base del ruolo del ricercatore:
-Studio osservazionale: non presuppone alcun intervento da parte del ricercatore sul campione in esame.
-Studio di intervento (clinical trials): comportano un intervento da parte del ricercatore sul campione e nella
rivelazione del cambiamento così indotto.
Sulla base della relazione temporale tra l’insorgenza della malattia in studio e le variabili ad essa associate:
-Studio trasversale: la malattia e le variabili che la caratterizzano sono misurate contestualmente.
-Studio prospettico: i potenziali determinanti di una malattia (predittori) sono misurati prima dell’insorgenza della
malattia (outcome).
-Studi retrospettivi: i predittori sono misurati retrospettivamente dopo dell’insorgenza della malattia.
Variabili
La statistica medica studia i criteri di classificazione, sintesi e rappresentazione dei dati raccolti studiando una
popolazione o un campione.
Viene definita statistica una qualsiasi quantità calcolata a partire dai dati osservati su un campione.
Una variabile è una qualsiasi quantità o caratteristica che può assumere diversi valori in persone diverse o momenti
diversi.
Le variabili qualitative o categoriche sono variabili per le quali la scala di misura consiste in un insieme finito di categorie:
-Nominali: non hanno un ordine naturale (luogo di nascita, gruppo etnico, …).
-Ordinali: hanno un ordine naturale (classe sociale).
-Binarie: possono assumere solo due livelli (sesso, odio i trans).
Le variabili numeriche sono variabili misurate su una scala numerica, esse possono essere categorizzate in variabili
ordinali:
-Discrete: possono assumere valori in un insieme numerabile.
-Continue: possono assumere qualsiasi valore entro un intervallo finito o infinito di variazione. Il tempo all’evento è un
particolare tipo di variabile continua che misura il tempo che trascorre prima del verificarsi di un dato evento.
Le frequenze
Frequenza assoluta: numero di osservazioni in una data categoria.
Frequenza relativa: proporzione di ogni categoria rispetto al totale.
Frequenza cumulativa: numero di osservazioni con valori di X uguali o inferiori a quello osservato (o nella
categoria osservata o in quelle inferiori).
Quantili e percentili
I quantili di un campione corrispondo ai valori di X che dividono l’insieme ordinato dei dati in parti uguali.
Come si calcola un percentile di grandezza P:
Esempio: 1, 3, 5, 6, 7, 8, 9, 10, 10, 23 BOX-PLOT
25-esimo centile: (25(10+1))/100= 2.75° valore della serie ordinata, cade tra il
secondo e il terzo valore, ossia fra 3 e 5, quindi il primo quartile è (3+5)/2= 4. ↑
T
Misure di centralità
Moda: è il valore più frequente di X.
Mediana: è il valore x di X tale che il 50% dei valori di X sono minori di x.
Media campionaria:
Misure di dispersione
Range di variazione: intervallo di valori di X compresi tra x (minimo) e X (massimo).
Range interquartile: intervallo dei valori di x compresi tra il 1° e il 3°quartile, entro il range interquartile cadono il 50%
dei valori di X.
Varianza campionaria:
7
Deviazione standard: SD = s
Fenomeno o esperimento casuale
Un fenomeno o un esperimento il cui risultato non è predeterminato viene detto casuale. L'insieme dei possibili risultati
viene detto spazio campionario e lo indicheremo con S.
Un evento è un sottoinsieme dello spazio campionario, cioè un insieme di possibili risultati del fenomeno o esperimento
casuale.
Variabili casuali
Una variabile casuale è una qualsiasi caratteristica numerica aleatoria. Una variabile casuale può essere di due tipi:
• discreta, quando può assumere un numero finito o numerabile di valori (numero di visite dal dentista in un anno,
numero di figli, ...)
• continua, quando può assumere qualunque valore reale all’interno di un certo intervallo (altezza, peso, ... )
Ogni variabile casuale X ha una distribuzione di probabilità.
La distribuzione binomiale
Siamo interessati alla probabilità che una certa caratteristica sia presente in x soggetti di n selezionati a caso da una
popolazione.
La variabile X numero di successi su n prove indipendenti, ciascuna con probabilità di successo 𝜋, ha una distribuzione
binomiale di parametri 𝑛 e 𝜋 ->𝑋~𝐵𝑖𝑛(𝑛, 𝜋)
Si può dimostrare (grazie al calcolo combinatorio) che la probabilità di ottenere x successi su n prove è
La normale
Per indicare che una variabile casuale X ha distribuzione
normale o
gaussiana si scrive 𝑋 ∼ 𝑁(μ, 𝜎^2), dove μ è la media e σ^2 è la
varianza
La sua densità di probabilità f è tale che:
• è simmetrica rispetto alla media μ (che quindi è anche
mediana)
• ha un massimo per 𝑥 = 𝜇 (che quindi è anche moda)
• 𝜇 − 𝜎 e 𝜇 + 𝜎 sono punti di flesso (la concavità passa dall’alto
verso il basso o viceversa)
3. Distribuzioni campionarie
Statistica inferenziale
La statistica descrittiva descrive le caratteristiche di un campione, mentre quella inferenziale estende i risultati
ottenuti ad un campione alla popolazione dalla quale ho estratto il campione.
Distribuzioni campionarie
Consideriamo la media campionaria di X, supponiamo di voler trovare il quoziente intellettivo medio u, della
popolazione di studenti delle università italiane sulla base di un campione estratto da questa popolazione.
Se estraiamo n campioni dalla popolazione ognuno avrà la sua media campionaria.
Se valore della media campionaria è considerato come una singola osservazione, la distribuzione di probabilità della
variabile X è la distribuzione delle medie dei campioni di dimensione n.
-Se X è distribuita come una normale con media u e varianza o^2, allora
Ricavo poi una regione, detta «critica» o «di rifiuto», di valori estremi
della statistica test la cui probabilità complessiva 𝛼 sotto ipotesi nulla è
piccola (in genere si fissa 𝛼 = 0.05).
Errore del II tipo: non rifiutare l’ipotesi nulla quando questa è falsa
• 𝛽 = 𝑃(𝑛𝑜𝑛 𝑟𝑖𝑓𝑖𝑢𝑡𝑜 𝐻0 | 𝐻0 è 𝑓𝑎𝑙𝑠𝑎)
• 1 − 𝛽 = 𝑃(𝑟𝑖𝑓𝑖𝑢𝑡𝑜 𝐻0 | 𝐻0 è 𝑓𝑎𝑙𝑠𝑎), detta potenza, rappresenta la
probabilità di prendere una decisione corretta quando è falsa l’ipotesi nulla
Test direzionali e non direzionali
Le ipotesi alternative che è possibile formulare sono
di due tipi:
• non direzionali: stabiliscono che il parametro è Ho =
MaNo
diverso, a meno della variabilità casuale, dal valore
secondo l’ipotesi nulla. La regione di rifiuto
corrisponde ad un’area di 𝛼, complessivamente. In
questo caso si parla di test a due code, bilaterale o
non direzionale.
• direzionali: l’ipotesi alternativa stabilisce che il
e
parametro è superiore (o inferiore) al valore secondo
l’ipotesi nulla. La regione di rifiuto corrisponde ad 𝛼
unilateralmente. Si parla di test ad una coda,
unilaterale o direzionale.
Test d’ipotesi per una media 𝝁 con varianza nota se n ( numerosità campione ) > 30
Ho in un test d'ipotesi
E Ha Memo /Zebsl=/F-Mk
Ho : Mino RIFIUTO
Zen
A UN LIVELLO DI e con complone=30
:
significatività 2 = 0 05
.
se :
ma o nota uo Z
Distribuzione t-student
Supponiamo di avere un campione di n soggetti da una popolazione normale X con media 𝜇 sconosciuta e varianza 𝜎
sconosciuta.
Possiamo calcolare la media campionaria 𝑥, che sappiamo essere una stima puntuale di 𝜇. Possiamo inoltre
calcolare la varianza campionaria 𝑠^2, stima puntuale della varianza della popolazione.
Te
Se n NON è sufficientemente grande, la distribuzione la campionaria di 𝑋 è tale che:
ho
-
HO
Itobsl trE
RIFIUTO AD UN LIVELLO
M-1
gradiditbente
=
, M-1
in
=
Di SIGNIFICATIVITÀ se :
Esempio :
Si estrae da una popolazione affetta da una certa patologia un campione casuale di 25 soggetti, su cui si trova che il
valore medio di colesterolemia è di 270 mg/dl e che la deviazione standard è s = 79. Nella popolazione dei soggetti
sani il livello di colesterolemia ha distribuzione normale con media 210 mg/dl. Verificare se ci sia evidenza
statistica di una differenza della colesterolemia media nella popolazione dei sani e dei malati a un livello di
significatività dell’1%.
Formuliamo ipotesi nulla e ipotesi alternativa: 𝐻 : 𝜇 = 210 𝑣𝑠 𝐻 : 𝜇 ≠ 210
Calcoliamo la statistica test:
Fobs-Ma 270 -
210 = 3 79
tobs=
.
=
Is
In E5
Itabsl = 3 75
. 2 .
797= to %5 .
.
24 =
Riferte Ho ad un a = 0 0
.
G
Test d’ipotesi per una proporzione 𝝅
Consideriamo un campione casuale tratto da una
popolazione con proporzione di successi 𝜋.
Assumiamo che:
• 𝑛𝜋0 > 5
• 𝑛 (1 − 𝜋0) > 5
Calcoliamo la proporzione di successi osservati 𝑝.
Una ditta farmaceutica asserisce che un suo farmaco è efficace nel 90% dei casi. In un campione di 50 persone che lo
hanno usato, il farmaco si è rivelato efficace in 40 casi. Stabilire se l’affermazione della ditta farmaceutica è legittima
con un livello di significatività uguale a 0.05
Formuliamo ipotesi nulla e ipotesi alternativa: 𝐻 : 𝜋 = 0.90 (𝜋0) 𝑣𝑠 𝐻 :𝜋≠ 0.90 (𝜋0)
Calcoliamo la statistica test:
Test d’ipotesi per la differenza tra due medie 𝜇2 − 𝜇1 con due campioni
Siamo interessati al confronto tra due gruppi ed in particolare a stabilire se questi provengono da una stessa
popolazione o da due popolazioni diverse.
Si distinguono due diverse situazioni:
• Campioni appaiati: i due campioni sono dipendenti, selezionati in base ad un insieme di caratteristiche comuni (es.
due misure sullo stesso soggetto, prima e dopo un certo intervento).
• Campioni indipendenti: i due campioni sono selezionati in modo indipendente l’uno dall’altro.
Test d’ipotesi per la differenza tra due medie 𝜇2 − 𝜇1 con due campioni appaiati
Test d’ipotesi per la differenza tra due medie 𝝁𝟐 − 𝝁𝟏 con campioni indipendenti e 𝝈1 = 𝝈𝟐
In uno studio clinico volto a valutare l’efficacia di un certo trattamento vengono arruolati 14 pazienti, che vengono
divisi in modo casuale in due gruppi. Il primo gruppo di 8 soggetti viene sottoposto a un trattamento per l’ipertensione,
mentre il secondo gruppo di 6 soggetti viene sottoposto a placebo. Si misura la differenza (prima-dopo) di pressione
diastolica prima e dopo un certo numero di giorni di trattamento.
Si vuole valutare se il farmaco ha diversa efficacia rispetto al placebo
Placebo: 7, 12, -4, 16, -16, 15 Trattati: 18, -5, 19, 19, 24, 5, 16, -2
Test d’ipotesi per la differenza tra due medie 𝝁𝟐 − 𝝁𝟏 (campioni indipendenti e 𝒏𝟏 ≥ 𝟑𝟎 e 𝒏𝟐 ≥ 𝟑𝟎)
Se 𝝈1 e 𝝈𝟐 sono non note e diverse e i due campionisufficientemente grandi (tipicamente si assume 𝒏𝟏 ≥ 𝟑𝟎 e 𝒏𝟐 ≥ 𝟑𝟎),
uso come statistica test
Intervallo di confidenza
Un intervallo di confidenza (IC) al (1-α) x 100% per il parametro è un intervallo di valori determinati dal
campione che immaginando di ripetere il campionamento, include il parametro l’(1-α) x 100% delle volte.
L’intervallo di confidenza rappresenta una stima intervallare del parametro.
Interpretazione del CI
Indichiamo con una precisione del 1-α che la media u della popolazione è contenuta in quel intervallo.
IC per una media u con o^2 nota
Si ottiene quindi:
Chi quadrato
Tabelle H x K:
Criterio di Cochrane: meno del 20% dei valori attesi devono essere inferiori a 5 ed in ogni caso > 1. Se questa
condizione non sussiste possiamo combinare insieme righe o colonne (purché abbia senso farlo).
Test esatto di Fischer: quando queste condizioni non persistono è possibile applicarlo.
Usare Z al posto del chi quadrato
Nelle tabelle 2x2 è possibile usare Z per il confronto di due proporzioni se n1 >> 1 e n2 >> 2. Possiamo anche applicare
il chi quadro che in questo caso coincide con Z. Le condizioni per applicare Z sono le stesse del chi quadrato.
• SStra = devianza delle medie dei gruppi rispetto alla media generale (devianza tra
gruppi) =somma degli scarti quadratici TRA gruppi
Variabilità entro gruppo
La devianza dei valori rispetto alla media del corrispondente gruppo
(devianza entro gruppo o devianza residua) può essere espressa come:
Variabilità tra gruppi
La devianza delle medie dei gruppi rispetto alla media
generale (devianza tra gruppi) può essere espressa come:
Tabella riassuntiva
I parametri 𝛼 e 𝛽 definiscono univocamente una retta nel piano XY. Con a e b si indicano i valori di 𝛼 e 𝛽 che si stimano dai
dati.
Con questa formula si indicano i valori di 𝑦𝑖 predetti dalla retta di regressione. Gli
scostamenti verticali delle osservazioni dalla retta, ossia le quantità
si chiamano RESIDUI.
Con le lettere greche si indicano i valori veri dei parametri (𝛼, 𝛽) e dei residui (𝜖i), con le lettere latine i corrispondenti
valori stimati dai dati (a, b, ei).
Come trovare a e b
Test d’ipotesi sui parametri 𝛼 e 𝛽
H0: 𝛽=0 ossia l’ipotesi nulla che non ci sia dipendenza lineare tra la variabile di esposizione X e la variabile di outcome Y.
Ha: 𝛽≠0 ossia l’ipotesi che esista una dipendenza lineare tra X e Y.
Sotto H0 ho la statistica b/SE(b) che è distribuita come una t Student con n-2 gradi di libertà.
Sotto Ha ho la statistica a/SE(a) che è distribuita come una t Student con n-2 gradi di libertà.
Quando si effettua un test d’ipotesi dal coefficiente angolare di X nel modello 𝑦i = 𝛼 + (𝛽 𝑥i) + 𝜀i le ipotesi sono quelle precedenti, un
test statisticamente non significativo suggerisce che la relazione tra X ed Y non è lineare, tale relazione potrebbe essere:
Predire
L’equazione di regressione si può usare anche per stimare il valore medio y per in dato valore di x=x0 e
calcolare il suo errore standard.
SE(E(y0)), e quindi l’ampiezza del 95% del CI, è minimo per x0=x ed aumenta quanto più x0 si allontana dal valore medio x.
L’errore standard della singola predizione è maggiore dell’errore del valore atteso e tiene conto della distribuzione dei valori
di Y attorno alla loro media. Si calcola come errore della quantità:
Correlare
La forza dell’associazione lineare fra esposizione ed outcome si misura attraverso la loro correlazione r:
-𝑎: è la stima del parametro intercetta 𝛼; rappresenta il peso medio che si avrebbe per altezza = 0. È un valore privo di
significato perché corrisponde ad una stima di Y al di fuori del range di variazione delle X del campione.
Per dare significato alla stima di 𝛼 occorrerebbe effettuare una regressione in cui la variabile X si centra intorno alla
media campionaria 𝑥̅ : 𝑋′ = 𝑋 − 𝑥̅ . In questo caso nella retta di regressione yi = 𝛼 + 𝛽 1 𝑥𝑖′ + 𝜀𝑖 la stima di 𝛼
corrisponderebbe al valore della Y per 𝑋’ = 0 ossi 𝑋 = 𝑥̅ .
-b: è la stima del parametro intercetta 𝛽; rappresenta di quanto aumenta il peso all’aumentare unitario dell’altezza:
𝑝𝑒𝑠𝑜 (𝑎𝑙𝑡𝑒𝑧𝑧𝑎+1) −𝑝𝑒𝑠𝑜 (𝑎𝑙𝑡𝑒𝑧𝑧𝑎) = 𝑎 + 𝑏 (𝑎𝑙𝑡𝑒𝑧𝑧𝑎) +𝑏 − 𝑎 − 𝑏 𝑎𝑙𝑡𝑒𝑧𝑧𝑎 = b
Regressione lineare con una variabile dipendente categorica -Significato dei coefficienti
Regressione lineare multipla
Ciò che abbiamo visto con la presenza di un solo predittore X1 può essere esteso al caso di più predittori X1, X2, …, Xm
Y deve essere sempre variabile continua e distribuita normalmente.
Nel caso con 2 predittori X e Z la relazione lineare sarà:
Anche in questo caso è possibile saggiare l’ipotesi nulla che il generico coefficiente angolare associato ad una variabile
sia uguale a zero, ossia Y non dipenda dalla variabile in questione, la statistica in questo caso:
p= numero di parametri della retta (numero coefficienti angolari + intercetta). Nel caso di due predittori p=3.
19
Di quanto differisce lo
spessore IMT fra due soggetti
aventi X pari a 1 e -1,
rispettivamente?
Disegno dello studio
La ricerca medica si propone di:
• studiare la distribuzione di una condizione Gli studi possono essere:
patologica
nella popolazione (studi di prevalenza);
• di quantificare il rischio che un individuo
sviluppi tale condizione (studi di incidenza) Studi osservazionali, come Studi di intervento
• di determinare i fattori associati a tale studi caso-controllo o studi come studi clinici
condizione di coorte che non randomizzati, che
(studi di associazione); comportano alcun comportano un
• di identificare gli interventi più efficaci per il intervento da parte del intervento da parte del
suo trattamento (studi clinici di intervento). ricercatore sul campione in ricercatore sul campione
esame o su una parte di esso e
Svantaggi nella rilevazione del
Vantaggi • Non adatto per cambiamento così
• L’esposizione è malattie rare indotto. Svantaggi
misurata • Potenzialmente • Non adatto per
prima della malattia lunghi e costosi esposizioni rare
• Si possono • Selezione dei
studiare controlli
esposizioni rare problematica
Vantaggi
• Costi contenuti
• Si possono studiare
malattie rare e malattie
a lunga induzione/
Misure di frequenza e di associazione latenza
Vogliamo misurare:
Frequenza: Associazione
• prevalenza • rischio attribuibile
• rischio d’incidenza • rischio relativo
• tasso d’incidenza • odds ratio
• odds
Prevalenza
La prevalenza di una condizione (p.e. malattia) in un dato istante è la proporzione di soggetti che presentano la
condizione in quell momento.
Rischio d’incidenza
Il rischio d’incidenza è la probabilità di sviluppare l’evento in
un certo intervallo dato di tempo. Si stima come il rapporto
tra il numero x di nuovi casi sul totale n dei soggetti iniziali
Il rischio è stimabile come 𝑅 = 𝑛 solo se non abbiamo soggetti
persi al follow-up cioè durante il caso.
Tasso d’incidenza
Misure di associazione
Supponiamo di volere valutare l’associazione tra lo sviluppo di una malattia e un fattore di esposizione, cioè se e
quanto la probabilità di sviluppare la malattia (rischio di incidenza) cambi tra esposti e non esposti al fattore.
Rischio relativo
• 𝑅𝑅=1 𝑛𝑜𝑛 𝑎𝑠𝑠𝑜𝑐𝑖𝑎𝑧𝑖𝑜𝑛𝑒: 𝑃(𝑀+|𝐸+) =𝑃(𝑀+|𝐸−)
• 𝑅𝑅>1𝑓𝑎𝑡𝑡𝑜𝑟𝑒 𝑑𝑖 𝑟𝑖𝑠𝑐h𝑖𝑜: 𝑃(𝑀+|𝐸+) >𝑃(𝑀+|𝐸−)
• 𝑅𝑅<1𝑓𝑎𝑡𝑡𝑜𝑟𝑒 𝑝𝑟𝑜𝑡𝑒𝑡𝑡𝑖𝑣𝑜: 𝑃(𝑀+|𝐸+) <𝑃(𝑀+|𝐸−)
•
• Per malattie rare gli odds sono all’incirca uguali alle rispettive
probabilità
Inferenza sull’OR
Per l’inferenza si usa il log(𝑂𝑅) perché, a differenza di 𝑂𝑅,
ha distribuzione approssimativamente normale attorno al vero log(𝑂𝑅), con standard
error SE
Sensibilità e specificità non dipendono Se abbiamo un test con più cut-off possiamo rappresentare sul
dalla prevalenza della malattia e piano cartesiano una coppia di (sensibilità) e (1-specificità) per
variano l variare del cut -off. ciascun cut-off.
La curva che unisce le coppie si dice curva ROC.
Valori predittivi
Probabilità che il soggetto sia malato dato che il test è
positivo
Contrariamente alla sensibilità e della specificità, i valori predittivi dipendono dalla prevalenza: all’aumentare della
prevalenza il VPP aumenta e il VPN diminuisce
In un campione di 25 soggetti estratto da una seconda popolazione la media campionaria è uguale a 16.
Si effettua un test d'ipotesi per saggiare l'ipotesi di uguaglianza delle medie delle due popolazioni.
Quale è la stima della differenza fra le medie del marcatore nelle due popolazioni?
Si può affermare ad un livello di significatività del 5% che le medie del marcatore nelle due popolazioni siano
diverse?
Abbiamo una fiducia del 95% che la differenza tra le medie di popolazione, 𝜇2− 𝜇1, sia
un valore compreso tra 0.55 e 3.45. Poiché lo 0 (valore per il quale la differenza è nulla
e le due medie sono uguali, 𝜇2 = 𝜇1) non è compreso in questo intervallo, possiamo
rigettare a un livello di significatività del 5% l’ipotesi nulla 𝜇2 = 𝜇1: c’è cioè evidenza che
siano diverse.
Un campione di pazienti affetti da una patologia gastrointestinale partecipa ad un clinical trial che mette a
confronto una nuova terapia con la terapia tradizionale. Alla fine del trattamento, fra i pazienti trattati con la
nuova terapia 25 sono in remissione, 10 non hanno subito variazione e 15 sono peggiorati; fra i pazienti
trattati con la terapia standard, 20 sono in remissione, 12 non hanno subito variazione e 18 sono peggiorati.
Sulla base dei risultati del primo studio, si può affermare che esiste associazione fra
tipo di terapia ed esito del trattamento se si è disposti a commettere un errore del 5% nel
caso l'ipotesi nulla fosse vera e noi la rigettassimo?
In un test d’ipotesi, l’ipotesi nulla esprime
Ipotesi nulla
Esiste associazione fra terapia ed esito sempre uguaglianza, assenza di effetto o
Non esiste associazione fra terapia ed esito di associazione, mentre l’ipotesi
alternativa (quella che il ricercatore
Ipotesi alternativa
vorrebbe dimostrare) esprime nessi tra le
Non esiste associazione fra terapia ed esito
Esiste associazione fra terapia ed esito variabili, quindi differenza, effetto o
associazione.
Valore di soglia:
Si può concludere con un livello di significatività del 5% che la relazione tra variazione
di indice di massa ventricolare sinistra e variazione della pressione arteriosa è lineare?
Se la deviazione standard della variazione di LVMI è 11.02 e la deviazione standard della variazione della
pressione sistolica è 17.32, quale è la correlazione fra le due variabili?
Se la stima dell’intercetta è uguale a zero, quale è il valore atteso della variazione di LVMI per un soggetto che
presenta un aumento della variazione della pressione sistolica pari a 20 mmHg?
In una coorte di n soggetti, alla baseline 100 sono sovrappeso e 100 sono normopeso. Dopo 10 anni di follow-up, 25 pazienti del
primo gruppo e 15 del secondo hanno sviluppato eventi cardiovascolari (CVD).
Si può affermare che esiste associazione fra peso alla baseline e CBD durante il follow-up al livello di significatività del 5%?
No, perche il 95% CI non contiene 1
No, perche il 95% CI non contiene 0
Si, perché il 95% CI contiene 1
No, perché il 95% CI contiene 1
Si, perché il 95% CI non contiene 1
Nella popolazione sana un marcatore è distribuito normalmente. Per usare tale marcatore come test diagnostico si
sceglie un cut-off per il quale la sensibilità è 0.80 e la specificità è 0.95.
Il cut-off è quindi il 95-esimo percentile della distribuzione dei sani (una normale con media
𝜇 = 0 e standard deviation 𝜎 = 1, cioè la normale standardizzata Z) cioè dalle tavole 1.64. Se
viceversa la distribuzione dei malati fosse stata a sinistra dei sani avremmo scelto il quinto
percentile (-1.64).
Un marcatore sierico X è distribuito normalmente nella popolazione sana con media μ = 10 e varianza
σ2 = 100.
1) Calcolare i quartili della distribuzione, ossia i valori q1, q2, q3 del marcatore per i quali P(X<q1) =
0.25, P(X<q2) = 0.50 e P(X<q3) = 0.75.
2) Se si estrae un campione di numerosità 25, qual è il numero atteso di soggetti con valori del
marcatore compresi fra 8 e 12?
3) Qual è la probabilità che la media campionaria di tale campione assuma valori compresi fra 8 e 12?
L’altezza di una popolazione maschile è distribuita normalmente con media 172 cm e SD 5 cm. 1) In questa popolazione
qual è la percentuale di maschi con altezza superiore a 165 cm?
2) In questa popolazione qual è la percentuale di maschi con altezza compresa fra 165 e 180 cm? 3) Se su un campione di
16 maschi coetanei si misura una altezza media pari a 175 si può affermare che questo rappresenta un campione casuale
della popolazione in oggetto effettuando un test con un livello di significatività dello 0.01?
a Test d'ipotesi . 4 Ak
5
Due gruppi di 5 ratti ciascuno vengono sottoposti ad una dieta con alto e con basso contenuto calorico. Il guadagno di peso
intorno al 50esimo giorno di età del gruppo con dieta ad alto contenuto calorico è riportato in tabella, mentre la media e la SD
del gruppo con dieta a basso contenuto proteico sono rispettivamente 96.2 e 18.9 grammi.
gruppo dieta ad alto contenuto proteico: 134 146 104 119 124.
1) Formulare l’ipotesi nulla e l’ipotesi alternativa relativamente all’effetto della dieta sul guadagno di peso
2) Calcolare la media campionaria e la deviazione standard dei guadagni di peso del gruppo con dieta ad alto contenuto
proteico.
3) Effettuando un test al livello di significatività dell’5% a quale conclusione si giunge relativamente all’effetto del tipo di dieta
sul guadagno di peso?
4 .
19 82 + 4 .
15. 82
5 = mB
Sp=
.
5 = mA
te
= 17 ,
36
↓ = 18 . 9 ↓ 8
49.
=
t to 975 % 8
,
657
.
= = 2, =
2 , 306
,
referto Ho
-
Chi-quadro e anova
. 3Ak
6
Un campione composto da 48 uomini e 46 donne viene sottoposto ad un trattamento per l'emicrania. Dopo un mese, 33
partecipanti, fra cui 21 uomini, dichiara di non aver tratto giovamento dal trattamento; altri 12 uomini dichiarano di aver
tratto moderato giovamento dal trattamento e 24 donne di averne tratto forte giovamento.
1) Costruire la tabella di contingenza della distribuzione del risultato del trattamento fra uomini e donne.
2) Se si trattassero 100 uomini e 100 donne, quale proporzione totale se ne attenderebbe con forte giovamento?
3) Possiamo concludere con un livello di significatività del 5% che il trattamento abbia un effetto diverso fra uomini e donne?
X
12 MG FG
Ai NGMG FG
21NG 15
; ; Di NGMG FG
48mU12NG 4 , 68 + 5 99
refate Ha
=
. non
: 144 .. 245
j 21121548 ~ 17
1124840 95 % 2 ,
=
5 1 99
D 12102446 D16111946
Mu = 0 , 51
33223994 33223994
6 7
.
In un grande azienda si vuole rilevare la qualità del sonno nelle varie categorie di lavoratori. Si campionano 60 lavoratori del
settore amministrativo, 60 del settore produttivo e 60 del settore distributivo. Le medie e deviazioni standard dei tre gruppi
sono rispettivamente:
ESD
1) Si calcoli la media totale della qualità del sonno sul campione.
SA 4 37.
1 2) Si calcoli l’intervallo di confidenza del 95% della media della qualità del sonno fra i lavoratori del gruppo
amministrativo.
SP 4 89 . 1 3) Se la devianza totale della qualità del sonno è 186 e la devianza residua è 160, si può affermare con un
livello di significatività dell'1% che le medie della qualità del sonno nei tre settori sono diverse?
SD 3 . 941
Nist= 4,4
IC95/sa =
4 37
.
= 1 96
,
·
5 4 . 12 to 4 62
,
163
SStot =
186 MSentro = = 0. 9
Fobs=
177
He
Senti = 160 SStea=26 MStro .
=
26 = 13
=14 . 44 , 61
refente
2 0 01
Fo sa
=
4 , 61
.
2 =
y
,
; :
In uno studio che ha lo scopo di determinare se le infezioni orali in età pediatrica sono associate a fattori di rischio
cardiovascolare in età adulta, si misura lo spessore intima-media (IMT) dell’arteria carotide in un campione di 755
soggetti e si effettua una regressione lineare con una variabile indice standardizzata di presenza di infezioni orali in età
pediatrica (X), ottenendo un coefficiente angolare di 0.158 il cui errore standard è 0.055.
1) Di quanto differisce lo spessore IMT fra due soggetti aventi X pari a 1 e -1, rispettivamente? 2) Si può affermare ad un
livello di significatività dell’1% che esiste associazione lineare fra infezioni orali in età pediatrica e rischio di eventi
cardiovascolari in età adulta?
3) Qual è il p-value associato alla stima del coefficiente lineare di X?
In uno studio di coorte si identificano due gruppi di individui sulla base dello stato socioeconomico (SES) e si
seguono per un periodo di osservazione di 10 anni: durante il periodo di osservazione nel gruppo a basso
SES di numerosità 9.800.000 si osservano 87.000 morti e nel gruppo ad alto SES di numerosità 6.500.000
se ne osservano 41.000.
1) Qual è il rischio relativo di morire nel gruppo a basso SES rispetto al gruppo ad alto SES?
2) Qual è la proporzione di morti del gruppo a basso SES attribuibili al basso SES (rischio attribuibile a basso
SES ed evitabile se tutti avessero alto SES)?
3) Si stimi l’OR di morte per basso SES, si calcoli il corrispondente 95% confidence interval e si stabilisca se i
dati supportano l’evidenza che SES sia associato al rischio di morte con una significatività del 5%.
.5
8
In uno studio caso-controllo si misura il genotipo fattore 5 Leiden in 2297 soggetti che hanno avuto un evento
tromboembotico venoso (VTE) e in 3188 controlli. Sono risultati portatori di mutazione 428 casi e 144 controlli.
1) Si stimi l’OR di VTR per mutazione nel gene fattore V Leiden.
2) Si calcoli il 95% CI dell’OR di VTR per mutazione nel gene fattore V Leiden nella popolazione.
3) Si può affermare che essere portatori di una mutazione nel gene fattore V Leiden è associato a rischio di VTE?
4) Dallo stesso campione si misura il genotipo sul gene fattore II G20210A. Il 90.6% dei casi ed il 97.1% dei controlli
non sono risultati portatori di mutazione. Qual è il p-value di un test per saggiare l’ipotesi di associazione fra presenza
di mutazione sul gene II G20210A e rischio di VTE?
P(VTRIM)
>428MNM M NM
1)
P(CIM)
2297 VI 2 4 , 84
-
- 1869
OR=P(UTRINM)
=
=
m
3188 =
mC -> 144
3044 NM
M VTR 428 1869 2297
P(CINM) +su =0 ,
10
C14430443188
↑
57249135485 1 , 96 SE
to
.
ICOR95%
2) = 4 , 84 e =
. 97
3 5 9
.
0 3188
.
.
=
P(Mut(VTr)
.
= 0 . 094
. 057
=0
ptot =
5485
VTR 2081 216 2297 p(Mut(C) =
0 03
Test d'ipotesi
.
9-92 =1
(30 tez)
C3696923188
differenza tra due 57/1-0057)
078 Se = 0. 0 00635
per
=
Z = , ,
SE
↓
proporzioni 57933885483
P 0 ,9999
p-velue = 0 , 0001
.
2 =
p-value <0 , 0002
=Test Diagnostici
10 5 .
Supponiamo di aver condotto su 1000 soggetti uno studio sulla sensibilità e specificità di un test diagnostico e di aver
osservato 85 veri positivi, 100 malati, e 700 veri negativi. 1) Costruire la tabella 2x2.
2) Stimare la sensibilità e la specificità del test.
3) Stimare i valori predittivi positivi e negativi del test.
4) Qual è la prevalenza della malattia?
M+ M- 85
Se = 0,
1000 = m P = 03
.
M+ M-
VPP =0 ,
62
T+ 85200285 Sm
0
0 . 78
Prevalenza =>
=
=
0 , 10 + 10% T+ 255154439 VPN
= 0 , 92
goo S
=
T-15 700715
Per
VI T -
45546591
100 900 1000
300 700 oo
T-Student
Chi-quadro