Formule Statistica

1.
Statistica descrittiva
Popolazione e campione
Per effettuare uno g di oggetti di numerosità finita o infinita oggetto della nostra ricerca.
Campione: insieme di numerosità finita di oggetti o individui estratti da una popolazione di riferimento.
Campionamento
Popolazione Campione
Interferenza
Tipi di studio
Sulla base del ruolo del ricercatore:
-Studio osservazionale: non presuppone alcun intervento da parte del ricercatore sul campione in esame.
-Studio di intervento (clinical trials): comportano un intervento da parte del ricercatore sul campione e nella
rivelazione del cambiamento così indotto.
Sulla base della relazione temporale tra l’insorgenza della malattia in studio e le variabili ad essa associate:
-Studio trasversale: la malattia e le variabili che la caratterizzano sono misurate contestualmente.
-Studio prospettico: i potenziali determinanti di una malattia (predittori) sono misurati prima dell’insorgenza della
malattia (outcome).
-Studi retrospettivi: i predittori sono misurati retrospettivamente dopo dell’insorgenza della malattia.
Variabili
La statistica medica studia i criteri di classificazione, sintesi e rappresentazione dei dati raccolti studiando una
popolazione o un campione.
Viene definita statistica una qualsiasi quantità calcolata a partire dai dati osservati su un campione.
Una variabile è una qualsiasi quantità o caratteristica che può assumere diversi valori in persone diverse o momenti
diversi.
Le variabili qualitative o categoriche sono variabili per le quali la scala di misura consiste in un insieme finito di categorie:
-Nominali: non hanno un ordine naturale (luogo di nascita, gruppo etnico, …).
-Ordinali: hanno un ordine naturale (classe sociale).
-Binarie: possono assumere solo due livelli (sesso, odio i trans).
Le variabili numeriche sono variabili misurate su una scala numerica, esse possono essere categorizzate in variabili
ordinali:
-Discrete: possono assumere valori in un insieme numerabile.
-Continue: possono assumere qualsiasi valore entro un intervallo finito o infinito di variazione. Il tempo all’evento è un
particolare tipo di variabile continua che misura il tempo che trascorre prima del verificarsi di un dato evento.
Le frequenze
Frequenza assoluta: numero di osservazioni in una data categoria.
Frequenza relativa: proporzione di ogni categoria rispetto al totale.
Frequenza cumulativa: numero di osservazioni con valori di X uguali o inferiori a quello osservato (o nella
categoria osservata o in quelle inferiori).
Quantili e percentili
I quantili di un campione corrispondo ai valori di X che dividono l’insieme ordinato dei dati in parti uguali.
Come si calcola un percentile di grandezza P:
Esempio: 1, 3, 5, 6, 7, 8, 9, 10, 10, 23 BOX-PLOT
25-esimo centile: (25(10+1))/100= 2.75° valore della serie ordinata, cade tra il
secondo e il terzo valore, ossia fra 3 e 5, quindi il primo quartile è (3+5)/2= 4. ↑
T
Misure di centralità
Moda: è il valore più frequente di X.
Mediana: è il valore x di X tale che il 50% dei valori di X sono minori di x.
Media campionaria:
Misure di dispersione
Range di variazione: intervallo di valori di X compresi tra x (minimo) e X (massimo).
Range interquartile: intervallo dei valori di x compresi tra il 1° e il 3°quartile, entro il range interquartile cadono il 50%
dei valori di X.
Varianza campionaria:
7
Deviazione standard: SD = s
Fenomeno o esperimento casuale
Un fenomeno o un esperimento il cui risultato non è predeterminato viene detto casuale. L'insieme dei possibili risultati
viene detto spazio campionario e lo indicheremo con S.
Un evento è un sottoinsieme dello spazio campionario, cioè un insieme di possibili risultati del fenomeno o esperimento
casuale.
Definizione frequentista di probabilità

Se un esperimento è ripetuto 𝑛 volte in condizioni identiche e se l’evento A si verifica 𝑛(𝐴) volte, la probabilità di A è
definita come il limite del rapporto 𝑛(𝐴)/𝑛 (cioè la frequenza relativa) all’aumentare di 𝑛. Si tratta quindi di un numero
compreso fra 0 ed 1
Definizione assiomatica di probabilità

La probabilità di un evento A è un numero compreso tra 0 e 1: 0≤ 𝑃(𝐴) ≤ 1
La probabilità dell’evento impossibile è 0 (𝑃(∅) = 0) La probabilità dell’evento certo è 1 (𝑃(𝑆) = 0)
Le probabilità di eventi disgiunti (o «mutuamente esclusivi» o «incompatibili») si sommano (cioè se 𝑨 ∩ 𝑩 = ∅ allora
𝑃 (𝐴 ∪ 𝐵) = 𝑃(𝐴)+𝑃(𝐵)
Variabili casuali
Una variabile casuale è una qualsiasi caratteristica numerica aleatoria. Una variabile casuale può essere di due tipi:
• discreta, quando può assumere un numero finito o numerabile di valori (numero di visite dal dentista in un anno,
numero di figli, ...)
• continua, quando può assumere qualunque valore reale all’interno di un certo intervallo (altezza, peso, ... )
Ogni variabile casuale X ha una distribuzione di probabilità.
Variabili casuali discrete

Sia 𝑋 una variabile casuale discreta e supponiamo che essa possa assumere i
valori distinti 𝑥1, ... , 𝑥𝑛.
La distribuzione di probabilità della variabile casuale 𝑋 è la funzione 𝑃(𝑋 = 𝑥𝑘)
con 𝑘 = 1, ... , 𝑛, ovvero è una funzione che associa a ogni valore la
corrispondente probabilità.
Devono essere soddisfatte le seguenti proprietà:
• 𝑃(𝑋 = 𝑥𝑘) ≥ 0 per ogni 𝑥𝑘
• ∑𝑃(𝑋=𝑥𝑘)=1
Variabili casuali continue
Sia 𝑋 una variabile casuale continua
Ad essa è associata una funzione di densità f. La densità di probabilità è una
funzione tale che
l’area sottesa dalla funzione entro due valori rappresenta la probabilità di osservare
𝑋 entro quei valori (P(𝑎 ≤ 𝑋 ≤ 𝑏))
La distribuzione binomiale
Siamo interessati alla probabilità che una certa caratteristica sia presente in x soggetti di n selezionati a caso da una
popolazione.
La variabile X numero di successi su n prove indipendenti, ciascuna con probabilità di successo 𝜋, ha una distribuzione
binomiale di parametri 𝑛 e 𝜋 ->𝑋~𝐵𝑖𝑛(𝑛, 𝜋)
Si può dimostrare (grazie al calcolo combinatorio) che la probabilità di ottenere x successi su n prove è
La normale
Per indicare che una variabile casuale X ha distribuzione
normale o
gaussiana si scrive 𝑋 ∼ 𝑁(μ, 𝜎^2), dove μ è la media e σ^2 è la
varianza
La sua densità di probabilità f è tale che:
• è simmetrica rispetto alla media μ (che quindi è anche
mediana)
• ha un massimo per 𝑥 = 𝜇 (che quindi è anche moda)
• 𝜇 − 𝜎 e 𝜇 + 𝜎 sono punti di flesso (la concavità passa dall’alto
verso il basso o viceversa)
Le tavole riportano i valori della funzione di ripartizione

F(z) = P(Z<z) per valori di z positivi con due cifre decimali
𝑃 (𝑍 ≤ −1) =𝑃 (𝑍 ≥ 1) =1−𝑃 (𝑍 < 1)
In una popolazione, la pressione arteriosa In una popolazione, la pressione arteriosa sistolica si

sistolica si distribuisce normalmente con distribuisce normalmente con media 𝜇 = 120 e deviazione
media 𝜇 = 120 e deviazione standard 𝜎 = 13. standard 𝜎 = 13.
Qual è il valore soglia tale che la percentuale Quali sono i due valori soglia 𝑥1 e 𝑥2, simmetrici rispetto alla
di soggetti nella popolazione con valori media, tali che la percentuale di soggetti nella popolazione con
maggiori di x è il 5%? valori compresi tra 𝑥1 e 𝑥2 sia il 95%?
Voglio x tale che 𝑃 (𝑋 > 𝑥) = 0.05
Cerco x1 e x2 simmetrici rispetto a μ tali che 𝑃 (𝑥1 < 𝑋 < 𝑥2) =
Sappiamo 0.05=𝑃 (𝑋>𝑥) =1−𝑃 (𝑋<𝑥) =1−𝑃
0.95
(𝑍<𝑧) ovvero z1 e z2 simmetrici rispetto a 0 (cioè z1 = - z2 ) tali che
Cerco sulle tavole il valore di z tale che 𝑃 (𝑍 < 𝑃 (𝑧1 < 𝑍 < 𝑧2 )= 0.95
𝑧) = 0.95: ovvero 𝑧2 tale che 𝑃 (𝑍>𝑧2) =0.025
z = 1.645 [ ovvero 𝑃 (𝑍<𝑧2) =1−0.025=0.975 ]
Il valore standardizzato dell’x che cerco Dalle tavole: 𝑧2 = +1.96 e 𝑧1 = -1.96
dev’essere quindi uguale a 1.654:
1.645 = (𝑥−120)/13 Applicando la standardizzazioni inversa
𝑥1 =𝜇+𝑧1*𝜎 = 120−1.96∙13=94.5
ovvero 𝑥 = 120 + 1.645 ∙ 13
𝑥2 =𝜇+𝑧2*𝜎=120+1.96∙13=145.5
Approssimazione normale della binomiale
Se 𝑛𝜋 > 5 e 𝑛(1 − 𝜋) > 5, la distribuzione binomiale è approssimabile con la distribuzione normale corrispondente,
quella cioè con stessa media e varianza, 𝜇 = 𝑛𝜋 e 𝜎2 =
𝑛𝜋 (1 − 𝜋) :
In una popolazione la prevalenza di persone con gruppo sanguigno 0-

è del 7%. Qual è la probabilità di trovare più di 50 persone con gruppo
sanguigno 0- effettuando un esame del sangue in un campione di
1000 individui?
Il conto con la distribuzione binomiale sarebbe molto complesso.
Poiché nπ = 1000 ∙ 0.07 = 70 > 5 possiamo utilizzare
l’approssimazione ad una normale con:
3. Distribuzioni campionarie
Statistica inferenziale
La statistica descrittiva descrive le caratteristiche di un campione, mentre quella inferenziale estende i risultati
ottenuti ad un campione alla popolazione dalla quale ho estratto il campione.
Distribuzioni campionarie
Consideriamo la media campionaria di X, supponiamo di voler trovare il quoziente intellettivo medio u, della
popolazione di studenti delle università italiane sulla base di un campione estratto da questa popolazione.
Se estraiamo n campioni dalla popolazione ognuno avrà la sua media campionaria.
Se valore della media campionaria è considerato come una singola osservazione, la distribuzione di probabilità della
variabile X è la distribuzione delle medie dei campioni di dimensione n.
Distribuzione della media campionaria X

Prendiamo una variabile da una popolazione con media u e varianza o. Per distribuzione delle medie campionarie
calcolate per campi di dimensione n valgono:
1-La media della distribuzione della medie campionarie è uguale alla media u della popolazione.
2-La deviazione standard della distribuzione delle medie campionarie è uguale a o/√(n) (nota come errore standard),
esiste quindi una minore variabilità tra le osservazioni individuali e all’aumentare di n diminuisce l’entità della
variabilità campionaria.
3-La distribuzione delle medie campionarie è approssimabile ad una normale per n sufficientemente grande (teorema
del limite centrale).
Per poter raggiungere con una buona approssimazione una normale la distribuzione campionaria deve:
-Se la popolazione originale non è distribuita normalmente avere n>30.
-Se la popolazione originale è distribuita normalmente è sufficiente anche n=1.
Implicazione del teorema del limite centrale

-Qualsiasi forma abbia X, la distribuzione della media campionaria, per n>30 è approssimabile ad una normale con
media u e deviazione standard
-Se X è distribuita come una normale con media u e varianza o^2, allora
Quindi qualsiasi forma abbia X la variabile standardizzata
E possiamo usare le tavole della normale standardizzata Z.

Test d'ipotesi
Nell’eseguire il test d’ipotesi occorre formulare:
ipotesi nulla H0: l’ipotesi che desideriamo confutare
ipotesi alternativa Ha: l’ipotesi che vorremo dimostrare
Ricavo poi una regione, detta «critica» o «di rifiuto», di valori estremi
della statistica test la cui probabilità complessiva 𝛼 sotto ipotesi nulla è
piccola (in genere si fissa 𝛼 = 0.05).
Estraggo un campione casuale di osservazioni indipendenti dalla

mia popolazione e calcolo il valore della statistica test su di esso
(valore «osservato» della statistica test).
Se il valore osservato della statistica test cade nella regione
critica rifiuto H0, altrimenti non la rifiuto.
Il p-value è definito come la probabilità di ottenere un risultato

pari o più estremo di quello osservato, supposta vera l'ipotesi
nulla. Corrisponde ad un area sottesa alla curva normale, una
probabilità.
Il calcolo del p-value

Dato, ad esempio, un campione casuale 𝑥1, 𝑥2, ... , 𝑥𝑛 tratto da una
popolazione con media 𝜇 e varianza 𝜎^2 (supposta nota)
Consideriamo il seguente test
Calcolo la statistica test
Errori del I tipo e del II tipo

Errore del I tipo: rifiutare l’ipotesi nulla quando questa è vera
• 𝛼 = 𝑃(𝑟𝑖𝑓𝑖𝑢𝑡𝑜 𝐻0 | 𝐻0 è 𝑣𝑒𝑟𝑎) si chiama livello di significatività
• 1 − 𝛼 = 𝑃(𝑛𝑜𝑛 𝑟𝑖𝑓𝑖𝑢𝑡𝑜 𝐻0|𝐻0 è 𝑣𝑒𝑟𝑎), rappresenta la probabilità di prendere una decisione corretta quando è
vera l’ipotesi nulla
Errore del II tipo: non rifiutare l’ipotesi nulla quando questa è falsa
• 𝛽 = 𝑃(𝑛𝑜𝑛 𝑟𝑖𝑓𝑖𝑢𝑡𝑜 𝐻0 | 𝐻0 è 𝑓𝑎𝑙𝑠𝑎)
• 1 − 𝛽 = 𝑃(𝑟𝑖𝑓𝑖𝑢𝑡𝑜 𝐻0 | 𝐻0 è 𝑓𝑎𝑙𝑠𝑎), detta potenza, rappresenta la
probabilità di prendere una decisione corretta quando è falsa l’ipotesi nulla
Test direzionali e non direzionali
Le ipotesi alternative che è possibile formulare sono
di due tipi:
• non direzionali: stabiliscono che il parametro è Ho =
MaNo
diverso, a meno della variabilità casuale, dal valore
secondo l’ipotesi nulla. La regione di rifiuto
corrisponde ad un’area di 𝛼, complessivamente. In
questo caso si parla di test a due code, bilaterale o
non direzionale.
• direzionali: l’ipotesi alternativa stabilisce che il
e
parametro è superiore (o inferiore) al valore secondo
l’ipotesi nulla. La regione di rifiuto corrisponde ad 𝛼
unilateralmente. Si parla di test ad una coda,
unilaterale o direzionale.
Test d’ipotesi per una media 𝝁 con varianza nota se n ( numerosità campione ) > 30
Ho in un test d'ipotesi
E Ha Memo /Zebsl=/F-Mk
Ho : Mino RIFIUTO
Zen
A UN LIVELLO DI e con complone=30
:
significatività 2 = 0 05
.
se :
ma o nota uo Z
Distribuzione t-student
Supponiamo di avere un campione di n soggetti da una popolazione normale X con media 𝜇 sconosciuta e varianza 𝜎
sconosciuta.
Possiamo calcolare la media campionaria 𝑥, che sappiamo essere una stima puntuale di 𝜇. Possiamo inoltre
calcolare la varianza campionaria 𝑠^2, stima puntuale della varianza della popolazione.
Te
Se n NON è sufficientemente grande, la distribuzione la campionaria di 𝑋 è tale che:
Test d’ipotesi per una media 𝝁 (con 𝜎2 non nota)
ho
-
HO
Itobsl trE
RIFIUTO AD UN LIVELLO
M-1
gradiditbente
=
, M-1
in
=
Di SIGNIFICATIVITÀ se :
Esempio :
Si estrae da una popolazione affetta da una certa patologia un campione casuale di 25 soggetti, su cui si trova che il
valore medio di colesterolemia è di 270 mg/dl e che la deviazione standard è s = 79. Nella popolazione dei soggetti
sani il livello di colesterolemia ha distribuzione normale con media 210 mg/dl. Verificare se ci sia evidenza
statistica di una differenza della colesterolemia media nella popolazione dei sani e dei malati a un livello di
significatività dell’1%.
Formuliamo ipotesi nulla e ipotesi alternativa: 𝐻 : 𝜇 = 210 𝑣𝑠 𝐻 : 𝜇 ≠ 210
Calcoliamo la statistica test:
Fobs-Ma 270 -
210 = 3 79
tobs=
.
=
Is
In E5
Itabsl = 3 75
. 2 .
797= to %5 .
.
24 =
Riferte Ho ad un a = 0 0
.
G
Test d’ipotesi per una proporzione 𝝅
Consideriamo un campione casuale tratto da una
popolazione con proporzione di successi 𝜋.
Assumiamo che:
• 𝑛𝜋0 > 5
• 𝑛 (1 − 𝜋0) > 5
Calcoliamo la proporzione di successi osservati 𝑝.
Una ditta farmaceutica asserisce che un suo farmaco è efficace nel 90% dei casi. In un campione di 50 persone che lo
hanno usato, il farmaco si è rivelato efficace in 40 casi. Stabilire se l’affermazione della ditta farmaceutica è legittima
con un livello di significatività uguale a 0.05
Formuliamo ipotesi nulla e ipotesi alternativa: 𝐻 : 𝜋 = 0.90 (𝜋0) 𝑣𝑠 𝐻 :𝜋≠ 0.90 (𝜋0)
Calcoliamo la statistica test:
Test d’ipotesi per la differenza tra due medie 𝜇2 − 𝜇1 con due campioni
Siamo interessati al confronto tra due gruppi ed in particolare a stabilire se questi provengono da una stessa
popolazione o da due popolazioni diverse.
Si distinguono due diverse situazioni:
• Campioni appaiati: i due campioni sono dipendenti, selezionati in base ad un insieme di caratteristiche comuni (es.
due misure sullo stesso soggetto, prima e dopo un certo intervento).
• Campioni indipendenti: i due campioni sono selezionati in modo indipendente l’uno dall’altro.
Test d’ipotesi per la differenza tra due medie 𝜇2 − 𝜇1 con due campioni appaiati
Se la varianza della popolazione è nota, allora non è necessario

calcolare le varianza campionaria: posso utilizzare la varianza
della popolazione e la normale standardizzata
Per n piccolo (n<30) utilizziamo come statistica test:
se la deviazione standard di popolazione 𝜎 𝐷 è nota
se la deviazione standard di popolazione 𝜎 𝐷 non è nota e la dobbiamo stimare con la

deviazione standard campionaria 𝑠𝐷
Per n abbastanza grande (n≥30) utilizziamo come statistica test l’approssimazione

normale (sia nel caso di varianza della popolazione nota che non nota)
Test d’ipotesi per la differenza tra due medie 𝝁𝟐 − 𝝁𝟏 con campioni indipendenti e 𝝈1 = 𝝈𝟐
In uno studio clinico volto a valutare l’efficacia di un certo trattamento vengono arruolati 14 pazienti, che vengono
divisi in modo casuale in due gruppi. Il primo gruppo di 8 soggetti viene sottoposto a un trattamento per l’ipertensione,
mentre il secondo gruppo di 6 soggetti viene sottoposto a placebo. Si misura la differenza (prima-dopo) di pressione
diastolica prima e dopo un certo numero di giorni di trattamento.
Si vuole valutare se il farmaco ha diversa efficacia rispetto al placebo
Placebo: 7, 12, -4, 16, -16, 15 Trattati: 18, -5, 19, 19, 24, 5, 16, -2
Test d’ipotesi per la differenza tra due medie 𝝁𝟐 − 𝝁𝟏 (campioni indipendenti e 𝒏𝟏 ≥ 𝟑𝟎 e 𝒏𝟐 ≥ 𝟑𝟎)
Se 𝝈1 e 𝝈𝟐 sono non note e diverse e i due campionisufficientemente grandi (tipicamente si assume 𝒏𝟏 ≥ 𝟑𝟎 e 𝒏𝟐 ≥ 𝟑𝟎),
uso come statistica test
Test d’ipotesi per la differenza tra due proporzioni 𝝅𝟐 − 𝝅𝟏

5. Intervalli di confidenza
Stima puntuale
Si parla di stima puntuale quando viene utilizzato un singolo valore per stimare un parametro della
popolazione.
La media campionaria rappresenta una stima puntuale della media u, essa si avvicina tanto più alla media
reale della popolazione u quanto più è numeroso il campione.
Quanto la stima campionaria è una buona stima?
Minore è l’errore standard maggiore è la precisione della media campionaria.
Intervallo di confidenza
Un intervallo di confidenza (IC) al (1-α) x 100% per il parametro è un intervallo di valori determinati dal
campione che immaginando di ripetere il campionamento, include il parametro l’(1-α) x 100% delle volte.
L’intervallo di confidenza rappresenta una stima intervallare del parametro.
Interpretazione del CI
Indichiamo con una precisione del 1-α che la media u della popolazione è contenuta in quel intervallo.
IC per una media u con o^2 nota
Si ottiene quindi:
IC per una media u con o^2 non nota e n > 30

Dobbiamo trovare la varianza campionaria S^2 e la media campionaria X.
IC per una media u con o^2 non nota e n < 30

Dobbiamo usare una t-student.
IC per la differenza tra due medie u2-u1 (campioni indipendenti o1=o2)
Per campioni con n1 > 30 e n2 > 30 e varianze non necessariamente uguali

IC per la una proporzione π
IC per la differenza tra due campioni indipendenti π1 - π2
Esempio di come risolvere un problema con test d’ipotesi

Ci si chiede se un elevato consumo di mandorle
modifichi il rischio di malattie cardiovascolari. A questo
scopo in un gruppo di 100 persone che segue una dieta
ricca di mandorle si misurano i livelli di alcuni
marcatori di rischio di malattie cardiovascolari, fra i
quali il colesterolo totale che nel campione in questione
ha una media pari a 195 mg/dl.
Si supponga che il livello di colesterolo nel sangue nella
popolazione generale sia distribuito normalmente con
media 200 mg/dl e deviazione standard pari a 20 mg/dl
(valori noti).
A quale conclusione si giunge effettuando il test
d'ipotesi al livello di significatività α=0.05?
7. Test chi quadrato
Tabelle di contingenza
Chi quadrato
I gradi di libertà del test del chi quadrato corrispondono al

numero di colonne -1 moltiplicato per il numero di righe -1.
Come interpretare il risultato del test
Cerco sulle tabelle del chi quadrato questo valore.
Condizioni del test del chi quadrato

Questo test si basa su un’approssimazione applicabile alle seguenti condizioni:
Tabelle 2x2:
-I valori attesi di tutte le celle devono essere ≥ 5.
-In alternativa possiamo applicare la correzione per continuità di Yates.
Tabelle H x K:
Criterio di Cochrane: meno del 20% dei valori attesi devono essere inferiori a 5 ed in ogni caso > 1. Se questa
condizione non sussiste possiamo combinare insieme righe o colonne (purché abbia senso farlo).
Test esatto di Fischer: quando queste condizioni non persistono è possibile applicarlo.
Usare Z al posto del chi quadrato
Nelle tabelle 2x2 è possibile usare Z per il confronto di due proporzioni se n1 >> 1 e n2 >> 2. Possiamo anche applicare
il chi quadro che in questo caso coincide con Z. Le condizioni per applicare Z sono le stesse del chi quadrato.
8. Analisi della varianza ANOVA

Con il termine ANOVA si indica una serie di procedure mirate allo studio di come il valore medio di una variabile
continua distribuita normalmente sia associato a una qualche classificazione dei dati (esempio: pressione
arteriosa al tipo di dieta: vegana/vegetariana/proteica)
Con l’ANOVA si saggia l’ipotesi nulla che le medie fra i gruppi siano uguali (esempio: l’ipotesi nulla è che le medie
della pressione arteriosa nelle tre popolazioni di soggetti che seguono diversi tipi di dieta siano uguali)
Possiamo scomporre la dispersione totale (devianza, o «sum of squares», SS) in due

componenti
SStot = SSentro + SStra
• SSentro = devianza dei valori rispetto alla media del corrispondente gruppo (devianza
entro gruppo o devianza residua) = somma degli scarti quadratici ENTRO gruppo
• SStra = devianza delle medie dei gruppi rispetto alla media generale (devianza tra
gruppi) =somma degli scarti quadratici TRA gruppi
Variabilità entro gruppo
La devianza dei valori rispetto alla media del corrispondente gruppo
(devianza entro gruppo o devianza residua) può essere espressa come:
Variabilità tra gruppi
La devianza delle medie dei gruppi rispetto alla media
generale (devianza tra gruppi) può essere espressa come:
Caso generale con k gruppi

Con l’ANOVA si saggia l’ipotesi nulla che le medie nei gruppi siano uguali:
Utilizzo il valore osservato della statistica test F:
Tabella riassuntiva
Nello studio dell’associazione tra concentrazione di folato

nei globuli rossi e tipo di ventilazione durante l’anestesia,
che ha reclutato complessivamente 22 pazienti, si ottiene
una deviazione totale di 55232 e una deviazione residua
di 39716. C’è evidenza di associazione a un livello di
significatività 𝛼 = 0.05?
9. Regressione lineare
Relazione lineare tra variabili
La linea retta è la più semplice relazione che si possa immaginare tra due variabili continue Y e X. Una relazione lineare
non implica una relazione causale.
Il metodo di regressione lineare è utilizzato per:
-Descrivere: di quanto varia Y al variare di X.
-Predire: scoprire il valore atteso di Y dato X.
-Correlare: capire quanto è buona la relazione lineare tra X e Y.
Descrivere
Si considerino due variabili Y e X di cui Y continua e misurata su un campione di n elementi fra loro indipendenti. La
relazione lineare fra Y e X si può esprimere attraverso la funzione seguente:
𝑦i = 𝛼 + (𝛽 𝑥i) + 𝜀i.
I parametri 𝛼 e 𝛽 definiscono univocamente una retta nel piano XY. Con a e b si indicano i valori di 𝛼 e 𝛽 che si stimano dai
dati.
Con questa formula si indicano i valori di 𝑦𝑖 predetti dalla retta di regressione. Gli
scostamenti verticali delle osservazioni dalla retta, ossia le quantità
si chiamano RESIDUI.
Con le lettere greche si indicano i valori veri dei parametri (𝛼, 𝛽) e dei residui (𝜖i), con le lettere latine i corrispondenti
valori stimati dai dati (a, b, ei).
Distribuzione dei residui:
Metodo dei minimi quadrati

Per stimare i parametri 𝛼, 𝛽 dati Y e X misurati sul campione si può usare questo metodo, esso consiste
nell’identificare quei valori di a e b che minimizzano la somma dei quadrati dei residui ei:
Le condizioni di applicabilità sono:

Gli errori 𝜀i in 𝑦i = 𝛼 + (𝛽 𝑥i) + 𝜀i devono essere indipendenti e identicamente distribuiti come una normale di media 0 e
varianza (sigma)^2.
Ciò equivale a supporre che yi siano indipendenti, per verificare le condizioni uso la distribuzione campionaria dei residui 𝜀i.
Come trovare a e b
Test d’ipotesi sui parametri 𝛼 e 𝛽
H0: 𝛽=0 ossia l’ipotesi nulla che non ci sia dipendenza lineare tra la variabile di esposizione X e la variabile di outcome Y.
Ha: 𝛽≠0 ossia l’ipotesi che esista una dipendenza lineare tra X e Y.
Sotto H0 ho la statistica b/SE(b) che è distribuita come una t Student con n-2 gradi di libertà.
Sotto Ha ho la statistica a/SE(a) che è distribuita come una t Student con n-2 gradi di libertà.
Quando si effettua un test d’ipotesi dal coefficiente angolare di X nel modello 𝑦i = 𝛼 + (𝛽 𝑥i) + 𝜀i le ipotesi sono quelle precedenti, un
test statisticamente non significativo suggerisce che la relazione tra X ed Y non è lineare, tale relazione potrebbe essere:
Predire
L’equazione di regressione si può usare anche per stimare il valore medio y per in dato valore di x=x0 e
calcolare il suo errore standard.
s= stima della deviazione standard dei residui

Costruiamo il 95% CI della retta di regressione:
SE(E(y0)), e quindi l’ampiezza del 95% del CI, è minimo per x0=x ed aumenta quanto più x0 si allontana dal valore medio x.
L’errore standard della singola predizione è maggiore dell’errore del valore atteso e tiene conto della distribuzione dei valori
di Y attorno alla loro media. Si calcola come errore della quantità:
Correlare
La forza dell’associazione lineare fra esposizione ed outcome si misura attraverso la loro correlazione r:
Dalla definizione della stima b di 𝛽 ottenuta con il metodo

dei minimi quadrati, si può dimostrare che fra la
correlazione r e il coefficiente angolare 𝑏 esiste la seguente
relazione:
il segno di r dipende dal segno di b.
Per r= 1 o r= -1 tutti i punti giacciono si una retta di

pendenza positiva o negativa.
Significato dei coefficienti
-𝑎: è la stima del parametro intercetta 𝛼; rappresenta il peso medio che si avrebbe per altezza = 0. È un valore privo di
significato perché corrisponde ad una stima di Y al di fuori del range di variazione delle X del campione.
Per dare significato alla stima di 𝛼 occorrerebbe effettuare una regressione in cui la variabile X si centra intorno alla
media campionaria 𝑥̅ : 𝑋′ = 𝑋 − 𝑥̅ . In questo caso nella retta di regressione yi = 𝛼 + 𝛽 1 𝑥𝑖′ + 𝜀𝑖 la stima di 𝛼
corrisponderebbe al valore della Y per 𝑋’ = 0 ossi 𝑋 = 𝑥̅ .
-b: è la stima del parametro intercetta 𝛽; rappresenta di quanto aumenta il peso all’aumentare unitario dell’altezza:
𝑝𝑒𝑠𝑜 (𝑎𝑙𝑡𝑒𝑧𝑧𝑎+1) −𝑝𝑒𝑠𝑜 (𝑎𝑙𝑡𝑒𝑧𝑧𝑎) = 𝑎 + 𝑏 (𝑎𝑙𝑡𝑒𝑧𝑧𝑎) +𝑏 − 𝑎 − 𝑏 𝑎𝑙𝑡𝑒𝑧𝑧𝑎 = b
Regressione lineare con una variabile dipendente continua -Devianza
Regressione lineare con una variabile dipendente continua -Coefficiente di determinazione

Regressione lineare con una variabile dipendente categorica -Significato dei coefficienti
Regressione lineare con una variabile dipendente categorica -Variabile dummy
Regressione lineare con una variabile dipendente categorica -Significato dei coefficienti
Regressione lineare multipla
Ciò che abbiamo visto con la presenza di un solo predittore X1 può essere esteso al caso di più predittori X1, X2, …, Xm
Y deve essere sempre variabile continua e distribuita normalmente.
Nel caso con 2 predittori X e Z la relazione lineare sarà:
Anche in questo caso è possibile saggiare l’ipotesi nulla che il generico coefficiente angolare associato ad una variabile
sia uguale a zero, ossia Y non dipenda dalla variabile in questione, la statistica in questo caso:
t di student con (n - p) gradi di libertà.
p= numero di parametri della retta (numero coefficienti angolari + intercetta). Nel caso di due predittori p=3.
19
Di quanto differisce lo
spessore IMT fra due soggetti
aventi X pari a 1 e -1,
rispettivamente?
Disegno dello studio
La ricerca medica si propone di:
• studiare la distribuzione di una condizione Gli studi possono essere:
patologica
nella popolazione (studi di prevalenza);
• di quantificare il rischio che un individuo
sviluppi tale condizione (studi di incidenza) Studi osservazionali, come Studi di intervento
• di determinare i fattori associati a tale studi caso-controllo o studi come studi clinici
condizione di coorte che non randomizzati, che
(studi di associazione); comportano alcun comportano un
• di identificare gli interventi più efficaci per il intervento da parte del intervento da parte del
suo trattamento (studi clinici di intervento). ricercatore sul campione in ricercatore sul campione
esame o su una parte di esso e
Svantaggi nella rilevazione del
Vantaggi • Non adatto per cambiamento così
• L’esposizione è malattie rare indotto. Svantaggi
misurata • Potenzialmente • Non adatto per
prima della malattia lunghi e costosi esposizioni rare
• Si possono • Selezione dei
studiare controlli
esposizioni rare problematica
Vantaggi
• Costi contenuti
• Si possono studiare
malattie rare e malattie
a lunga induzione/
Misure di frequenza e di associazione latenza
Vogliamo misurare:
Frequenza: Associazione
• prevalenza • rischio attribuibile
• rischio d’incidenza • rischio relativo
• tasso d’incidenza • odds ratio
• odds
Prevalenza
La prevalenza di una condizione (p.e. malattia) in un dato istante è la proporzione di soggetti che presentano la
condizione in quell momento.
Rischio d’incidenza
Il rischio d’incidenza è la probabilità di sviluppare l’evento in
un certo intervallo dato di tempo. Si stima come il rapporto
tra il numero x di nuovi casi sul totale n dei soggetti iniziali
Il rischio è stimabile come 𝑅 = 𝑛 solo se non abbiamo soggetti
persi al follow-up cioè durante il caso.
Tasso d’incidenza
Il tempo totale di osservazione è la somma dei tempi liberi dall’evento

per tutti i soggetti (massa tempo-persona).
L’unità di misura del tasso è il reciproco del tempo. Esempio in figura: T= 5/20.5 anni ≈ 244 / 1000
anni persona, ovvero date 1000 persone circa
244 si ammalanomediamente ogni anno
Odds
L’odds di un evento è il rapporto tra la probabilità
che l’evento si verifichi, 𝜋, e la probabilità che
l’evento non si verifichi, 1 − 𝜋: • Mentre la probabilità è sempre compresa tra 0 e 1, l’odds può essere un
qualunque valore positivo.
• Per basse probabilità (𝜋 ≪ 1) l’odds e probabilità tendono a coincidere: 𝑜𝑑𝑑𝑠 ≈ 𝜋
Misure di associazione
Supponiamo di volere valutare l’associazione tra lo sviluppo di una malattia e un fattore di esposizione, cioè se e
quanto la probabilità di sviluppare la malattia (rischio di incidenza) cambi tra esposti e non esposti al fattore.
Rischio relativo
• 𝑅𝑅=1 𝑛𝑜𝑛 𝑎𝑠𝑠𝑜𝑐𝑖𝑎𝑧𝑖𝑜𝑛𝑒: 𝑃(𝑀+|𝐸+) =𝑃(𝑀+|𝐸−)
• 𝑅𝑅>1𝑓𝑎𝑡𝑡𝑜𝑟𝑒 𝑑𝑖 𝑟𝑖𝑠𝑐h𝑖𝑜: 𝑃(𝑀+|𝐸+) >𝑃(𝑀+|𝐸−)
• 𝑅𝑅<1𝑓𝑎𝑡𝑡𝑜𝑟𝑒 𝑝𝑟𝑜𝑡𝑒𝑡𝑡𝑖𝑣𝑜: 𝑃(𝑀+|𝐸+) <𝑃(𝑀+|𝐸−)
•
Rischio attribuibile o rapporto tra rischi

• A𝑅=0 𝑛𝑜𝑛 𝑎𝑠𝑠𝑜𝑐𝑖𝑎𝑧𝑖𝑜𝑛𝑒: 𝑃(𝑀+|𝐸+) =𝑃(𝑀+|𝐸−) È l’eccesso di rischio che un soggetto esposto ha
• A𝑅>0𝑓𝑎𝑡𝑡𝑜𝑟𝑒 𝑑𝑖 𝑟𝑖𝑠𝑐h𝑖𝑜: 𝑃(𝑀+|𝐸+) >𝑃(𝑀+|𝐸−) rispetto a uno non esposto, attribuibile quindi
all’esposizione.
• A𝑅<0𝑓𝑎𝑡𝑡𝑜𝑟𝑒 𝑝𝑟𝑜𝑡𝑒𝑡𝑡𝑖𝑣𝑜: 𝑃(𝑀+|𝐸+) <𝑃(𝑀+|𝐸−)
• O𝑅=1 𝑛𝑜𝑛 𝑎𝑠𝑠𝑜𝑐𝑖𝑎𝑧𝑖𝑜𝑛𝑒: 𝑃(𝑀+|𝐸+) =𝑃(𝑀+|𝐸−)

• O𝑅>1𝑓𝑎𝑡𝑡𝑜𝑟𝑒 𝑑𝑖 𝑟𝑖𝑠𝑐h𝑖𝑜: 𝑃(𝑀+|𝐸+) >𝑃(𝑀+|𝐸−)
Rapporto tra ODDS o Odds ratio
• O𝑅<1𝑓𝑎𝑡𝑡𝑜𝑟𝑒 𝑝𝑟𝑜𝑡𝑒𝑡𝑡𝑖𝑣𝑜: 𝑃(𝑀+|𝐸+) <𝑃(𝑀+|𝐸−)
Proprietà dell’OR
• L’odds ratio di malattia tra esposti e non esposti è uguale all’odds

ratio di esposizione tra malati e non malati.
• Per malattie rare gli odds sono all’incirca uguali alle rispettive
probabilità
Inferenza sull’OR
Per l’inferenza si usa il log(𝑂𝑅) perché, a differenza di 𝑂𝑅,
ha distribuzione approssimativamente normale attorno al vero log(𝑂𝑅), con standard
error SE
Intervallo di confidenza per l’OR
Test d’ipotesi sull’OR
Studiamo l’associazione tra peso alla

nascita e displasia broncopolmonare
(BDP).
Poiché non comprende 1, possiamo

rigettare 𝐻0 : 𝑂𝑅 = 1, c’è evidenza di
associazione a un livello di
significatività α = 0.05.
Come visto in modo equivalente con l’intervallo di confidenza

al 95%, rigettiamo 𝐻0 : 𝑂𝑅 = 1, c’è evidenza 0 di associazione a
un livello di significatività α = 0.05.
Test diagnostico
L’accuratezza di un test diagnostico viene stabilita confrontando il risultato del test col «vero» stato di malattia,
definito in base a un altro test di comprovata validità (reference o gold standard), in genere più lungo e costoso.
Sensibilità: probabilità che il test risulti

positivo dato che il soggetto è malato:
Specificità: probabilità che il test risulti

negativo dato che il soggetto non è malato:
Sensibilità e specificità non dipendono Se abbiamo un test con più cut-off possiamo rappresentare sul
dalla prevalenza della malattia e piano cartesiano una coppia di (sensibilità) e (1-specificità) per
variano l variare del cut -off. ciascun cut-off.
La curva che unisce le coppie si dice curva ROC.
Un test diagnostico è tanto

più accurato quanto l’area
sotto la curva (AUC = Area
Under the Curve) si
avvicina ad 1
Valori predittivi
Probabilità che il soggetto sia malato dato che il test è
positivo
Probabilità che il soggetto sia sano dato che il test è

negativo
Contrariamente alla sensibilità e della specificità, i valori predittivi dipendono dalla prevalenza: all’aumentare della
prevalenza il VPP aumenta e il VPN diminuisce
Un test diagnostico di cui è nota la sensibilità (0.79) e la percentuale di falsi

positivi (0.09) viene utilizzato in un presidio ospedaliero dove la prevalenza
della malattia è 0.15.
1) Costruire la tabella di contingenza ipotizzando un campione di 1000
soggetti.
2) Stimare i valori predittivi positivi e negativi.
In una popolazione un marcatore tumorale è distribuito normalmente con media 15 e deviazione standard 3.
1. Quali sono i valori che dividono la popolazione in quartili?
Cut-off del primo quartile:

Cut-off del secondo quartile:
Cut-off del terzo quartile:
In un campione di 25 soggetti estratto da una seconda popolazione la media campionaria è uguale a 16.
Si effettua un test d'ipotesi per saggiare l'ipotesi di uguaglianza delle medie delle due popolazioni.
Quale è l'ipotesi nulla?

La media della seconda popolazione è 15
La media campionaria è 15
La media della seconda popolazione è diversa da 15
La media campionaria è diversa da 15
Quale è il valore della statistica test?
Quale è il p-value del test?
Quale è la conclusione del test per un livello di confidenza del 5%?

Non posso rifiutare H0 perché il p-value è maggiore del 5%
Rifiuto H0 a favore di Ha perché il p-value è maggiore del 5%
Non posso rifiutare H0 perché il p-value è minore del 5%
Rifiuto H0 a favore di Ha perché il p-value è minore del 5%
Supponendo ora che nemmeno per la prima popolazione sia nota la media, estraiamo dalla prima
popolazione un campione di numerosità 49 sul quale la media campionaria risulta pari a 14.
Quale è la stima della differenza fra le medie del marcatore nelle due popolazioni?
La stima (“puntuale”, in contrapposizione all’intervallo di confidenza, che è una stima

intervallare) della differenza tra le medie di popolazione 𝜇2− 𝜇1 è data dalla differenza tra le
corrispondenti medie campionarie: 𝑥̅ 2− 𝑥̅ 1
Qual’é l'intervallo di confidenza del 95%?
Si può affermare ad un livello di significatività del 5% che le medie del marcatore nelle due popolazioni siano
diverse?
Abbiamo una fiducia del 95% che la differenza tra le medie di popolazione, 𝜇2− 𝜇1, sia
un valore compreso tra 0.55 e 3.45. Poiché lo 0 (valore per il quale la differenza è nulla
e le due medie sono uguali, 𝜇2 = 𝜇1) non è compreso in questo intervallo, possiamo
rigettare a un livello di significatività del 5% l’ipotesi nulla 𝜇2 = 𝜇1: c’è cioè evidenza che
siano diverse.
Un campione di pazienti affetti da una patologia gastrointestinale partecipa ad un clinical trial che mette a
confronto una nuova terapia con la terapia tradizionale. Alla fine del trattamento, fra i pazienti trattati con la
nuova terapia 25 sono in remissione, 10 non hanno subito variazione e 15 sono peggiorati; fra i pazienti
trattati con la terapia standard, 20 sono in remissione, 12 non hanno subito variazione e 18 sono peggiorati.
Quale è la stima della probabilità che un paziente trattato con la

nuova terapia sia in remissione?
Qual’é il 95% CI?

Se in un altro studio sono trattati 200 pazienti con la nuova terapia e 400 con la terapia
standard, quale è il numero atteso del totale dei pazienti in remissione?
Sulla base dei risultati del primo studio, si può affermare che esiste associazione fra
tipo di terapia ed esito del trattamento se si è disposti a commettere un errore del 5% nel
caso l'ipotesi nulla fosse vera e noi la rigettassimo?
In un test d’ipotesi, l’ipotesi nulla esprime
Ipotesi nulla
Esiste associazione fra terapia ed esito sempre uguaglianza, assenza di effetto o
Non esiste associazione fra terapia ed esito di associazione, mentre l’ipotesi
alternativa (quella che il ricercatore
Ipotesi alternativa
vorrebbe dimostrare) esprime nessi tra le
Non esiste associazione fra terapia ed esito
Esiste associazione fra terapia ed esito variabili, quindi differenza, effetto o
associazione.
Valore della statistica test:
Valore di soglia:
Conclusione del test

Non esiste evidenza di associazione fra terapia ed esito
Esiste evidenza di associazione fra terapia ed esito
L’indice di massa ventricolare sinistra (LVMI) viene monitorato per 24 mesi in una coorte di
217 pazienti. Si fitta un modello di regressione lineare fra la variazione di LVMI (variabile Y) e
la variazione della pressione sistolica (variabile X) ottenendo una stima del coefficiente
angolare pari a 0.140 con un errore standard pari a 0.054.
Si può concludere con un livello di significatività del 5% che la relazione tra variazione
di indice di massa ventricolare sinistra e variazione della pressione arteriosa è lineare?
Se la deviazione standard della variazione di LVMI è 11.02 e la deviazione standard della variazione della
pressione sistolica è 17.32, quale è la correlazione fra le due variabili?
Quale è la proporzione della varianza di Y spiegata da X?
Se la stima dell’intercetta è uguale a zero, quale è il valore atteso della variazione di LVMI per un soggetto che
presenta un aumento della variazione della pressione sistolica pari a 20 mmHg?
In una coorte di n soggetti, alla baseline 100 sono sovrappeso e 100 sono normopeso. Dopo 10 anni di follow-up, 25 pazienti del
primo gruppo e 15 del secondo hanno sviluppato eventi cardiovascolari (CVD).
Calcolare il rischio di CVD attribuibile all'essere sovrappeso ed il corrispondente 95%CI.

Calcolare il rischio relativo di CVD dell'essere sovrappeso rispetto all'essere normopeso.
Calcolare OR e 95% CI.
Si può affermare che esiste associazione fra peso alla baseline e CBD durante il follow-up al livello di significatività del 5%?
No, perche il 95% CI non contiene 1
No, perche il 95% CI non contiene 0
Si, perché il 95% CI contiene 1
No, perché il 95% CI contiene 1
Si, perché il 95% CI non contiene 1
Nella popolazione sana un marcatore è distribuito normalmente. Per usare tale marcatore come test diagnostico si
sceglie un cut-off per il quale la sensibilità è 0.80 e la specificità è 0.95.
Quale è il valore predittivo positivo del test applicato ad una

popolazione in cui la prevalenza di malattia è del 5%?
Quale è la percentuale dei soggetti classificati correttamente se il test è

applicato ad una popolazione in cui la prevalenza di malattia è del
30%?
Lo stesso test viene applicato ad un campione di 1000 soggetti estratti da una

popolazione in cui la prevalenza della malattia non è nota. I veri positivi risultano
positivi 100. Quale è la stima della prevalenza della malattia nella popolazione?
Se nella popolazione sana il marcatore è distribuito normalmente con media 0
e deviazione standard 1, quale è il valore di cut-off del marcatore
corrispondente alla specificità 0.95?
Suggerimento: si considerino negativi i
soggetti con valori nella coda di
sinistra della distribuzione e positivi i
soggetti con valori nella coda di destra
Il cut-off è il valore del marcatore in base al quale i soggetti

verranno classificati come positivi o negativi al test. La probabilità
che un soggetto sano venga classificato correttamente come negativo
al test (cioè l’area sotto la curva dei sani fino al cut-off) è per
definizione la specificità, che il testo specifica pari al 95%. Il
suggerimento ci dice che la distribuzione dei malati è spostata a
destra rispetto alla distribuzione dei sani, cioè che ci troviamo nella
situazione della figura:
Il cut-off è quindi il 95-esimo percentile della distribuzione dei sani (una normale con media
𝜇 = 0 e standard deviation 𝜎 = 1, cioè la normale standardizzata Z) cioè dalle tavole 1.64. Se
viceversa la distribuzione dei malati fosse stata a sinistra dei sani avremmo scelto il quinto
percentile (-1.64).
Un marcatore sierico X è distribuito normalmente nella popolazione sana con media μ = 10 e varianza
σ2 = 100.
1) Calcolare i quartili della distribuzione, ossia i valori q1, q2, q3 del marcatore per i quali P(X<q1) =
0.25, P(X<q2) = 0.50 e P(X<q3) = 0.75.
2) Se si estrae un campione di numerosità 25, qual è il numero atteso di soggetti con valori del
marcatore compresi fra 8 e 12?
3) Qual è la probabilità che la media campionaria di tale campione assuma valori compresi fra 8 e 12?
L’altezza di una popolazione maschile è distribuita normalmente con media 172 cm e SD 5 cm. 1) In questa popolazione
qual è la percentuale di maschi con altezza superiore a 165 cm?
2) In questa popolazione qual è la percentuale di maschi con altezza compresa fra 165 e 180 cm? 3) Se su un campione di
16 maschi coetanei si misura una altezza media pari a 175 si può affermare che questo rappresenta un campione casuale
della popolazione in oggetto effettuando un test con un livello di significatività dello 0.01?
a Test d'ipotesi . 4 Ak
5
Due gruppi di 5 ratti ciascuno vengono sottoposti ad una dieta con alto e con basso contenuto calorico. Il guadagno di peso
intorno al 50esimo giorno di età del gruppo con dieta ad alto contenuto calorico è riportato in tabella, mentre la media e la SD
del gruppo con dieta a basso contenuto proteico sono rispettivamente 96.2 e 18.9 grammi.
gruppo dieta ad alto contenuto proteico: 134 146 104 119 124.
1) Formulare l’ipotesi nulla e l’ipotesi alternativa relativamente all’effetto della dieta sul guadagno di peso
2) Calcolare la media campionaria e la deviazione standard dei guadagni di peso del gruppo con dieta ad alto contenuto
proteico.
3) Effettuando un test al livello di significatività dell’5% a quale conclusione si giunge relativamente all’effetto del tipo di dieta
sul guadagno di peso?
4 .
19 82 + 4 .
15. 82
5 = mB
Sp=
.
5 = mA
te
= 17 ,
36
↓ = 18 . 9 ↓ 8
134146104113124 17 365 10. 98

M 96 2 SE
= = =
. .
Ma 125 4 SDa = 15 , 8 125
49.
=
t to 975 % 8
,
657
.
= = 2, =
2 , 306
,
referto Ho
-
Chi-quadro e anova
. 3Ak
6
Un campione composto da 48 uomini e 46 donne viene sottoposto ad un trattamento per l'emicrania. Dopo un mese, 33
partecipanti, fra cui 21 uomini, dichiara di non aver tratto giovamento dal trattamento; altri 12 uomini dichiarano di aver
tratto moderato giovamento dal trattamento e 24 donne di averne tratto forte giovamento.
1) Costruire la tabella di contingenza della distribuzione del risultato del trattamento fra uomini e donne.
2) Se si trattassero 100 uomini e 100 donne, quale proporzione totale se ne attenderebbe con forte giovamento?
3) Possiamo concludere con un livello di significatività del 5% che il trattamento abbia un effetto diverso fra uomini e donne?
P(FG(U) = 0 3125 = 31 uomini 31 +52

=0 415
,
,
5217 donne 200
PCFGID) = 0, = 52
X
12 MG FG
Ai NGMG FG
21NG 15
; ; Di NGMG FG
48mU12NG 4 , 68 + 5 99
refate Ha
=
. non
: 144 .. 245
j 21121548 ~ 17
1124840 95 % 2 ,
=
5 1 99
D 12102446 D16111946
Mu = 0 , 51
33223994 33223994
6 7
.
In un grande azienda si vuole rilevare la qualità del sonno nelle varie categorie di lavoratori. Si campionano 60 lavoratori del
settore amministrativo, 60 del settore produttivo e 60 del settore distributivo. Le medie e deviazioni standard dei tre gruppi
sono rispettivamente:
ESD
1) Si calcoli la media totale della qualità del sonno sul campione.
SA 4 37.
1 2) Si calcoli l’intervallo di confidenza del 95% della media della qualità del sonno fra i lavoratori del gruppo
amministrativo.
SP 4 89 . 1 3) Se la devianza totale della qualità del sonno è 186 e la devianza residua è 160, si può affermare con un
livello di significatività dell'1% che le medie della qualità del sonno nei tre settori sono diverse?
SD 3 . 941
Nist= 4,4
IC95/sa =
4 37
.
= 1 96
,
·
5 4 . 12 to 4 62
,
163
SStot =
186 MSentro = = 0. 9
Fobs=
177
He
Senti = 160 SStea=26 MStro .
=
26 = 13
=14 . 44 , 61
refente
2 0 01
Fo sa
=
4 , 61
.
2 =
y
,
; :
In uno studio che ha lo scopo di determinare se le infezioni orali in età pediatrica sono associate a fattori di rischio
cardiovascolare in età adulta, si misura lo spessore intima-media (IMT) dell’arteria carotide in un campione di 755
soggetti e si effettua una regressione lineare con una variabile indice standardizzata di presenza di infezioni orali in età
pediatrica (X), ottenendo un coefficiente angolare di 0.158 il cui errore standard è 0.055.
1) Di quanto differisce lo spessore IMT fra due soggetti aventi X pari a 1 e -1, rispettivamente? 2) Si può affermare ad un
livello di significatività dell’1% che esiste associazione lineare fra infezioni orali in età pediatrica e rischio di eventi
cardiovascolari in età adulta?
3) Qual è il p-value associato alla stima del coefficiente lineare di X?
In uno studio di coorte si identificano due gruppi di individui sulla base dello stato socioeconomico (SES) e si
seguono per un periodo di osservazione di 10 anni: durante il periodo di osservazione nel gruppo a basso
SES di numerosità 9.800.000 si osservano 87.000 morti e nel gruppo ad alto SES di numerosità 6.500.000
se ne osservano 41.000.
1) Qual è il rischio relativo di morire nel gruppo a basso SES rispetto al gruppo ad alto SES?
2) Qual è la proporzione di morti del gruppo a basso SES attribuibili al basso SES (rischio attribuibile a basso
SES ed evitabile se tutti avessero alto SES)?
3) Si stimi l’OR di morte per basso SES, si calcoli il corrispondente 95% confidence interval e si stabilisca se i
dati supportano l’evidenza che SES sia associato al rischio di morte con una significatività del 5%.
.5
8
In uno studio caso-controllo si misura il genotipo fattore 5 Leiden in 2297 soggetti che hanno avuto un evento
tromboembotico venoso (VTE) e in 3188 controlli. Sono risultati portatori di mutazione 428 casi e 144 controlli.
1) Si stimi l’OR di VTR per mutazione nel gene fattore V Leiden.
2) Si calcoli il 95% CI dell’OR di VTR per mutazione nel gene fattore V Leiden nella popolazione.
3) Si può affermare che essere portatori di una mutazione nel gene fattore V Leiden è associato a rischio di VTE?
4) Dallo stesso campione si misura il genotipo sul gene fattore II G20210A. Il 90.6% dei casi ed il 97.1% dei controlli
non sono risultati portatori di mutazione. Qual è il p-value di un test per saggiare l’ipotesi di associazione fra presenza
di mutazione sul gene II G20210A e rischio di VTE?
P(VTRIM)
>428MNM M NM
1)
P(CIM)
2297 VI 2 4 , 84
-
- 1869
OR=P(UTRINM)
=
=
m
3188 =
mC -> 144
3044 NM
M VTR 428 1869 2297
P(CINM) +su =0 ,
10
C14430443188
↑
57249135485 1 , 96 SE
to
.
ICOR95%
2) = 4 , 84 e =
. 97
3 5 9
.
3) Dato che 1295% non comprende 1-

refecto Ho e
conferme un'arociazione
0 906 2297 2081 NMut.

4)
. =
.
NMut 2297 + 0 . 33 3188

971 3096 NMot Mut 3, 094
.
0 3188
.
.
=
P(Mut(VTr)
.
= 0 . 094
. 057
=0
ptot =
5485
VTR 2081 216 2297 p(Mut(C) =
0 03
Test d'ipotesi
.
9-92 =1
(30 tez)
C3696923188
differenza tra due 57/1-0057)
078 Se = 0. 0 00635
per
=
Z = , ,
SE
↓
proporzioni 57933885483
P 0 ,9999
p-velue = 0 , 0001
.
2 =
p-value <0 , 0002
=Test Diagnostici
10 5 .
Supponiamo di aver condotto su 1000 soggetti uno studio sulla sensibilità e specificità di un test diagnostico e di aver
osservato 85 veri positivi, 100 malati, e 700 veri negativi. 1) Costruire la tabella 2x2.
2) Stimare la sensibilità e la specificità del test.
3) Stimare i valori predittivi positivi e negativi del test.
4) Qual è la prevalenza della malattia?
M+ M- 85
Se = 0,
1000 = m P = 03
.
M+ M-
VPP =0 ,
62
T+ 85200285 Sm
0
0 . 78
Prevalenza =>
=
=
0 , 10 + 10% T+ 255154439 VPN
= 0 , 92
goo S
=
T-15 700715
Per
VI T -
45546591
100 900 1000
300 700 oo
T-Student
Chi-quadro

Formule Statistica

Caricato da

Informazioni sul documento

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Formule Statistica

Caricato da

Copyright:

Formati disponibili

1.

Definizione frequentista di probabilità

Definizione assiomatica di probabilità

Variabili casuali discrete

Le tavole riportano i valori della funzione di ripartizione

𝑃 (𝑍 ≤ −1) =𝑃 (𝑍 ≥ 1) =1−𝑃 (𝑍 < 1)

In una popolazione, la pressione arteriosa In una popolazione, la pressione arteriosa sistolica si

In una popolazione la prevalenza di persone con gruppo sanguigno 0-

Distribuzione della media campionaria X

Implicazione del teorema del limite centrale

Quindi qualsiasi forma abbia X la variabile standardizzata

E possiamo usare le tavole della normale standardizzata Z.

Estraggo un campione casuale di osservazioni indipendenti dalla

Il p-value è definito come la probabilità di ottenere un risultato

Il calcolo del p-value

Calcolo la statistica test

Errori del I tipo e del II tipo

Test d’ipotesi per una media 𝝁 (con 𝜎2 non nota)

Se la varianza della popolazione è nota, allora non è necessario

se la deviazione standard di popolazione 𝜎 𝐷 è nota

se la deviazione standard di popolazione 𝜎 𝐷 non è nota e la dobbiamo stimare con la

Per n abbastanza grande (n≥30) utilizziamo come statistica test l’approssimazione

Test d’ipotesi per la differenza tra due proporzioni 𝝅𝟐 − 𝝅𝟏

IC per una media u con o^2 non nota e n > 30

IC per una media u con o^2 non nota e n < 30

IC per la differenza tra due medie u2-u1 (campioni indipendenti o1=o2)

Per campioni con n1 > 30 e n2 > 30 e varianze non necessariamente uguali

IC per la differenza tra due campioni indipendenti π1 - π2

Esempio di come risolvere un problema con test d’ipotesi

I gradi di libertà del test del chi quadrato corrispondono al

Come interpretare il risultato del test

Cerco sulle tabelle del chi quadrato questo valore.

Condizioni del test del chi quadrato

8. Analisi della varianza ANOVA

Possiamo scomporre la dispersione totale (devianza, o «sum of squares», SS) in due

Caso generale con k gruppi

Nello studio dell’associazione tra concentrazione di folato

Distribuzione dei residui:

Metodo dei minimi quadrati

Le condizioni di applicabilità sono:

s= stima della deviazione standard dei residui

Dalla definizione della stima b di 𝛽 ottenuta con il metodo

il segno di r dipende dal segno di b.

Per r= 1 o r= -1 tutti i punti giacciono si una retta di

Regressione lineare con una variabile dipendente continua -Devianza

Regressione lineare con una variabile dipendente continua -Coefficiente di determinazione

Regressione lineare con una variabile dipendente categorica -Variabile dummy

t di student con (n - p) gradi di libertà.

Il tempo totale di osservazione è la somma dei tempi liberi dall’evento

Rischio attribuibile o rapporto tra rischi

• O𝑅=1 𝑛𝑜𝑛 𝑎𝑠𝑠𝑜𝑐𝑖𝑎𝑧𝑖𝑜𝑛𝑒: 𝑃(𝑀+|𝐸+) =𝑃(𝑀+|𝐸−)

• L’odds ratio di malattia tra esposti e non esposti è uguale all’odds

Intervallo di confidenza per l’OR

Test d’ipotesi sull’OR

Studiamo l’associazione tra peso alla

Poiché non comprende 1, possiamo

Come visto in modo equivalente con l’intervallo di confidenza

Sensibilità: probabilità che il test risulti

Specificità: probabilità che il test risulti

Un test diagnostico è tanto

Probabilità che il soggetto sia sano dato che il test è

Un test diagnostico di cui è nota la sensibilità (0.79) e la percentuale di falsi

1. Quali sono i valori che dividono la popolazione in quartili?

Cut-off del primo quartile: