Sei sulla pagina 1di 11

Biostatistica ed epidemiologia

(Ogni paragrafo è una slide).

NOTA DALLA SCRITTRICE: ogni tanto ci sono scritte due o tre cazzate firmate da me medesima, giusto per
sdrammatizzare la mia traduzione e il nostro studio. Nessun Rengo è stato maltrattato durante la stesura. Si
scherza. No offence.

Perché?
La statistica è diventata la seconda lingua della ricerca.

Perché?
Bisogno di dare visibilità all’attività di ricerca attraverso le pubblicazioni.

Perché?
Odontoiatria basata sull’evidenza (con “evidence” si intende una prova, una testimonianza, dunque
evidenza nel senso di casi clinici, esperienze pregresse riportate in letteratura. Da qui in poi si utilizza in
questo senso il termine “evidenza”).

Cos’è questa cosa chiamata EBM?


La medicina passata sull’evidenza (evidence-based medicine) consiste nell’uso rigoroso, esplicito e
giudizioso della migliore evidenza scientifica attuale per prendere decisioni riguardo la salute del singolo
paziente.

Cos’è questa cosa chiamata EBM?


La medicina basata sull’evidenza è l’unione della migliore evidenza scientifica con l’esperienza clinica e i
valori del pazienti.

Passaggi nella pratica dell’EBM

1. Definire il problema;
2. Trovare le informazioni di cui si ha bisogno;
3. Valutare le informazioni in modo critico;
4. Applicare l’evidenza al paziente;
5. Stimare quanto è stato di aiuto.

Primo passo: definire quali variabili investigare.


Variabile: una caratteristica che può presentarsi in due o più modi;
La caratteristica che cambia durante l’esperimento ed è descritta o misurata.

Variabile indipendente: Variabile che il ricercatore cambia o controlla durante l’esperimento.


Variabile dipendente: Variabile che risponde alla manipolazione sperimentale e che viene misurata.

Secondo passo: raccolta dei dati.


Tipi di dati:
Dati qualitativi: nominali e ordinali.
Dati quantitativi o numerici: dati: discreti o continui.

Dati nominali
Categorie senza nessuna relazione quantitativa o gerarchica.

Dati nominali: razza, maschio/femmina, sì/no, presente/assente, fumatore/non fumatore, altezza


(alto/basso), tipo di intervento richiesto (nessun intervento/restauro/estrazione), status parodontale
(salute/gengivite/parodontite), classificazione delle malocclusioni (I-III classe), classificazione delle
preparazioni cavitarie (I, II, III classe, etc.).

Dati nominali
Raccolta
Contare i soggetti o i campioni che mostrano o non mostrano la variabile di interesse.

Frequenza- il numero di volte che un dato valore è presente nei dati.


Frequenza relativa- la proporzione, frazione o percentuale di tutte le osservazioni che hanno un certo
valore.

Rappresentazione grafica: grafico a barre

Rappresentazione grafica: grafico a torta

Dati nominali —> valori ordinali


(Tabella)
Attribuendo un ordine alle categorie in modo decrescente o crescente, i dati nominali vengono convertiti in
dati ordinali.

Dati ordinali
Le categorie vengono assegnate ad una certa classe con un ordine gerarchico

Dati ordinali
Status parodontale (Salute=0; gengivite=1; parodontite=2);
Indice di placca; indice gengivale; indice di sanguinamento; livello della profondità dell’ anestesia (?! Bah);
indice di microinfiltrazione; indice di sensibilità post-chirurgica.

(Seguono due rappresentazioni grafiche, vedi sopra)

Dati quantitativi o numerici


La variabile viene misurata con numeri.
Altezza, peso, percentuale, forza del bond in MPa, resistenza alla frattura in N, lunghezza radicolare in mm.

Dati quantitativi
La differenza tra numeri consecutivi rappresenta un valore costante della caratteristica misurata.
Esempio: la differenza tra 36°C e 37°C è la stessa che quella tra 42 e 43 °C.
Indice di altezza diverso dall’età
(Vedi esempi)

Rappresentazione grafica: istogramma

(Immagine tabella)

!!!
Una classificazione dei dati fatta ad opera d’arte è di vitale importanza per la scelta dell’analisi statistica
appropriata.

Terzo passo:
Riassumere i dati (statistica descrittiva)

Misure di tendenza centrale


Misure dello spread

Misure di tendenza o allocazione (location- non so se in statistica “allocazione” è il termine giusto!)


Media: la media di tutti i valori: la somma di tutti i valori diviso il numero di osservazioni.
Limitazioni: influenzata molto da valori estremi. Vedi esempio;
Inadeguata per variabili categoriche.

Misure di tendenza centrale per variabili categoriche


Moda: l’ossservazione più frequente in una serie di dati;
Mediana

Moda: l’osservazione più frequente.

Moda
Non molto accurata come misura di tendenza centrale: può essere un valore estremo (vedi esempio);:
Distribuzioni bimodali o trimodali
Es.: quanti assistenti lavorano nel tuo ufficio? (Vedi esempio)

Distribuzione bimodale

Mediana
Quando i dati sono ordinati in modo decrescente o crescente, è il valore centrale, quello che divide la
distribuzione dei dati in due sottogruppi uguali;
L’osservazione tale che il 50% delle altre osservazioni sono minori di questa, e il restante 50% maggiori.

Per calcolare velocemente la mediana


(Vedi numeri)
Ordinare i dati dal più piccolo al più grande
(Vedi numeri)
Conta n e arriva a (n+1)/2
Esempio: (vedi esempio) il quinto dato è la mediana
Quando n è un numero pari:
(Vedi esempio) —> la mediana è la media tra il quinto e il sesto dato.

Mediana:
Indicata per:
Dati ordinali (vedi esempio);
Distribuzioni di dati quantitativi che includono valori estremi
Es. lunghezza radicolare in mm (vedi esempio)
Mean= media; median= mediana.

Distribuzione dell’età di 10 studenti


(Vedi esempio)
Mode= moda

Misura dello spread o variabilità


Range
Range interquartile (25esimo e 75esimo percentuale)
Varianza
Deviazione standard
Errore standard
Misure di spread
Range
Per dati nominali ed ordinali;
La differenza tra il valore più grande e il valore più piccolo della distribuzione;
Determinata dai valori estremi.

Varianza
Del campione (dati numerici)
La somma dei quadrati delle deviazioni della media del campione diviso per il numero totale delle
componenti del campione meno 1
Somma di (dati- valore della media) al quadrato/n-1

Deviazione standard
Radice quadrata della varianza

Varianza e deviazione standard


1) Calcolare la deviazione di ogni dato dalla media del campione;
2) aggiungere il quadrato delle deviazioni

Varianza e deviazione standard


3) dividere la somma dei quadrati per il numero totale delle componenti del campione meno 1;
4) calcolare la radice quadrata

Misure di tendenza centrale


Media:
Vantaggi: considera ogni singolo dato numerico nella distribuzione
Svantaggi: è influenzata da valori estremi.
Mediana: indicata per dati ordinali e distribuzioni di dati numerici che includono valori estremi
Moda: indicata per dati categorici. Non molto accurata.

I dati numerici sono sintetizzati con un valore “medio”, come la media o la mediana, insieme ad una misura
dello spread delle osservazioni fatte intorno a questo valore, come il range o la deviazione standard.
La media e la deviazione standard sono le misure più informative, perché usano tutti i dati nel calcolo. Però,
dovrebbero essere usate soltanto per variabili numeriche distribuite normalmente, perché ogni skewness
(si usa il termine inglese, significa “asimmetria) nei dati distorce anche i valori della media e della
deviazione standard.

Variabili non distribuite normalmente dovrebbero essere riassunte utilizzando la mediana e o il range, o il
range interquartile.
La moda è usata raramente.

(Vedi tabella)

Misure di tendenza centrale

Distribuzioni con la stessa media, e diverse deviazioni standard.

Distribuzioni con la stessa deviazione standard, e diverse medie

Distribuzione normale (distribuzione Gaussiana)


Utilizzata per molti fenomeni biologici (altezza, peso, pressione sanguigna);
E’ la base per comprendere la teoria del campionamento;
Unimodali, simmetrici intorno alla media, a forma di campana;
Caratterizzate dalla loro media e deviazione standard;
Media, mediana e moda si trovano sullo stesso valore.

Distribuzione normale

Per popolazioni con distribuzione normale


(Vedi esempio)

Distribuzione normale
Molte statistiche inferenziali (test parametrici: t-test, ANOVA) sono basati sulla distribuzione normale;
E’ molto importante verificare a priori se la variabile analizzata è distribuita normalmente.

Test di normalità
Test di NOME IMPRONUNCIABILE FIGURIAMOCI DA IMPARARE
Confronta la distribuzione dei dati raccolti con una distribuzione normale (p>0.05 —> normalità)
Stem & leaf plot (non so se si traduce- letteralmente, disegno del ramo e della foglia)

Stem and leaf plot


(Vedi numeri)
Lo Stem (il ramo) contiene le decine, le leaves (le foglie) le unità.
(Vedi esempio)
Utile per piccoli set di dati (meno di 100 osservazioni);
Si disegna una curva e si capisce subito il senso della distribuzione dei dati;
Si può usare per controllare la simmetria della distribuzione e quanti picchi ci sono.

(Vedi esempio)

(Vedi disegno)

La caratteristica di un fenomeno può essere analizzata studiando o tutta la popolazione o una porzione
della stessa.
Statistica inferenziale
I mezzi statistici che permettono di giungere a conclusioni riguardo la popolazione studiando parte di essa.

Campionamento
Popolazione: l’intero gruppo di soggetti/oggetti di cui desideriamo ottenere informazioni.
Unità/oggetto- ogni individuo membro della popolazione
Campione: una parte del sottogruppo della popolazione usata per ottenere informazioni su tutta la
popolazione.

Statistica inferenziale
Presupposti:
1) il campione deve essere adeguato a rappresentare la popolazione;
2) C’è inevitabilmente un certo grado di errore inerente all’esperimento

Test di ipotesi
Ipotesi nulla (H0): ipotesi testata
Ipotesi alternativa (H1): ipotesi di interesse

Studenti gruppo A: typodont


Studenti gruppo B: manichini
Test: restauro di II classe in AMG (amalgama?)
Valutazione: grado 0-100 basato sull’adeguatezzaa di ogni fase della procedura.
Quale gruppo di studenti dà prova di aver ricevuto una formazione più efficace?

Gruppo A: 10 adulti di una comunità in cui l’acqua non è fluorata


Gruppo B: 10 adulti (stessa età) di una comunità in cui l’acqua viene fluorata dal 1965.
Valutazione: Indice DMFT: numero di denti cariati, persi, o otturati.
Il fluoro protegge i denti?

Test di ipotesi
Ipotesi nulla
Formulazione dell’ipotesi nulla;
Applicazione di un test
I risultati dello studio sono difficilmente nelle condizioni dell’ipotesi nulla;
Si rigetta l’ipotesi nulla.

Il test statistico ti porta ad assegnare un valore di probabilità all’ipotesi nulla


Valore “p”
Con il test misuriamo la probabilità che un risultato come quello visto nel nostro campione si presenti nelle
condizioni dell’ipotesi nulla; ossia se l’ipotesi nulla fosse vera.
Probabilità che la differenza riscontrata sia dovuta soltanto al caso.

“Il livello di significatività è stabilito a p<0.05”


P<0.05: un risultato come quello riscontrato nel nostro campione si presenterebbe meno di 5 volte su 100
se l’ipotesi è nulla;
P<0.05: è molto improbabile che un risultato come quello del nostro campione di presenti nell’ipotesi nulla;
Si rigetta l’ipotesi nulla, si accetta l’ipotesi alternativa.
C’è dunque una differenza statistica significativa.

P>0.05
C’è almeno una probabilità del 5% che i risultati riscontrati nel nostro campione si presentino nell’ipotesi
nulla;
C’è più del 5% di possibilità che la differenza riscontrata sia dovuta soltanto al caso.
Si accetta l’ipotesi nulla, si rigetta l’ipotesi alternativa.
Non c’è una differenza statistica significativa.

(Vedi slide di prima)


Il fluoro protegge i denti? P<0.05

(Stessa slide di prima)

Test di ipotesi
(Uguale alla slide precedente)

Applicazione di un test
Come vengono classificati i dati? Nominali, ordinali, quantitativi?
La distribuzione dei dati è normale?
Stiamo testando una differenza o una relazione?
Quanti gruppi ci sono? Due o più di due?
I gruppi sono indipendenti o connessi=

Gruppi dipendenti o connessi


Osservazioni dello stesso gruppo prima e dopo il trattamento;
“Design split-Mouth” (disegno “dividi bocca”- non penso si traduca)
Dati da “matched pairs” (paia accoppiate)
Gemelli omozigoti;
Lettiera della stessa coppia di animali sperimentali.

(Vedi tabella)

(Vedi disegno)

(Le seguenti 13 slide sono una serie di esempi che mostrano tutti i tipi di test che si possono fare)

Requisiti per ANOVA

Normalità- i valori della variabile dipendente si assume siano distribuiti normalmente in ogni gruppo;
Varianze uguali- la varianza della popolazione è la stessa in ogni gruppo;
Osservazioni indipendenti- le osservazioni sono indipendenti, ossia non sono collegate.
(Non c’è bisogno di varianze uguali se la grandezza di ogni gruppo è simile l’una all’altra)

Analisi della varianza: un esempio


Studio della relazione tra eventi spiacevoli e funzione immunitaria nelle donne.
Le funzioni del sistema immunitario sono misurate attraverso l’attività delle cellule NK.
Gli eventi infausti sono misurati con un punteggio con la Social Readjustment Rating Scale (Scala di
Misurazione del Riaggiustamento, ossia della ripresa in senso psicologico, Sociale)
Le donne sono divise in tre gruppi, a seconda del punteggio: basso, moderato o alto.

Analisi della varianza: un esempio


Domanda di ricerca: il livello di attività delle cellule NK varia nelle donne con punteggi bassi, moderati o alti
nella Ripresa Sociale?
(Vedi tabella)

Esempio di dati: ANOVA


(Vedi tabella)

Analisi della varianza: esempio


(Vedi esempio)

Tecniche per confronti multipli


Usa queste tecniche per fare più confronti tra coppie (tutti o alcuni sottogruppi) di medie del gruppo.
Test conosciuti:
Correzione di Bonferroni;
Scheffe;
Altro nome improponibile, imparatelo tu Rengo, e non ci scoccià;
Leggi sopra;
Duncan BLAAABLAAA

Facendo più test su un certo insieme di dati, c’è una probabilità sempre maggiore di ottenere un risultato
significativo semplicemente per puro caso.
Come correggere: la correzione di Bonferroni per questo tipo di test di significanza multipla consiste
semplicemente nel moltiplicare il valore di p per il numero di test che sono stati fatti. Il valore corretto
viene poi messo a confronto con il livello di 0.05 (sta cosa non l’ho mai capita, e mai la capirò in statistica,
ILLUMINATEMI) per decidere se è significativo. Se il valore corretto è ancora minore di 0.05, allora l’ipotesi
nulla viene rigettata.

La correzione di Bonferroni è una correzione a confronti multipli usata quando molti test statistici
dipendenti o indipendenti vengono fatti contemporaneamente (perché mentre un certo valore di alfa
potrebbe essere appropriato per ogni confronto individuale, non lo è per l’insieme di tutti i confronti). Per
evitare molti falsi positivi, il valore di alfa deve essere abbassato per tenere conto del numero di confronti
che vengono fatti.
L’approccio più semplice e conservativo è la correzione di Bonferroni, che stabilisce il valore di alfa per
l’intero insieme di confronti stabilendo il valore di alfa per ogni confronto uguale a alfa/n.

ANOVA per misurazioni ripetute


Valori della pressione arteriosa prima e dopo l’assunzione di un farmaco anti-ipertensivo (raccolta dati
all’inizio, dopo 1 mese, a 6 mesi, a 1 anno dall’inizio del trattamento)

ANOVA fattoriale (o ANOVA univariata)


1 variabile dipendente (variabile numerica), più di un fattore (variabile categorica);
Studio del tempo atmosferico: come cambia la quantità di pioggia (variabile dipendente) a seconda delle
stagioni (fattori) e delle regioni (fattori)?

ANOVA fattoriale a due fattori o Two-Way ANOVA


1 variabile dipendente (numerica), 2 fattori (variabili categoriche);
Influenza del sesso (fattore- non fate le sporche, sesso nel senso di GENERE che pensate) e assunzione di
grassi (fattore) sulla pressione arteriosa (variabile dipendente)

ANOVA fattoriale a tre fattori o Three-way ANOVA (che mi sa tanto di una categoria porno, per rifarci a
quanto detto sopra)
1 variabile dipendente (numerica), 3 fattori (variabili categoriche)
Influenza del sesso (fattore, vedi sempre sopra hehe), assunzione di grassi (fattore), ed età (fattore) sulla
pressione arteriosa (variabile dipendente).

Interazioni
Quando un interazione o effetto principale è significativo su più livelli, deve essere esaminato in maniera
invariabile successivamente. (SI CAPISCE SOL’ISS)

ANOVA multivariabile o MANOVA (Mr. Lover Lover mmh.. Mr Lover Lover… SHE CALLS ME MR
BOOMBASTIC)
Più di una variabile dipendente (variabili Numeriche), più di un fattore (variabili categoriche)
Studio del tempo atmosferico: come cambiano la quantità di pioggia (variabile dipendente) e la
temperatura (variabile dipendente) a seconda della stagione (fattore) e della regione (fattore)?
Risposta:
Sì ffa ‘o patapà ‘e l’acqua, è sicuro novembre, tranne ad Avellino addò chiov semp.

ANOVA multivariabile o MANOVA


Più di una variabile dipendente, più di un fattore (variabile categorica).
Influenza del sesso (fattore- ANCORA?! So a cosa stai pensando, ZUZZUS), e assunzione di grassi (fattore)
sulla pressione sanguigna (variabile dipendente) e sul colesterolo (variabile dipendente).

Relazioni
La variabile di interesse cambia in concomitanza con un’altra?
Correlazione: la relazione tra due variabili in un gruppo.
Rappresentazione grafica: scatterplot

Correlazione lineare
La più comune. Indica come due variabili cambiano insieme, senza nessuna presunzione di causa-effetto.
Esempio: la crescita del dito del piede è correlata con quella della mandibola, ma una non causa l’altra.
Entrambe derivano dalla crescita somatica. La correlazione potrebbe essere forte, ma non rilevante
clinicamente (MO IO VORREI SAPERE CHI È CHE UN GIORNO SI È SVEGLIATO, SI È PREPARATO UN CAFFÈ, E
HA PENSATO: “TOH, CHISSÀ SE IL DITO DEL PIEDE CRESCE COME LA MANDIBOLA! FAMMI FARE UN
BELL’ESPERIMENTO!”. Un feticista, sicuro).

Correlazione lineare o coefficiente di correlazione


Strumento statistico per valutare l’intensità e la direzione di una relazione lineare tra due variabili
Due variabili numeriche—> coefficiente di correlazione r di Pearson
Una variabile numerica e una ordinabile o due variabili ordinali —> coefficiente di correlazione “p” di
Spearman.

Esempi di correlazione
(Grafico)

Coefficiente di correlazione lineare


R=0 non c’è correlazione
R<0 correlazione negativa
R>0 correlazione positiva
(Vedi grafico)

Praticamente:
(Vedi numeri)
1: correlazione debole
2: moderata
3: forte
Significatività statistica della correlazione:
E’ possibile che il coefficiente di correlazione misurato nell’esperimento sia dovuto al caso? P
Significatività clinica della correlazione:
La correlazione deve essere molto forte per essere clinicamente significativa (> o uguale a 0.7)

Regressione lineare
Influenza di una variabile (indipendente o predittore) su un’altra (dipendente o criterio)
Variabile dipendente: y
Variabile indipendente o predittore: x
Il metodo della regressione lineare definisce l’equazione della retta da cui tutti i punti della distribuzione
hanno la stessa distanza.

Regressione lineare
Equazione della retta: y=a + bx
A= intercetta con l’asse delle y
Valore della variabile dipendente quando quella indipendente vale 0.
B= pendenza, il valore di cui la variabile dipendente aumenta quando la variabile indipendente aumenta di
un’unità.
Se c’è una relazione lineare significativa tra x ed y, la pendenza della retta è diversa da 0.

Regressione lineare
Scopo: predire il valore di una variabile (dipendente) a partire da quello di un’altra variabile (indipendente o
predittore)
Y= a + bx
R quadro: stima della variabilità di y che può essere attribuita alla variabilità di x.
R quadro deve essere abbastanza alto (0.5-0.6) per essere clinicamente significativo.
(Vedi esempio).

(Vedi tabella)
Errore di tipo I: alfa: se per sbaglio rigetti l’ipotesi nulla
P: probabilità di rigettare per sbaglio l’ipotesi nulla. Di solito pari a 0.05, ossia 5%;
Livello di significatività (alfa): la probabilità massima di rigettare incorrettamente H0 (5% o 0.05)

Errore di tipo II, beta: se accetti per errore l’ipotesi nulla. Di solito 0.1-0.2
Potenza: (1- beta)
Pr(rigettando H0/H1 è vera)
Abilità di un test di mostrare una differenza quando la differenza effettivamente esiste.
Di solito 0.8/0.9 (80-90%)
Misura del campione: la potenza del test può essere aumentata aumentando la misura del campione.

Misura del campione


1. Grandezza dell’effetto o la differenza che deve essere registrata;
2. Rischio accettabile di falsi positivi (alfa);
3. Potenza (1-beta);
4. Numero di code (tails) nel test

Test ad una coda: la direzione in cui ci si aspetta di vedere la differenza è indicata (esempio medicina vs.
Placebo)
Le differenze devono essere notevoli per essere significative
Test a due code: la differenza è testata senza indicarne la direzione.

Calcolo della misura del campione per un problema ad un campione


Domanda: quanti pazienti ci servono per rilevare un cambiamento di 10 mmHg nella pressione sanguigna
partendo da 120 mmHg?
Desideriamo una potenza dell’80% e alfa a due fattori (?) uguale a 0.05
(Metto il punto interrogativo perché parla di un alfa “a due strade, a due lati, a due modi, e non so cosa
diavolo sia).
(Vedi esempio)

Scelta della misura del campione


Dipende da:
Domanda: differenza che ci interessa misurare
Variabilità: dati pilota o storici
Analisi: metodologia statistica

Calcolo della misura del campione


Differenza minima da misurare
Stima della varianza
Livello di significatività (alfa)
Potenza (1- beta)
Indipendente: (vedi formula) per gruppo
In coppia: (vedi formula) totale

Relazione alla misura del campione


Differenza minima da misurare
Relazione inversa: c’è bisogno di un campione più grande per misurare una piccola differenza;
Stima della varianza
Relazione diretta: una varianza grande significa che c’è bisogno di un campione grande
Livello di significatività alfa- relazione inversa
Esempio: c’è bisogno di campioni più grandi per un livello di significatività dell’1% che per un livello di
significatività del 5%.
Potenza: relazione diretta
Esempio: c’è bisogno di campioni più grandi per una potenza del 95% che per una potenza dell’80%.

Calcolo della misura del campione: un esempio


Studio: confronto tra due medicine per l’ipoglicemia orali
Misura: emoglobina glicosilata
Differenza minima: 1%
Deviazione standard: 2% nel gruppo, 1% nel singolo individuo
Livello di significatività: 0.05
Potenza: 0.9

(Vedi esempio)

Significatività statistica e clinica.

Significatività statistica
La probabilità che la differenza osservata sia dovuta al caso è bassa;
Si riferisce alla probabilità che lo studio sia giunto alle conclusioni sbagliate. Non dà informazioni riguardo la
grandezza della differenza tra gruppi.

Significatività clinica
La differenza osservata rappresenta un vero beneficio per il paziente.
Aumento della crescita mandibolare: 0.3 mm
Aumento della lunghezza d’attacco: 0.5 mm
Aumento della sopravvivenza di un restauro: 2 mesi
Possono essere considerati clinicamente significativi?

Significatività statistica e clinica


Le due non sempre sono uguali
Clinicamente significativo ma non statisticamente: L’n era troppo piccolo?

Dovremmo calcolare le statistiche per singolo dente o mettere insieme i dati per più denti?
Se ignoriamo le variazioni tra denti, rischiamo di considerare troppe o troppo poche informazioni che
abbiamo riguardo specifici confronti
Trattare il dente come se fosse un effetto casuale;
Fare più misurazioni ANOVA con il dente come soggetto;
Usare la regressione con il dente come variabile;
Fare un 2-way ANOVA con il dente e il materiale come fattore;
Fare un confronto tra i dati riguardo la forza del bond tra i denti in ogni gruppo con un One-Way ANOVA.

Potrebbero piacerti anche