STATISTICA

STATISTICA
1 lezione 10/11/22, Dott. Simeon

Ignaz Semmelweiss (1818 – 1865): il tasso di mortalità associata alla febbre puerperale era più alto
nelle cliniche dove i medici facevano partorire la gestanti rispetto alle cliniche in cui il compito era
delle levatrici.
L’epidemiologia è lo studio della frequenza, della distribuzione e dei fattori che determinano la
salute/malattia in una popolazione (1970)
Frequenza: quanto e quando la malattia compare
Distribuzione: dove la malattia compare
Determinanti: fattori che, quando vengono alterati, inducono una variazione della frequenza o di
altre caratteristiche della malattia
Salute/malattia:
Popolazione:
l’epidemiologia si fonda sull’uso di metodi quantitativi (statistica e biostatistica)
formulazione ipotesi verifica ipotesi

la formulazione delle ipotesi è basata su: letteratura esistente, osservazioni cliniche/non cliniche,
intuizioni
la verifica della ipotesi comprende: disegno dello studio, conduzione dello studio, analisi statistica,
interpretazione dei risultati.
Esposizione esito
 Terapia
 Eziologia
 Prevenzione
 Diagnosi precoce
 Prognosi
 Tossicità
Come affrontare le fasi di ricerca

Qual è il problema?
Fasi logiche Domande

Definizione degli obiettivi Che cosa vogliamo sapere? Quanto è rilevante il
Generalizzabilità problema?
Valutazione dell’evidenza disponibile
Formulazione ipotesi conoscitiva
Definire chiaramente la domanda cui vogliamo dare risposta e darne una adeguata giustificazione. Definire la
domanda di studio in modo che possa essere analizzabile in maniera corretta e non ambigua.
Trasformare concetti vaghi in definizione operative che descrivono le misure che possono fare e che saranno
poi valutate. Tradurre la domanda di studio in affermazione relative ad attributi della popolazione.
PICO: population, intervention, comparator, outcome.

La struttura del problema:
1. i soggetti (unità statistiche)
popolazione obiettivo (criteri di selezione: inclusione ed esclusione)  popolazione in studio  campione
criteri di inclusione:
Poco selettivi: Molto selettivi:
minore omogeneità maggiore omogeneità
maggiore generalizzabilità minore generalizzabilità
maggiore numerosità minore numerosità
minore efficienza maggiore efficienza
Popolazione: va chiaramente definita in relazione alla localizzazione geografica, al tempo, alle caratteristiche
demografiche (età, sesso) e, se possibile, ad altre caratteristiche sociali ed ambientali.
La scelta dipende dall’obiettivo.
Bias di selezione
Si riferisce ai soggetti studiati. La probabilità di inclusione dei soggetti nello studio dipende dall’esposizione
e dalla malattia.
Scelta della popolazione di studio.
I soggetti sono un campione conveniente invece che uno rappresentativo della popolazione obiettivo
(volontari, soggetti istituzionalizzati, elenchi incompleti, cartelle cliniche)
Popolazione - parametro
L’insieme di tutte le persone (o altre unità statistiche) cui vogliamo che si riferiscano le nostre conclusioni.
La definizione è operativa, nel senso che sulla base di criteri
Indichiamo con il termine parametri gli attributi della popolazione che vogliamo conoscere.
Campione - stima
Un sottoinsieme della popolazione su cui effettivamente vengono raccolte le informazioni.
Ci sono fattori che rendono il campione non rappresentativo cioè sistematicamente diverso dalla popolazione
in studio?
La maniera migliore per ottenere un campione rappresentativo è di scegliere le unità di campionamento a
sorte.
Vanno sempre indicati

Popolazione:
 criteri di selezione,
 rappresentatività, accessibilità,
 modalità di identificazione dei soggetti
Campione:
 procedure di campionamento

2. le informazioni
fenomeno di interesse: teta
Quali sono le informazioni che vogliamo raccogliere?

La scelta dipende dall’obiettivo
L’utilità dipende dalla chiarezza della definizione
Le variabili di esito misurano il fenomeno studiato – mortalità
Le variabili di esposizione misurano le caratteristiche che possono spiegare l’esito (individuali, sociali,
ambientali)
Le variabili sono spesso indicatrici di concetti sottostanti più complessi. Più è complesso questo concetto più
è difficile spiegare l’esito – riduzionismo.
Una buona variabile è adeguata all’obiettivo, chiaramente definita, accurata, riproducibile, misurata in tutti i
soggetti, definita prima dell’inizio dello studio.
Come raccogliere informazioni?

o Quale scala di misura utilizzare?
o Quali sono le misure per ridurre gli errori sistematici?
o Gli strumenti utilizzati sono validati?
o A quali tempi ripetere l’osservazione?
o Quali strumenti utilizzare (es. questionari)?
Bias di informazione
Si riferisce alle informazioni raccolte. È dovuto all’errata classificazione (misclassificazione)
dell’esposizione o dell’esito.
o Modalità e tempi di osservazione diversi nei bracci confrontati
o Differente memoria all’esposizione (recall bias)
o Informazioni raccolte in modo differente dai diversi ricercatori
La misura è definita come l’attribuzione di un numero a una proprietà (variabile) a oggetti o eventi
- Diretta
- Indiretta, perché abbiamo creato degli strumenti che ci aiutano a misurare determinati fattori (dolore
con scala VAS)
Bisogna distinguere misurazione (metodi e procedure) e misura (la realizzazione del processo)
È l’obiettivo dello studio a determinare…
Fonti di errore in laboratorio:

- Pre-analitica
- Analitica
- Post-analitica
Fattori che influenzano il risultato

- Tutte le misure sono affette da errore
- Tutte le misure sono più o meno approssimate; valutare una misura significa conoscere il grado di
approssimazione
- La qualità delle informazioni
Distribuzione delle misure nella popolazione
Distribuzione delle misure nel soggetto
La singola misura non è interpretabile…
Errori di misura
- Errori accidentali o casuali – precisione
Le variazioni intorno al valore “vero” di misure ripetute della stessa quantità bello stesso individuo,
dovute a cause indeterminate
- Errori sistematici – accuratezza
3. il disegno dello studio

studi descrittivi, studiano la distribuzione geografica, temporale e demografica delle malattie:
- analisi di dati correnti
- serie di casi
- sorveglianza sanitaria
- indagine di prevalenza
studi analitici:
- studi osservazionali – è studiato il decorso naturale dei fenomeni. I cambiamenti o le differenze in
una o più variabili sono studiati in relazione a cambiamenti o differenze in altre variabili senza
l’intervento del ricercatore.
o ecologici
o trasversali o cross-sectional
o caso-controllo
i soggetti sono selezionati in base alla presenza (casi) o assenza (controlli) della malattia e
viene misurata la pregressa esposizione al potenziale fattore di rischio. C’è una buona
efficienza fino a 1 caso a 3 controlli. Permettono di studiare malattie rare, ma sono poco
adatti per esposizioni rare.
Il punto nodale è la comparabilità tra casi e controlli: selezione di controlli appropriati e
misura dell’esposizione pregressa.
o coorte, sono selezionati in base all’esposizione e seguiti nel tempo per valutare la comparsa
dell’esito. Richard Doll, fece uno studio di Coorte nel 1951 sul fumo nei medici.
Gli studi di coorte hanno il tempo. Sono longitudinali (prospettici). Esistono anche coorti
storiche e retrospettive (principalmente registri di lavoratori).
Può misurare esposizioni rare, ma meno adatti a studiare eventi rari.
I risultati degli studi osservazionali spesso non sono confermati da studi sperimentali.
Distorsione da allocazione, dovuto all’assenza di randomizzazione negli studi osservazionali: ridotta
validità esterna.
Gli studi osservazionali sono complementari.
- studi sperimentali, studiano l’esposizione:
o non controllati
o controllati non randomizzati
o controllati randomizzati
2 lezione 17/11/2022
Sintesi: la statistica serve per avere misure di sintesi per avere informazioni generali sul campione
rappresentativo della popolazione.
Confronto: Serve a confrontare qualcosa o qualcuno e fare inferenza.
Analisi
Presentazione
La struttura del problema

Le variabili: di che tipo sono?
 Qualitativo
o Nominali o categoriche (categoria o qualità ai pazienti, senza stabilire grado o ordine di
importanza, ad esempio gruppo sanguigno, colore occhi)
Deve essere mutualmente esclusiva ed esaustiva.
o Ordinali (ad esempio ruoli nell’esercito, con grado di importanza)
Vengono descritte con tabelle di frequenza: assoluta, relativa, cumulativa
E tabelle di contingenza: frequenze relative x riga, frequenze relative x colonna, frequenze relative al totale.
 Quantitativa
o Discreta o di conta (ad esempio, il numero dei figli – non si possono avere 1,5 figli)
o Continue o di misura
 Semiquantitative o di punteggio (motivazione)
Indici di posizione: media, mediana, quartili
Indici di variabilità: varianza, deviazione standard, intervallo, interquartile
Media:
La media può essere molto sensibile ai valori atipici.
Mediana:
si dice resistente ai valori estremi, perché non tiene in considerazione il peso dei singoli valori, ma solo
l’ordine.
Quando il numero è dispari si prende il numero al centro. Quando il numero è pari si deve fare una media.
Quartili:
se la mediana taglia in 2 la distribuzione, i quartili tagliano in 4 la distribuzione, ma i quartili sono 3 e
dividono la popolazione in blocchi da 25%. La distanza tra il primo e il terzo quartile si chiama differenza
interquartile, all’interno della quale c’è il 50% della popolazione
5 percentile
95 percentile
Deviazione standard:
scarto quadratico medio, serve per descrivere la distribuzione gaussiana
La distribuzione gaussiana è continua e simmetrica rispetto alla media: media, mediana e moda
coincidono.
Viene definita dalla media e dalla deviazione standard.
Molte variabili continue hanno una distribuzione gaussiana.
Alcune variabili non normali (non gaussiane) se si calcola la radice quadrata possono assumere una
distribuzione gaussiana.
La distanza tra media e la prima deviazione standard è il 34% dei soggetti, tra la prima e la seconda
deviazione standard la popolazione è 13%, tra la seconda e la terza deviazione standard è 2.1%, dopo la
terza deviazione standard è 0.1%.
Tra -3sigma e +3sigma ho quasi il 100% della popolazione.
Distribuzione asimmetrica
Media, mediana e moda non coincidono.
- A destra
- A sinistra
Si usa mediana e range interquartile, e l’uso della media e della deviazione standard non è corretto.
Frequenza cumulativa e box plor
Le variabili possono essere

1. In relazione all’osservatore
a. Oggettive
b. Soggettive
2. In relazione all’obiettivo
a. Esplicative (indipendenti) – di esposizione
b. Risposta (dipendenti), che dipendono dalle variabili esplicative – di esito
3. In relazione alla stuttura
a. Derivate (es. BMI)
b. Composte
Molto importanti sono i questionari, che dovrebbero essere validati e riproducibili.
Raccogliere dati/informazioni
I software per l’analisi dei dati:
- Foglio elettronico
- Database relazionale (access, mysql)
- Software statistico (SPSS da scaricare da Unina, stata, r). Stata e R permettono di lavorare con linee
di comando, sono migliori perché possono essere salvati e condivisi, quindi riproducibili.
Si produce un Dataset:
Riga: osservazioni, ovvero i soggetti
Colonne: variabili
Al dataset deve essere associato un codebook (sesso = 1: maschi, 2: femmine)
Descrizione dei dati

Diagramma a barre
Sono utili nel rappresentare variabili:
- qualitative nomali
- qualitative ordinali
- quantitative discrete
istogramma:
- per le variabili quantitative continue
o le basi sono gli estremi delle classi
o l’area indica la frequenza
- per le frequenza relative cumulative (x% ha questa caratteristica – ad esempio il 60% dei soggetti ha
altezza maggiore di 160 cm)
3 lezione, 24/11/2022
Inferenza
Distribuzioni di probabilità
Continue
Discrete
Distribuzione di Bernoulli
La t di student è diversa rispetto alla normale perché ha le code più ampie: campione piccolo e variabili
continue.
Fino al p value
4 lezione 26/1/2023
(mancano i primi 25 min)
Errori di
- I (del 5%): è statisticamente significativo solo nel 95% dei casi (alfa è 5%)
- II tipo (dal 10 al 20%): non esce statisticamente significativo, anche se c’è correlazione (beta).
L’inverso dell’errore (1-beta) è la potenza.
Test di Pearson: normale

Test di Spearman: distribuzione non normale
Gradi di liberta: colonne-1 x righe-1

Chi-quadrato
PROSSIMA LEZIONE ANOVA
5 lezione 13/02/2023
ANOVA: Variabile continua in >2 gruppi (analisi della varianza)
Valutare se 2 o più distribuzioni sono statisticamente simili.
Fattore
Livello
Variabile
Varianza= devianza/gradi di libertà

Nell’anova si scompone la variabilità totale.
SS between = effetto del trattamento
SS within = quanto c’è variabilità nel singolo gruppo
Inferenza
Almeno uno dei gruppi è diversa allora l’ANOVA è statisticamente significativa, per capire quale sia si fa un
test post-hoc (Bonferroni).
H0 vera: può essere dovuto a variabilità casuale.
Test F: è un rapporto tra fra e nel gruppo.

Test di Fisher:
Pearson p – coefficiente di correlazione (r va da -1 a 1)

valutazione della correlazione tra due variabili quantitative
r=1 e r=-1: la relazione lineare è perfetta.
r=0, la relazione è inesistente
anche per valori bassi si possono avere risultati statisticamente significativi.
Il coefficiente di correlazione si deve rappresentare, perché ci può non essere una associazione o ci può
essere una associazione.
Spearman: quando ci sono dati non distribuiti in maniera normale
Regressione lineare:
quanto una variabile indipendente ci può aiutare a predire l’altra variabile
intervallo di confidenza è più stretto vicino al valore medio, ma si allarga andando verso gli estremi.

STATISTICA

Caricato da

Informazioni sul documento

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

STATISTICA

Caricato da

Copyright:

Formati disponibili

STATISTICA

1 lezione 10/11/22, Dott. Simeon

l’epidemiologia si fonda sull’uso di metodi quantitativi (statistica e biostatistica)

formulazione ipotesi verifica ipotesi

Come affrontare le fasi di ricerca

Fasi logiche Domande

PICO: population, intervention, comparator, outcome.

Vanno sempre indicati

Quali sono le informazioni che vogliamo raccogliere?

Come raccogliere informazioni?

Fonti di errore in laboratorio:

Fattori che influenzano il risultato

3. il disegno dello studio

La struttura del problema

Frequenza cumulativa e box plor

Le variabili possono essere

Descrizione dei dati

Test di Pearson: normale

Gradi di liberta: colonne-1 x righe-1

Varianza= devianza/gradi di libertà

Test F: è un rapporto tra fra e nel gruppo.

Pearson p – coefficiente di correlazione (r va da -1 a 1)

Spearman: quando ci sono dati non distribuiti in maniera normale

Potrebbero piacerti anche