Sei sulla pagina 1di 62

Sommario

INTRODUZIONE...........................................................................................................................7
Fenomeni collettivi.................................................................................................................................7
Popolazione............................................................................................................................................7
Unità statistiche......................................................................................................................................7
Statistica Descrittiva...............................................................................................................................7
Statistica inferenziale..............................................................................................................................8
Carattere.................................................................................................................................................8
Modalità.................................................................................................................................................8
Dato statistico.........................................................................................................................................8
Distribuzione statistica............................................................................................................................9
Frequenza...............................................................................................................................................9
Distribuzione di frequenze......................................................................................................................9
Matrice dei dati......................................................................................................................................9
Distribuzione in classi............................................................................................................................10
Criteri per costruire una distribuzione in classi.....................................................................................10
Frequenze cumulate.............................................................................................................................10
RAPPRESENTAZIONI GRAFICHE..................................................................................................11
Grafico Cartesiano................................................................................................................................11
Grafico per punti.......................................................................................................................................................11
Grafico a segmenti....................................................................................................................................................11
Istogrammi............................................................................................................................................11
Grafici a barre (ortogrammi).................................................................................................................12
Diagrammi circolari o areogrammi........................................................................................................12
Possibili errori nella costruzione di un grafico.......................................................................................12
GLI INDICI DI TENDENZA CENTRALE............................................................................................13
Medie analitiche...................................................................................................................................13
Indici di posizione.................................................................................................................................13
Media ponderata..................................................................................................................................13
Limitazioni di impiego della media aritmetica.......................................................................................13
Moda....................................................................................................................................................14
Classe Modale.......................................................................................................................................14
Mediana................................................................................................................................................15
Classe Mediana.....................................................................................................................................15
Quantili.................................................................................................................................................15
GLI INDICI DI DISPERSIONE.........................................................................................................16
Range....................................................................................................................................................16
Scarto medio semplice assoluto............................................................................................................16
Devianza...............................................................................................................................................16
Varianza................................................................................................................................................16
Gradi di libertà......................................................................................................................................17
Deviazione standard.............................................................................................................................17
Coefficiente di variazione......................................................................................................................18
DISTRIBUZIONE NORMALE.........................................................................................................18
La forma della curva..............................................................................................................................18
Caratteristiche della curva normale......................................................................................................19
Proprietà della curva normale...............................................................................................................19
Curva Normale e variazione di media e deviazione standard................................................................20
Standardizzazione della curva normale.................................................................................................20
PROBABILITA’............................................................................................................................21
Evento Aleatorio...................................................................................................................................21
Concezione frequentista della probabilità.............................................................................................21
Legge dei grandi numeri........................................................................................................................21
Concezione soggettivista:......................................................................................................................21
Evento semplice....................................................................................................................................21
Evento composto..................................................................................................................................22
Spazio campione o universo..................................................................................................................22
Eventi incompatibili..............................................................................................................................22
Assiomi della teoria della probabilità....................................................................................................22
Teorema delle probabilità totali principio della somma........................................................................23
Principio della somma per eventi NON mutuamente esclusivi.........................................................23
Principio del prodotto eventi indipendenti...........................................................................................23
Almeno uno..........................................................................................................................................24
Probabilità condizionata Eventi dipendenti e indipendenti...................................................................24
Principio del prodotto probabilità condizionata....................................................................................24
Probabilità condizionata.......................................................................................................................24
DISTRIBUZIONI DI PROBABILITA’................................................................................................25
Variabile casuale e variabile statistica...................................................................................................25
Distribuzioni di probabilità variabili casuali continue............................................................................25
Curva di Gauss......................................................................................................................................25
distribuzione di probabilità teorica.......................................................................................................25
Caratteristiche della curva di Gauss......................................................................................................26
Distribuzione binomiale........................................................................................................................26
Caratteristiche Distribuzione binomiale................................................................................................26
Formula distribuzione binomiale..........................................................................................................27
Distribuzione di Poisson........................................................................................................................27
Formula Distribuzione Poisson..............................................................................................................27
Requisiti distribuzione di Poisson..........................................................................................................27
CAMPIONAMENTO....................................................................................................................29
Requisiti del campione..........................................................................................................................29
Rappresentatività del campione...........................................................................................................29
Modalità di selezione del campione......................................................................................................29
Campionamento casuale semplice randomizzazione............................................................................30
Campionamento per randomizzazione sistematica...............................................................................30
Errore di campionamento.....................................................................................................................30
Errore accidentale.....................................................................................................................................................31
Errore di selezione....................................................................................................................................................31
Campione distorto................................................................................................................................31
Distorsione da confondimento..............................................................................................................31
Il disegno dello studio e la randomizzazione.........................................................................................32
Effetti della randomizzazione................................................................................................................32
Metodi complessi di campionamento...................................................................................................33
Campionamento stratificato.................................................................................................................33
Finalità della stratificazione..................................................................................................................33
Procedimento campione stratificato.....................................................................................................34
Vantaggi e Svantaggi campione stratificato..........................................................................................34
Campionamento a più stadi..................................................................................................................35
INFERENZA STATISTICA..............................................................................................................35
Inferenza...............................................................................................................................................35
Validità interna.....................................................................................................................................35
Validità esterna.....................................................................................................................................36
Inferenza statistica................................................................................................................................36
Parametri..............................................................................................................................................36
Stime.....................................................................................................................................................37
Spazio campionario o universo dei campioni........................................................................................37
Stime e stimatori...................................................................................................................................37
Proprietà dello stimatore......................................................................................................................38
Lo stimatore della media......................................................................................................................38
Proprietà della distribuzione delle medie di campionamento...............................................................38
Teorema del limite centrale..................................................................................................................39
Errore Standard.....................................................................................................................................39
Stima puntuale e stima per intervallo...................................................................................................40
Intervalli di confidenza..........................................................................................................................40
Interpretazione frequentista.................................................................................................................40
Intervallo di confidenza.........................................................................................................................41
Calcolo dell’intervallo di confidenza di una percentuale.......................................................................41
Deviazione standard - Errore standard..................................................................................................41
Dimensione campionaria nella stima della media.................................................................................42
Dimensione campionaria nella stima di frequenze relative...................................................................42
TEST DIAGNOSTICI.....................................................................................................................42
Sensibilità.............................................................................................................................................42
Specificità.............................................................................................................................................43
Problema falsi positivi...........................................................................................................................43
Problema falsi negativi..........................................................................................................................43
Sensibilità o Specificità..........................................................................................................................43
Test per variabili continue.....................................................................................................................44
Valore predittivo di un test...................................................................................................................44
Valore predittivo positivo.....................................................................................................................44
Valore predittivo negativo....................................................................................................................44
Influenze valore predittivo....................................................................................................................44
Relazione valore predittivo e prevalenza..............................................................................................45
Relazione valore predittivo e specificità................................................................................................45
Test multipli..........................................................................................................................................45
Test in serie...............................................................................................................................................................45
Test in parallelo.........................................................................................................................................................45
Ripetitività dei test................................................................................................................................45
Variazione dei test................................................................................................................................45
Variazione intra-soggetti.......................................................................................................................46
Variazione tra osservatore....................................................................................................................46
Statistica Kappa....................................................................................................................................46
Test di screening...................................................................................................................................46
Esempi test di screening........................................................................................................................47
Requisiti di un test di screening............................................................................................................47
Screening a due stage...........................................................................................................................47
Covid Test.............................................................................................................................................48
test molecolare.........................................................................................................................................................48
Test antigenico o rapido...........................................................................................................................................48
test sierologico..........................................................................................................................................................48

Test chi-quadro..........................................................................................................................48
Procedimento.......................................................................................................................................49
Formula................................................................................................................................................49
Gradi di libertà......................................................................................................................................49
Errore di tipo uno..................................................................................................................................49
Errore di tipo due..................................................................................................................................49
P value..................................................................................................................................................49
Ipotesi di ricerca....................................................................................................................................50
Ipotesi statistiche..................................................................................................................................50
Procedimento di ipotesi........................................................................................................................50
Livello di significatività..........................................................................................................................50
Test bidirezionale..................................................................................................................................50
Test unidirezionale................................................................................................................................51
Test parametrici e non parametrici.......................................................................................................51
Test parametrici........................................................................................................................51
Requisiti test parametrico.....................................................................................................................51
Obiettivo dello studio...........................................................................................................................51
T test.........................................................................................................................................52
Obiettivi t test......................................................................................................................................52
Diverse tipologie di T test....................................................................................................................52
Requisiti di test....................................................................................................................................52
Gradi di libertà....................................................................................................................................52
Distribuzione t di student....................................................................................................................53
Assunzioni per un tTest.......................................................................................................................53
T test per dati appaiati........................................................................................................................54
Test Anova...........................................................................................................................................55
Considerazioni test anova....................................................................................................................55
Procedura............................................................................................................................................55
TEOREMA DI BAYES...................................................................................................................55
Statistica frequentista...........................................................................................................................56
Statistica bayesiana..............................................................................................................................56
EPIDEMIE...................................................................................................................................57
CASO INDICE.........................................................................................................................................57
TASSO DI ATTACCO...............................................................................................................................57
CASI SECONDARI...................................................................................................................................57
TASSO DI ATTACCO SECONDARIO.........................................................................................................58
% soggetti recettivi che ammalano a seguito dell’esposizione al caso indice.........................................58
Epidemia...............................................................................................................................................58
Pandemia..............................................................................................................................................58
Casi sporadici........................................................................................................................................58
Endemia................................................................................................................................................58
Studio di una epidemia.........................................................................................................................59
Definizione dell’esistenza dell’epidemia...............................................................................................59
Accertamento diagnostico....................................................................................................................60
Caso sentinella......................................................................................................................................60
Fattori condizionanti italia....................................................................................................................61
Focolai di malattia.................................................................................................................................61
Tasso di attacco.....................................................................................................................................61
Tasso di attacco secondario..................................................................................................................62
Definizione di caso................................................................................................................................62
R0, dimaniche epidemiche....................................................................................................................63
Procedura statistica...................................................................................................................63
INTRODUZIONE
Fenomeni collettivi

sono quei fenomeni che la nostra mente non può conoscere con una sola
osservazione, ma che invece apprende tramite la sintesi delle osservazioni
di fenomeni più semplici, detti fenomeni individuali.

Popolazione

L’insieme di tutti gli elementi che si vogliono osservare rispetto a un dato


fenomeno si definiscono universo statistico o popolazione.

L’insieme di tutti gli elementi (unità statistiche) che posseggono il


carattere esaminato costituisce l’universo o la popolazione statistica

Unità statistiche

I singoli elementi della popolazione si chiamano unità statistiche. Possono


essere:

 semplici ( singoli individui, incidenti domestici ...)

 composte ovvero aggregati di unità semplici (famiglie, classi


scolastiche)

Statistica Descrittiva

 Metodo deduttivo (dal generale al particolare)

 Raccolta dei dati

 Sintesi dei dati di un campione

 Presentazione dei risultati (analisi esplorativa)

 Trarre indicazioni sull’intera popolazione (descrivere il fenomeno)


Statistica inferenziale

 Metodo induttivo (dal particolare al generale)

 Rilevazioni parziali (campioni rappresentativi)

 Stima dei parametri di una popolazione ignota

 Verifica delle ipotesi

 Trarre indicazioni dal campione che siano valide per l’intera


popolazione

Carattere

Data una popolazione, si definisce carattere una particolare caratteristica


che si presenta in ciascun elemento della popolazione in forme differenti o
modalità

Modalità

Studiare una popolazione secondo un dato carattere significa osservare


come si distribuiscono in essa le modalità del carattere esaminato

Le modalità del carattere in esame devono essere incompatibili ed


esaustive: ciascun elemento della popolazione presenta una e una sola
delle modalità del carattere in esame

Dato statistico

L’attribuzione di una modalità (classificazione delle unità


statistiche) porta alla formazione del dato statistico
Distribuzione statistica

Una distribuzione statistica è l’insieme delle modalità che un carattere


presenta in un insieme N di unità statistiche

Frequenza

Per frequenza si intende il numero di volte che si è manifestato un


fenomeno

Si cercano quale modalità dei caratteri considerati è presente in ciascuna


delle unità statistiche della popolazione e raggruppando (contando) le unità
che si presentano con modalità uguali (frequenze)

Distribuzione di frequenze

Una distribuzione di frequenze fa riferimento al complesso di dati


rilevati unendo quelli con le stesse caratteristiche

 Se la distribuzione di frequenze è fatta per un solo carattere, la


distribuzione è definita semplice
 Se i caratteri rispetto ai quali è fatta la distribuzione sono due, tre ....
m, la distribuzione di frequenza sarà doppia, tripla ,....multipla

Matrice dei dati

Ogni riga corrisponde ad una unità statistica

Ogni colonna rappresenta una variabile

Distribuzione in classi

In presenza di un carattere con molte modalità̀ è possibile formare delle


classi di valori. Ne deriverà̀ una variabile statistica divisa per intervalli o
classi di frequenza
In ciascuna delle classi si raccolgono tutte le osservazioni che cadono al
suo interno. I dati così organizzati costituiscono una distribuzione di
frequenze definita distribuzione in classi.

Il valore centrale di una classe è dato dalla semisomma degli


estremi

Criteri per costruire una distribuzione in classi

 Identificare il campo di variazione (differenza tra il valore più grande


e il più piccolo)
 Suddividere il campo di variazione in un numero conveniente di
classi secondo la numerosità dei dati
 Una tabella con un numero elevato di classi è troppo simile alla
tabella di origine dei dati; una con poche classi, eccessivamente
ampie, fa perdere troppe informazioni
 Gli intervalli di classe dovrebbero avere la stessa ampiezza
 L’obiettivo della divisione in classi è una migliore leggibilità della
tabella senza perdere troppe informazioni

Frequenze cumulate

La frequenza cumulata (assoluta, relativa e percentuale)


in corrispondenza di un valore Xi indica il numero di volte che la variabile
X ha assunto valori pari o inferiori a Xi

RAPPRESENTAZIONI GRAFICHE
Grafico Cartesiano

 Rappresentano caratteri quantitativi discreti, non divisi in classi


(n.°componenti per famiglia, n.° ricoveri in un trimestre....)
 Gli assi x e y rappresentano due variabili: il loro punto di incontro
coincide convenzionalmente col punto di coordinate
 E’ consuetudine assegnare alle ascisse la variabile indipendente
 Ogni coppia di valori (xi,yi) determinerà un punto nel piano;
l’insieme di tutte le coppie determineranno l’insieme dei punti nel
piano e costituiscono la rappresentazione grafica della distribuzione

Grafico per punti

 Consiste nella localizzazione in un diagramma cartesiano dei punti


corrispondenti alle diverse coppie di valori rilevati
 Riesce ad evidenziare visivamente eventuali associazioni tra variabili
quantitative

Grafico a segmenti

 Consente di evidenziare
il collegamento e la
continuità tra misure 120 rilevate( es. serie temporale)
 Permette di valutare contemporaneamente 40 più variabili con
la stessa scala di misura

Istogrammi

 L’istogramma è stato ideato per variabili continue, organizzate in


classi
 Ogni classe si identifica in un rettangolo la cui base corrisponde
all’ampiezza e l’area è proporzionale alla frequenza della classe
 Se la variabile è continua i rettangoli vengono presentati adiacenti
 Nel caso di variabili discrete (o non quantitative) le barre vanno
distanziate tra le modalità
 Le basi sono uguali e l’altezza si identifica con le frequenze
 Per rendere più evidente l’andamento e la forma della
distribuzione si possono congiungere con segmenti di retta i
punti centrali dei lati superiori dei rettangoli ottenendo una
linea spezzata detta poligono di frequenza

Grafici a barre (ortogrammi)

 Rappresentazioni grafiche di dati nominali


 A colonne(rettangoli, segmenti.) il grafico è di tipo verticale

 A nastri (rettangoli, segmenti.) il grafico è di tipo orizzontale

 Ci sono tanti nastri sovrapposti ed equidistanti, quante sono le


modalità qualitative.

 La lunghezza sarà uguale o proporzionale alla frequenza


(assoluta o relativa) o all’intensità della modalità
corrispondente

Diagrammi circolari o areogrammi

 Vengono utilizzati per evidenziare la ripartizione di un insieme


più che la consistenza delle singole parti
 L’area del cerchio viene divisa in modo proporzionale alle
frequenze delle modalità con cui il fenomeno si manifesta

Possibili errori nella costruzione di un grafico

 Titolo incompleto o poco chiaro


 Assenza o carenza di riferimenti identificativi delle variabili
 Assenza del riferimento circa le unità di misura utilizzate
 Carenza nella segnalazione di valori significativi
 Unità grafiche inadeguate

GLI INDICI DI TENDENZA CENTRALE

• Le misure di tendenza centrale servono per individuare il valore intorno


al quale i dati sono raggruppati;
• la tendenza centrale è la misura più appropriata per sintetizzare l’insieme
delle osservazioni raccolte in una distribuzione di dati descritta con un con
un solo valore;

• è la prima informazione sulla della dimensione del fenomeno.

Medie analitiche
L’ applicazione è ammessa solo per le misure quantitative che consentono
operazioni di calcolo su tutti i dati originali in modo da poter rappresentare
algebricamente l’insieme.

Indici di posizione
Forniscono l’unica sintesi possibile per classificazioni ordinali e
qualitative

Media ponderata

Si ricorre al calcolo delle media ponderata quando i valori della


distribuzione sono raggruppati in classi. In tali casi si moltiplica il numero
di osservazioni corrispondente a ciascuna classe per il valore centrale della
classe ottenuto mediante la media aritmetica dei valori estremi della classe
stessa

Limitazioni di impiego della media aritmetica

 Dati non quantitativi


 Differenti ordini di grandezza delle misure
 Presenza di valori estremi molto scostati
 Distribuzioni di frequenza con classe aperte il valore centrale delle
classi aperte non si può calcolare
Moda

 Nel caso di dati espressi su scala nominale l’unico criterio per


sintetizzare la tendenza centrale consiste nell’individuare il gruppo o
il dato che compare maggiormente
 Si chiama moda di una distribuzione di frequenze il dato che
corrisponde alla massima frequenza

Classe Modale

Se le classi hanno uguale ampiezza si può valutare la classe modale


nella classe a maggior frequenza

dove:
𝐿𝐼 = limite inferiore della classe modale
∆𝐼 = eccesso di frequenza della classe modale sulla classe precedente
∆𝑆 = eccesso di frequenza della classe modale sulla classe successiva
c = ampiezza della classe

Mediana

Caratteristica importante della mediana è di non risentire dei valori di testa


e di coda di una serie ordinata. Pertanto è preferibile alla media, quando
per il fenomeno osservato o per un numero modesto di osservazioni, in una
distribuzione si riscontrano valori estremi particolarmente bassi o,
soprattutto, elevati.
La mediana non cambia o cambia di poco (è “robusta”) in presenza di
alcuni dati molto estremi (ad es. con alcuni valori molto alti rispetto agli
altri)

Classe Mediana

Nel caso di distribuzioni in classi i dati sono già ordinati e si procede


all’identificazione della classe mediana, in cui cade l’osservazione
mediana avvalendosi delle frequenze cumulate della distribuzione

Se la distribuzione è in classi,identificata la classe mediana, si calcola il


valore mediano fra quelli compresi nell’intervallo di classe.

Quantili

I quantili separano la distribuzione ad altre frazioni percentuali

Sono indicatori di posizione che come la mediana suddividono in modo


preordinato una serie di dati, in particolare per serie numerose organizzate
in distribuzioni di frequenza

GLI INDICI DI DISPERSIONE

Range

differenza tra valore più alto e più basso

 Lo scarto indica la dimensione della variabilità ma non fornisce


informazioni circa la variabilità della distribuzione
 Considera solo i dati estremi e non informa circa i valori intermedi
Scarto medio semplice assoluto

Definiamo lo SCARTO come la differenza tra la singola osservazione e la


media della distribuzione

Dati valori xi di media x, si chiama scarto semplice medio assoluto


la media aritmetica dei valori assoluti degli scarti xi – x

Devianza

La Devianza è un indice di valutazione della variabilità di una


distribuzione

Varianza

 La devianza non contiene l’informazione sul numero di osservazioni


utilizzato per il calcolo
 La varianza è una devianza media che si rapporta al numero di
osservazioni
 Essa da informazioni circa la variabilità dei singoli valori invece che
per quella complessiva


Gradi di libertà

I gradi di libertà rappresentano il numero di osservazioni indipendenti


della distribuzione (N-1) poiché sui dati disponibili è già stata calcolata la
media

 Variabilità del campione sarà sempre inferiore a quella della


popolazione
 Si adotta un “fattore di correzione” per contrastare una sottostima
della deviazione standard della popolazione

Deviazione standard

E’ più conveniente esprimere la variabilità nello stesso ordine di grandezza


dei dati e della loro media

 La varianza è espressa con un ordine di grandezza al quadrato


rispetto ai dati originali
 Per esprimere la variabilità nello stesso ordine di grandezza si
applica alla varianza la trasformazione inversa al quadrato: la radice
quadrata


Coefficiente di variazione

 Gli indici di variabilità sono espressi nella stessa unità di misura


delle osservazioni e non consentono confronti fra la variabilità di due
distribuzioni espresse in unità di misura diverse
 Non consentono il confronto di distribuzioni che hanno medie
diverse: sono influenzate dall’intensità del carattere
 Il CV è una misura relativa di variabilità: esprime la variabilità in
proporzione alla dimensione media del carattere
 Il CV può essere definito come il rapporto tra la deviazione standard
e la media (in %)
 E’ una misura adatta a confrontare la variabilità fra popolazioni
diverse, fra caratteri diversi o di unità di misure diverse

DISTRIBUZIONE NORMALE
La forma della curva

 L’area di ogni rettangolo rappresenta la proporzione di


casi che cade nella classe

 L’area compresa sotto la curva continua all’interno di ogni


classe data può essere uguagliata all’area del rettangolo
corrispondente

 Con l’aumentare del numero dei rettangoli la somma delle


aree dei rettangoli stessi si avvicina sempre di più all’area
sottesa alla curva continua completa

 Considerato che la somma delle aree dei rettangoli


corrisponde a una unità questo sarà vero anche per l’area
sottesa alla curva continua costruita
Caratteristiche della curva normale

 L’ascissa del punto di massimo è pari alla media (μ) e


coincide con mediana e moda

 L’ordinata del punto di massimo varia al variare di DS (σ)

 È asintotica all’asse x ( quanto più ci si allontana dalla


media

tanto più la curva si avvicina all’asse x)

 È simmetrica rispetto alla retta parallela all’asse y e


passante per l’ascissa del punto massimo

 L’area racchiusa dalla curva è =1

 L’area racchiusa dalla curva, dall’asse x e dalle due


ordinate in corrispondenza di due punti x1 e x2 dà la
percentuale di casi compresi nell’intervallo (x1, x2), posta
l’area sottesa alla curva pari a 100

Proprietà della curva normale

l’area sottesa alla porzione di curva che vi è tra le media e una ordinata
posta a una distanza data, determinata in termini di unità di deviazione
standard, è costante
Se le osservazioni seguono una distribuzione normale l’intervallo
compreso tra

 (x ± 1 DS) include circa il 68% delle osservazioni


 (x ± 2 DS) include circa il 95% delle osservazioni
 (x ± 3 DS) include circa il 99% delle osservazioni

σ è uno dei due parametri ( con x /μ) che caratterizza la


distribuzione normale (Gaussiana)
Curva Normale e variazione di media e deviazione standard

 Al variare della media (parametro di posizione)la curva


trasla (si sposta nel piano parallelamente a se stessa
lungo l’asse x, conservando la stessa forma)

 Al variare di σ (parametro di dispersione) la curva cambia


forma: si appiattisce se σ cresce e si restringe quando σ
decresce

Standardizzazione della curva normale

È possibile trasformare ogni curva normale in modo da permettere di


calcolare il numero di casi sottostante ogni porzione della curva mediante
l’uso di una tabella

Per agevolare il ricercatore la variabile x viene trasformata in una nuova


variabile Z

Mentre la distribuzione di X è normale con media X


e D.S., quella della nuova variabile è normale con media 0 e D.S. 1

La distribuzione standardizzata presenta il vantaggio di consentire la


predisposizione di tabelle che permettono di calcolare porzioni di area
della distribuzione e di stabilire la probabilità statistica di riscontrate valori
in relazione a determinati valori Z

Una Z di valore 1,5 indica che la distanza tra l’ordinata è a 1,5


D.S. dalla media

Esistono tabelle che riportano per tutti le ordinate della curva


standardizzata qual è la proporzione di area sottesa
PROBABILITA’
Evento Aleatorio

Un evento è aleatorio (casuale) quando non si può prevedere con


certezza se avverrà o meno

Concezione frequentista della probabilità

 La probabilità di un evento è la frequenza relativa di successo


in una serie di prove tendenti all’infinito ripetute sotto identiche
condizioni

 Nella concezione frequentista la probabilità è ricavata a


posteriori dall’esame dei dati

Legge dei grandi numeri

• P(E): ripetendo la prova un gran numero di volte si osserva che il


rapporto f = m/n (frequenza relativa) dove m = numero di successi ed n
= numero di prove tende ad avvicinarsi sempre più alla probabilità P(E)

La frequenza relativa f al crescere del numero delle prove, tende,


pur oscillando, verso un valore costante (regolarità statistica)

Concezione soggettivista:

la probabilità P(E) di un evento è un valore


che traduce numericamente un’opinione personale
E’ la quantificazione della misura della fiducia che viene assegnata al
manifestarsi dell’evento

Evento semplice

singola manifestazione di un fenomeno (misura,osservazione, risultato)


che esclude altri eventi (eventi incompatibili: testa o croce nel lancio di
una moneta) .
Evento composto

è costituito da una combinazione di più eventi semplici. Possono


verificarsi simultaneamente ovvero sono compatibili(l’evento testa di una
moneta è compatibile con l’evento croce nel lancio di due monete)

Spazio campione o universo

L’insieme di tutti gli eventi di un fenomeno costituiscono l’universo o


spazio campione (Ω) delle possibilità.

Eventi incompatibili

Due eventi A e B si dicono incompatibili se non possono verificarsi


entrambi nella stessa prova La probabilità del verificarsi di due o
più eventi tra loro incompatibili è la somma delle probabilità
dei singoli eventi

Assiomi della teoria della probabilità

 Ad ogni evento di uno spazio campione è associato un numero, da 0


a 1, detto probabilità dell’evento

 La probabilità 0 è associata all’evento impossibile, la probabilità 1


all’evento certo

Teorema delle probabilità totali principio della somma

La probabilità del verificarsi di due o più eventi tra loro incompatibili è


la somma delle probabilità se il verificarsi di uno esclude il verificarsi
dell’altro
p(E1 o E2) = p(E1) + (E2)

La probabilità del verificarsi di due o più eventi tra loro incompatibili


è la somma delle probabilità dei singoli eventi

Principio della somma per eventi NON mutuamente esclusivi

Se gli eventi NON sono mutuamente esclusivi, la probabilità che


si verifichi l’evento A oppure l’evento B è data da:

P(A + B) = P(A) + P(B) – P(A∩B)

Il principio della probabilità totale può essere espresso come segue P(A o
B)=P(A)+P(B) – (PA e B) in cui P(A e B) rappresenta la probabilità di
ottenere contemporaneamente sia A che B

Es: Probabilità di estrarre da un mazzo di carte una donna (A) e probabilità


di estrarre dallo stesso mazzo una carta di picche(B)

P(A o B)=P(A)+P(B)-P(A e B)=4/52+13/52-1/52=16/52=4/13

Principio del prodotto eventi indipendenti

P(A e B) = P(A ∩ B) = P(A)P(B)

Indipendenza: due eventi si dicono indipendenti quando il


verificarsi dell’uno non influenza il verificarsi dell’altro

Almeno uno

 Determinare (P) un risultato (almeno uno) in una prova

 Almeno uno = uno o più

 Il complementare di almeno uno è nessuno


Probabilità condizionata Eventi dipendenti e indipendenti

 Quando la probabilità di un evento NON cambia in presenza di


condizionamento ad un altro evento, essi si dicono indipendenti

 P(A | B) = P(A)

 A e B si dicono dipendenti se: P(A | B) ≠ P(A)

Principio del prodotto probabilità condizionata

Se X e Y sono eventi che presentano una probabilità condizionata la


probabilità che accadano entrambi è il prodotto della probabilità di Y “dato
X”

X si è già verificato o conosciuto Pr(X e Y)=Pr(X) x Pr(Y|X)

Probabilità condizionata

 La probabilità condizionata di un evento è la probabilità che si


ottiene utilizzando l’informazione circa il verificarsi di un altro
evento

 P(B | A) indica la probabilità che B si verifichi posto che A si sia


verificato

P(B|A)= P(A e B) / P(A)

DISTRIBUZIONI DI PROBABILITA’

Una distribuzione di probabilità è formata dall’insieme di probabilità


associate a tutti i possibili eventi casuali di uno spazio campione

L’insieme dei valori che la variabile può assumere e delle corrispondenti


probabilità costituisce una distribuzione di probabilità
Variabile casuale e variabile statistica

 Una variabile casuale è originata da un esperimento casuale mentre


la variabile statistica emerge dall’osservazione empirica dei
fenomeni del reale

 Per le variabili casuali, in corrispondenza di ciascuna determinazione


della variabile si considera la probabilità, mentre per le variabili
statistiche si considera la frequenza relativa

Distribuzioni di probabilità variabili casuali continue

 La legge di probabilità di una v. c. è espressa da una funzione


matematica p(x) detta funzione di densità di probabilità

 Per una v. c. continua x non è possibile elencare ed enumerare gli


infiniti valori che essa può assumere

Curva di Gauss
distribuzione di probabilità teorica

 Distribuzione di probabilità definita da una funzione matematica


nota con una sua rappresentazione grafica che può descrivere alcuni
fenomeni reali

 Assume un ruolo di primaria importanza nelle metodologie


dell’inferenza statistica e nella soluzione di problemi pratici

 Si ipotizza che gli scarti (positivi e negativi) dal valore vero (x - μ)


abbiano la stessa probabilità di verificarsi e gli scarti maggiori
saranno i meno frequenti

Caratteristiche della curva di Gauss

• E’ simmetrica rispetto alla media:


la probabilità di un valore superiore alla media di una quantità prefissata
è uguale alla probabilità di un valore inferiore per la stessa quantità

• L’area compresa tra la funzione e l’area delle ascisse sia = 1 così da


esaurire lo spazio campionario

 Esiste la probabilità al 100% che la misura sia inclusa nella


distribuzione

 La frazione di area compresa tra due valori della variabile è


assimilabile alla probabilità di riscontrare casualmente una misura
entro tale intervallo

Distribuzione binomiale

Tratta la probabilità di diversi risultati per una serie di eventi casuali,


ognuno dei quali può assumere solo uno tra due valori

Caratteristiche Distribuzione binomiale

 L’esperimento ha un numero fisso di prove;

 Le prove devono essere indipendenti

 L’esito di ogni prova deve appartenere a due sole categorie


(dicotomia)
Formula distribuzione binomiale

n = numero di prove

x = numero di successi in n prove

p = probabilità di successo in una singola prova

q = probabilità di insuccesso in una singola prova(q=1-p)

Distribuzione di Poisson

È utilizzata per descrivere eventi rari (basse probabilità)

La distribuzione di Poisson è una distribuzione di probabilità discreta che


si utilizza per descrivere il n di volte in cui si verifica un evento in un
intervallo specifico

Formula Distribuzione Poisson

Requisiti distribuzione di Poisson

 La variabile aleatoria x indica il n di volte in cui l’evento si verifica in


un qualche intervallo prefissato

 Gli eventi devono verificarsi in modo casuale

 Ogni evento deve verificarsi indipendentemente dagli altri


Inferenza
 Attraverso il metodo statistico probabilistico dell’
Inferenza si formulano ipotesi su una popolazione in
base ai dati di un suo sottoinsieme (campione)
 Le caratteristiche della popolazione (μ,σ) costituiscono
i parametri ignoti
 Gli indici calcolati sul campione rappresentano stime
dei parametri della popolazione

Validità interna
Misura quanto i risultati di uno studio sono corretti per il
campione studiato
La validità interna viene compromessa dalla variazione
casuale e dai bias
La validità interna è una condizione necessaria ma non
sufficiente che lo studio sia utile

Validità esterna
Rappresenta il grado di generalizzabilità delle conclusioni
di uno studio.
La validità esterna misura il grado di verità dell’assunto
secondo cui gli individui studiati con il campione sono
“assimilabili” ad altri pazienti con la stessa condizione
patologica
CAMPIONAMENTO
Requisiti del campione

• Rappresentatività

La capacità del campione di riprodurre le caratteristiche essenziali


dell’universo al quale appartiene

• Numerosità

L’entità numerica delle unità statistiche che entrano a far parte del
campione

Rappresentatività del campione

•Vengono considerati rappresentativi i campioni selezionati


secondo rigorosi criteri casuali

•Un campione si considera rappresentativo quando


probabilisticamente rappresenta l’universo campionario

• La Statistica consente di definire la numerosità campionaria


per garantire la rappresentatività e l’applicabilità delle tecniche
inferenziali

Modalità di selezione del campione

 non probabilistico

 scelta di comodo (campionamento per quote o convenience


sampling)
 scelta ragionata (campionamento ragionato o judgmental sampling)

 probabilistico probabilistic sampling

 randomizzazione semplice

 randomizzazione sistematica

 randomizzazione stratificata

Campionamento casuale semplice randomizzazione

 Il processo di randomizzazione consiste nell’assegnare ad ogni


unità della popolazione una uguale probabilità di essere inclusa
nel campione (principio base del campionamento casuale)

 La selezione si può effettuare per sorteggio

 La buona rappresentatività del campionamento casuale fa riferimento


alla probabilità elevata di selezionare individui che presentano valori
concentrati in corrispondenza della tendenza centrale
(distribuzione gaussiana). Minore probabilità è associata
all’estrazione di individui con scostamento più elevato dalla media

Campionamento per randomizzazione sistematica


 Nel campionamento per randomizzazione sistematica le n unità che
costituiranno il campione sono scelte dalla popolazione ad intervalli
regolari

 La prima unità viene selezionata in modo casuale

ampiezza della popolazione/ampiezza del campione

Errore di campionamento
L‘ errore di campionamento è rappresentato dalla differenza tra i
risultati ottenuti dal campione e la vera caratteristica della popolazione che
vogliamo stimare.
L'errore di campionamento non può mai essere determinato con esattezza,
in quanto la "vera" caratteristica della popolazione è (per definizione)
ignota. Esso tuttavia può essere contenuto entro limiti più o meno ristretti
adottando appropriati metodi di campionamento; inoltre, esso può essere
stimato: ciò significa che, con adatti metodi statistici, si possono
determinare i limiti probabili della sua entità.

Errore accidentale

La variazione casuale

L’errore di campionamento è condizionato dalla variabilità degli individui


della popolazione di riferimento (tutti uguali = errore campionamento
nullo)

Errore di selezione

 Selezione viziata

 La scelta delle unità campionarie non segue regole rigorosamente


casuali

La selezione viziata è quella che determina un campione non


rappresentativo

Campione distorto

Solo quando la scelta delle unità campionarie avviene in modo casuale è


possibile prevedere e calcolare l’entità della differenza tra campione e
popolazione. In caso contrario il campione è distorto.

Un campione distorto tende a fornire risultati che si discostano


sistematicamente dai valori veri
Distorsione da confondimento

 La distorsione da confondimento è presente quando una


variabile J, in grado di modificare la risposta, ha influito
anche nel processo di formazione dei gruppi.

 La differenza tra i gruppi potrebbe non essere reale ma


dovuta alla variabile J che prende il nome di fattore
confondente

Il disegno dello studio e la randomizzazione

È finalizzato a rimuovere le distorsioni sistematiche che potrebbero


influire sulla risposta

Se i gruppi sono simili non può avere agito un meccanismo di distorsione


di selezione

Non può esistere una variabile in grado di influenzare la risposta rispetto


alla quale i gruppi potrebbero essere sbilanciati

La randomizzazione è l’allocazione delle unità ai trattamenti in modo


rigorosamente casuale

Effetti della randomizzazione

 Evita la distorsione da selezione

 Produce un buon equilibrio dei gruppi sperimentali


rispetto ai fattori prognostici

- la randomizzazione non garantisce che i gruppi abbiano la stessa


distribuzione rispetto ai fattori prognostici, ma garantisce con elevata
probabilità che non si verifichi uno squilibrio tale da poter addebitare
ad esso la diversa efficacia dei trattamenti

• Fornisce una base logica al test statistico adottato per il


confronto finale
-se la randomizzazione ha avuto successo, il test statistico sarà
conclusivo nel valutare l’efficacia dei due trattamenti. Altrimenti
oltre al test del protocollo si dovrebbero utilizzare tecniche statistiche
per aggiustare i risultati rispetto a tali fattori di squilibrio

Metodi complessi di campionamento

Si utilizzano quando

 Non è possibile predisporre (per costo o motivi logistici) un listato


della popolazione

 La popolazione è diffusa in un’area molto vasta

 La popolazione consiste di distinti sottogruppi

Condizione essenziale

Ogni unità statistica deve avere uguale probabilità di essere estratta

Campionamento stratificato

 Un campione stratificato viene utilizzato in determinati casi per


aumentare l’efficacia dello schema di campionamento

 Viene costituito, in base ai requisiti scelti, rispettando i rapporti


numerici presenti nella realtà

 La casualità viene rispettata perché per ogni strato viene seguito il


criterio di randomizzazione

 Per poter fornire stime di ordine inferenziale ogni strato dovrebbe


contenere almeno 30 unità

Finalità della stratificazione

Per il campionamento e la statistica inferenziale:

 selezionare un campione che riproduca la struttura della popolazione


 Avere sottogruppi omogenei di popolazione che consentano stime
migliori dei parametri della popolazione

Per l’indagine:

• Individuare insiemi di unità con caratteristiche specifiche

Procedimento campione stratificato

Si utilizza quando la popolazione è articolata in sottogruppi, o strati, che


differiscono rispetto all’oggetto di rilevazione e sono essi stessi di
interesse: stratificazione per età, sesso, residenza,ecc. in indagini
epidemiologiche

Da ogni strato si estrae un sottocampione casuale semplice

La numerosità dei sottocampioni (frazione di campionamento) può essere


calcolata con 2 diversi principi:

- viene estratta la stessa proporzione di individui per ciascun strato;

- viene estratta una proporzione di individui in funzione diretta della


variabilità dello strato nella popolazione

In caso di campionamento proporzionale la numerosità campionaria è


proporzionale alla dimensione dello strato

Vantaggi e Svantaggi campione stratificato

 È più flessibile di quello eseguito con randomizzazione semplice

 Nei diversi strati può essere scelta una percentuale differente (es.
10% in uno strato, 5% in un altro, ecc.)
Lo svantaggio del campionamento stratificato è rappresentato dalla
necessità che prima di scegliere il campione sia noto lo stato di
tutte le unità di campionamento rispetto ai fattori su cui è
basata la stratificazione

Campionamento a più stadi

In alcune indagini è preferibile ricorrere a uno schema di campionamento a


due stadi

Vantaggio le liste dell’unità di popolazione e la loro numerazione sono


richieste solo per gli elementi che appartengono alle unità scelte nel
campione

Svantaggio minore precisione della stima rispetto a un campionamento


casuale semplice della popolazione

INFERENZA STATISTICA

 Si chiama inferenza statistica l’insieme delle tecniche che hanno


come obiettivo la ricerca del grado di validità di ciò che è stato
osservato su uno o più campioni estratti da una popolazione più
ampia.
 Le tecniche permettono di pervenire a certe conclusioni la cui
validità per un collettivo più ampio è espressa in termini
probabilistici

Inferenza

 Attraverso il metodo statistico probabilistico dell’ Inferenza si


formulano ipotesi su una popolazione in base ai dati di un suo
sottoinsieme (campione)
 Le caratteristiche della popolazione (μ,σ) costituiscono i parametri
ignoti
 Gli indici calcolati sul campione rappresentano stime dei parametri
della popolazione
Validità interna

Misura quanto i risultati di uno studio sono corretti per il campione


studiato

La validità interna viene compromessa dalla variazione casuale e dai bias

La validità interna è una condizione necessaria ma non


sufficiente che lo studio sia utile

Validità esterna

Rappresenta il grado di generalizzabilità delle conclusioni di uno studio.

La validità esterna misura il grado di verità dell’assunto secondo cui gli


individui studiati con il campione sono “assimilabili” ad altri pazienti con
la stessa condizione patologica

Inferenza statistica

 La statistica inferenziale offre criteri e metodi che permettono di


stabilire con quale probabilità un risultato da indagini campionarie
possa essere riferito alla popolazione
 Nel caso più semplice vengono valutati i parametri della
popolazione(μ,σ) attraverso stime campionarie
 In casi più complessi viene valutata la probabilità che un fenomeno si
verifichi casualmente o possa essere imputato a fattori sperimentali
(verifica delle ipotesi statistiche)

Parametri

I parametri sono dei valori caratteristici della popolazione la


media aritmetica, un indice di variabilità, la probabilità del verificarsi di
un evento....
Stime

Le stime sono delle funzioni delle osservazioni campionarie e


dipendono dagli elementi del campione Media aritmetica del
campione, frequenza di un dato evento nel campione,.....

Spazio campionario o universo dei campioni

L’insieme di tutti i campioni estraibili casualmente da una


popolazione è detto spazio campionario. Se la popolazione è
finita si parla di universo dei campioni

Al variare del campione nell’universo campionario la stima


assume valori diversi per cui è possibile costruire la sua
distribuzione (distribuzione campionaria)

Stime e stimatori

 Per stimare un parametro (media) della popolazione originaria si


estrae un solo campione
 Tutti i possibili campioni sono estraibili e sono quindi possibili ω
stime del parametro
 Si possono costruire distribuzioni di frequenza delle medie
campionarie che, in termini probabilistici, costituiscono una variabile
casuale descrivibile da un modello discreto o continuo (stimatore)
 Lo stimatore è una variabile casuale definita nell’universo dei
campioni, ovvero, assume valori in ciascun campione di tale insieme
 La conoscenza delle distribuzioni delle medie campionarie consente
di rispondere in termini di probabilità a problemi sull’inferenza delle
medie

Proprietà dello stimatore

 Correttezza. Uno stimatore si dice corretto se la sua media è uguale


al valore del parametro. La mancata coincidenza con il valore del
parametro è imputabile unicamente al caso (campionamento) e non a
un errore sistematico
 Efficienza. Nella classe degli stimatori corretti dello stesso
parametro si definisce efficiente quello che ha la varianza minima
 Consistenza. Uno stimatore corretto è consistente se n (numerosità
campionaria) tende all’infinito e fornisce una stima che coincide con
il parametro.

Lo stimatore della media

 La media aritmetica calcolata sul campione rappresenta la migliore


stima puntuale della media sconosciuta della popolazione
 Al variare del campione nell’universo dei campioni, la media
(calcolata sul campione) varia e descrive una variabile casuale
2
normale con media μ e varianza σ /n

Proprietà della distribuzione delle medie di campionamento

 La media della distribuzione di campionamento delle medie è uguale


alla media della popolazione μ
 La deviazione standard della distribuzione di campionamento delle
2
medie è σ /n
 La forma della distribuzione di campionamento delle medie è
approssimativamente normale, indipendentemente dalla forma della
distribuzione della popolazione e presupposto che n sia
sufficientemente grande

Teorema del limite centrale

 Se un campionamento viene ripetuto infinite volte (diverse stime


della media) per il teorema del limite centrale le medie
campionarie si distribuiscono in modo gaussiano, anche quando non
lo è la distribuzione delle singole misure
 Il valore medio dell’insieme di tutte le possibili medie campionarie
sarà uguale alla media della popolazione d’origine
Errore Standard

 La deviazione standard dell’insieme di tutte le possibili medie


campionarie di campioni di numerosità n, definita errore standard
della media, è funzione sia della deviazione standard della
popolazione, sia della numerosità del campione

 Esprime quanto ciascuna media campionaria si discosta in media


dalla media sconosciuta della popolazione per effetto del
campionamento
 L’errore standard rappresenta l‘incertezza nell’attribuzione alla
popolazione del valore medio rilevato nel campione

 L’errore standard esprime quanto varia ciascuna stima, in media,


dalla media di tutte le stime parametro (variabilità dei campioni)

Fornisce una misura teorica dell’errore accidentale medio da cui è affetta


ciascuna stima

Stima puntuale e stima per intervallo

 Lo stimatore della media è una variabile casuale normale e continua


 È improbabile che la media calcolata sul campione coincida con la
media della popolazione

 Si costruisce una stima basata su un intervallo che con


elevata probabilità comprenda il valore del parametro
Intervalli di confidenza

L’intervallo di confidenza (IC) definisce la fiducia probabilistica


prescelta nello stabilire entro quali valori sia localizzata la media vera in
base alle stime campionarie

L’intervallo di confidenza è uno strumento di controllo dell’errore


accidentale

Interpretazione frequentista

Un intervallo di confidenza al 95% significa che, in media, per ogni 100


intervalli che si costruiscono con tale coefficiente, 95 contengono il valore
del parametro, mentre 5 non lo contengono

Intervallo di confidenza

 Metodo per definire l’intervallo di confidenza


 Stabilire il rischio che si vuole correre nel dichiarare che il parametro
cade entro il limite scelto , quando in realtà non è vero
 Ipotesi: si decide di correre il rischio di sbagliare il 5% delle volte,
ovvero, si utilizza un intervallo di fiducia del 95%
 L’intervallo si ottiene calcolando nelle due direzioni dalla stima
puntuale (es. media del campione) un certo numero di volte l’errore
standard
 Per stimare la media dell’universo μ possiamo ottenere un intervallo
(usando il livello 95%)
Calcolo dell’intervallo di confidenza di una percentuale

 Per ogni proporzione, p, stimata su un campione di dimensione n,


l’ES è dato da

ES(p)= [p(1-p)/n]

Deviazione standard - Errore standard

 La DS mostra la variabilità delle osservazioni individuali, l’ES


mostra la variabilità delle medie
 Mentre la media ± 1,96 DS stima il range in cui ci si potrebbe
aspettare che cadano il 95% delle osservazioni individuali, la media

± 1,96 ES stima il range in cui ci sarebbe da aspettare che cada il 95%


delle medie dei campioni ripetuti (intervallo di riferimento e intervallo di
confidenza)

Poiché la popolazione è unica ha una sola DS con grandezza che dipende


dalla variabilità delle osservazioni.

L’ES è una misura della precisione della stima di un parametro della


popolazione (media, mediana, DS)

Dimensione campionaria nella stima della media

 Per stimare la media di una popolazione(μ) attraverso un campione


casuale semplice, si assume la media del campione stesso(x) come
stima corretta di quella popolazione (la media delle medie di tutti i
possibili campioni è uguale alla media della popolazione).
 Per determinare la dimensione campionaria nel caso di grandi
campioni si usa la distribuzione gaussiana (Z)
Dimensione campionaria nella stima di frequenze relative

TEST DIAGNOSTICI
Sensibilità

Capacità del test di individuare i soggetti che presentano la malattia e


corrisponde alla proporzione dei malati correttamente identificati

Malati positivi/totale malati

Identifica i falsi negativi

Specificità

Capacità del test di individuare i soggetti che NON presentano la malattia


e corrisponde alla proporzione dei sani correttamente identificati

Sani negatitivi/totale negativi

Identifica i falsi positivi

Problema falsi positivi

 Esami costosi e carico per il sistema sanitario


 Fattore psicologico

Problema falsi negativi

 Interventi non abbastanza tempestivi in caso di malattie curabili


 Dipende da: natura e severità della malattia; efficacia e disponibilità
di misure di intervento

Sensibilità o Specificità

E’ preferita un elevata sensibilità quando:

- la malattia è grave
- la malattia è curabile
- sempre che i risultati falsi positivi non provochino gravi danni
psicologici o economici per il paziente

E’ preferita un elevata specificità quando:

- la malattia è grave
- non esiste terapia efficace
- specie se i risultati falsi positivi provocano gravi danni psicologici o
economici per il paziente

Test per variabili continue

Qui non abbiamo positivo o negativo e va presa una decisione sul livello di
cut off da considerare sopra il quale il risultato e considerato Positivo e
sotto il quale Negativo

Valore predittivo di un test

se i risultati di un test sono positivi per il paziente X quale è La probabilità


che il paziente X abbia la malattia?

Valore predittivo positivo

Proporzione di pazienti test positivi che attualmente hanno la malattia

Veri positivi/totale positivi

Probabilità che un soggetto si malato dato che è risultato positivo al test


Valore predittivo negativo

Proporzione di pazienti test negativi che attualmente NON hanno la


malattia

Veri negativi/totale negativi

Probabilità che un soggetto si non malato dato che è risultato negativo al


test

Influenze valore predittivo

1. prevalenza di malattia
2. quando la prevalenza è bassa si una la specificità

Relazione valore predittivo e prevalenza

Il valore predittivo positivo diminuisce al diminuire della prevalenza. Una


bassa prevalenza significa più individui sani e più falsi positivi

Relazione valore predittivo e specificità

Quando aumentiamo la specificità del test aumenta anche il valore


predittivo positivo, più di quanto farebbe con una aumento di sensibilità.
Questo perché stiamo trattando una malattia con bassa prevalenza. La
maggiore parte delle nostre unità statistiche si trova quindi sulla destra tra i
negativi o falsi positivi. Diminuendo quest’ultima categoria diminuisce
anche il denominatore del valore predittivo positivo.

Test multipli
Test in serie

- eseguiti uno dopo l’altro


- aumentano la specificità
- diagnosi non in tempi brevi
Test in parallelo

- eseguiti contemporaneamente
- aumentano la sensibilità
- diagnosi in tempi brevi

Ripetitività dei test

I test devono essere ripetitibili

Variazione dei test

Sorgenti di variabilità:

- Variabilità intra-individuale
- Variabilità tra osservatori

Variazione intra-soggetti
I valori che si ottengono nel misurare alcune caratteristiche che cambiano
nel tempo con variabilità a volte grande

Variazione tra osservatore


Due osservatori non concordano nell’interpretazione del test

Statistica Kappa
Indice statistico che permette di valutare il grado di accordo tra due
valutazioni qualitative effettuate sulle stesse unità statistiche. Usato per
valutazioni qualitative e gli esaminatori sono due. Permette di valutare di
quanto la concordanza tra i valutatori eccede la concordanza che ci si
aspetterebbe solo per effetto del caso.
Test di screening
Procedura che consente l'identificazione di una malattia in fase iniziale
mediante l'applicazione di un test ho procedure di rapido impiego. È un
intervento di prevenzione secondaria che ha come obiettivo il modificare
favorevolmente la storia naturale della malattia.

Esempi test di screening


- test hiv individuano anticorpi a partire da un mese dalla trasmissione
- Test hcv individuano anticorpi a poche settimane dal contagio
- Test tubercolina soggetti con presente o passata infezione da BK
- Pap test in grado di individuare un basso e un alto rischio di lesioni
intra epiteliali

Requisiti di un test di screening


- Modificare favorevolmente il corso della malattia
- Scelta popolazione obiettivo per la quale lo screening è favorevole
- Elevato potere predittivo del test
- Test semplice, economico, riproducibile e non invasivo

Da un punto di vista etico:

- Vantaggio nella diagnosi precoce


- possibilità di intervento terapeutico
- buona qualità della vita
Screening a due stage
i positivi alla prima fase lo screening vengono richiamati per successive
investigazioni che saranno dei test più costosi o più invasivi. Quello che si
spera e che sottoponendo ad altri test solo i positivi si riduca il problema
dei falsi positivi. In seguito ad entrambi i test si può calcolare la specificità
netta.

Covid Test
test molecolare

- Ricerca di geni virali


- Tampone naso faringeo
- Tempo di esecuzione 4 6 ore
- sensibilità 95%
- Specificità 100%

Test antigenico o rapido

- Ricerca di una proteina virale


- Tampone naso faringeo
- Sensibilità 89 95%
- Specificità 85 95%
- tempo di esecuzione 30 minuti

test sierologico

- Ricerca di anticorpi verso il virus


- Prelievo sangue capillare
- Sensibilità 85 95%
- Specificità 90 95%

Test chi-quadro

Due variabili sono associate soltanto quando sono correlate tra di loro in
modo maggiore o minore di quanto si verifichi per un solo effetto del caso.
La statistica è in grado di escludere con un certo grado di probabilità che
una eventuale associazione sia dovuta al caso.

Lo utilizziamo per confrontare due percentuali o proporzioni allo scopo di


verificare se la differenza tra tali percentuali è dovuta al caso oppure no.

Procedimento

Qualunque sia la differenza esistente tra le due percentuali da confrontare


inizialmente bisogna ritenere valida l'ipotesi zero. L'ipotesi zero afferma
che la differenza osservata è dovuta al caso. Può essere rifiutata ho
accettata sulla base del risultato del test. Se rifiutata le due variabili non
sono indipendenti.

Formula

Gradi di libertà
(Numero di righe – 1) x (Numero di colonne – 1)
Se X eh maggiore del valore soglia rifiuto l'ipotesi nulla

Errore di tipo uno

Rifiuto l'ipotesi nulla quando essa è vera in realtà non c'è differenza. P
minore di 0.05

Errore di tipo due

Non rifiuto l'ipotesi nulla quando essa è falsa in realtà esiste differenza p
maggiore di 0.05
P value

probabilità di osservare una differenza della stessa grandezza o più grande


per solo effetto del caso se i due trattamenti fossero equipotenti. Per
convenienza si dice che quando tale probabilità è inferiore al 5% allora si
può affermare che la differenza tra i due gruppi e statisticamente
significativa. Una maggiore indica solamente che il caso potrebbe aver
determinato la differenza osservata e non che la differenza è spiegata dal
caso.
Ipotesi di ricerca

Sono un'insieme di congetture di supposizioni che possono essere il


risultato di anni di osservazioni da parte dei ricercatori e che motivano la
ricerca

Ipotesi statistiche

Sono ipotesi che possono essere formulate in modo da poter essere


valutate da adeguate tecniche statistiche.

Procedimento di ipotesi

1. Ipotesi di lavoro

2. Formulazione ipotesi nulla

3. Rischio di fornire conclusione diversa dalla realtà

4. Disegno esperimento dimensione campione

5. Test statistico appropriato

6. Conduzione esperimento

7. Leggere esperimento
Livello di significatività

Il livello di significatività Alfa è definito come la probabilità di rifiutare


l'ipotesi nulla quando è vera punto è definito come errore di prima specie

Test bidirezionale

si usa il test bidirezionale quando il rifiuto dell'ipotesi nulla è dovuto sia


valori piccoli che ha valori grandi della statistica del test. Nel test a due
code la regione di rifiuto è divisa in due parti ho due code della
distribuzione della statistica del test. L'ipotesi alternativa dice che è
diverso dal valore di riferimento

Test unidirezionale

Quando il rifiuto dell'ipotesi nulla è causato soltanto da valori


sufficientemente piccoli o soltanto da valori sufficientemente grandi della
statistica test. Un test unidirezionale e un test in cui la regione di rifiuto si
trova in una o in un'altra coda della distribuzione. L'ipotesi alternativa dice
che è maggiore o minore del valore di riferimento

Test parametrici e non parametrici


Test parametrici

Per misure continue è possibile effettuare test di tipo parametrico. Si fanno


assunzioni a priori sulla distribuzione.

Requisiti test parametrico

I dati devono essere distribuiti normalmente e quando si confrontano due


gruppi la variabilità deve essere la stessa.

criteri di selezione del test statistico

Obiettivo dello studio

- Confrontare differenze tra medie o proporzioni


- Esistenza di associazioni tra variabili

Tipo di campione

- Singolo campione

- Campioni indipendenti

- Campioni appaiati

Caratteristiche delle variabili

- Continue

- Nominali

- Ordinali

T test
Obiettivi t test

- Valutare la probabilità che un campione si estratto da una


popolazione

- Valutare la differenza tra due medie osservate sia superiore rispetto


ho la differenza che ci si aspetterebbe solo in base al caso

Diverse tipologie di T test

- test t per un singolo campione

- Test t Student per campioni indipendenti

- test t per campioni appaiati

Requisiti di test

Il requisito è che le medie siano distribuite normalmente ma il rado che i


dati reali siano distribuiti normalmente però per il teorema del limite
centrale per campioni con n maggiore di 30 la distribuzione delle medie
campionarie è normale anche se i dati individuali possono presentare
asimmetrie.
Gradi di libertà

Che succede se le campionarie sono piccole? diciamo meno di 50


osservazioni

Il rischio è che la varianza e quindi la Deviazione Standard del campione


rispetto a popolazione da cui il campione è estratto siano sottostimate

Quindi rischiamo una stima che ha un bias

Per compensare questo Bias si ricorre al concetto dei Gradi di Libertà


(Degrees of Freedom, df)

Concettualmente rappresenta il numero di elementi di una serie finita di


dati in grado di cambiare, nota la loro somma complessiva

Se ci sono n elementi in una serie finita, il numero dei gradi di libertà sarà
n-1

Distribuzione t di student

Quindi possiamo calcolare una nuova distribuzione teorica


(concettualmente simile alla distribuzione Z): la distribuzione T di Student

Rispetto alla distribuzione Z, ha le code più “spesse” per dimensioni


campionarie piccole

Assunzioni per un tTest

t Test per dati non appaiati (indipendenti)

- I gruppi da confrontare sono 2


- I dati seguono in modo accettabile una distribuzione normale;
- I dati sono indipendenti;
- La varianza fra i gruppi è uguale

T test per dati appaiati

T test dati appaiati


Test Anova
L'analisi della varianza e un test statistico per la verifica delle ipotesi.
Anova è un'insieme di tecniche statistiche facenti parte la statistica
inferenziale che permettono di confrontare due o più gruppi di dati
confrontando variabilità interna a questi gruppi con la variabilità tra i
gruppi. L'ipotesi nulla prevede che i dati di tutti i gruppi abbiano la stessa
origine ovvero che siano campioni casuali della stessa popolazione e che le
differenze osservate tra i gruppi siano solo dovute al caso.

Considerazioni test anova


Se vera l'ipotesi nulla i dati differiscono tra loro per il solo effetto della
variabilità casuale
Se è vera l'ipotesi alternativa entrambe le fonti di variabilità contribuiscono
a determinare la variabilità complessiva
Il test e quindi basato sull'analisi della variabilità complessiva in funzione
delle diverse cause.

Procedura
- si calcola la varianza entro i gruppi cioè la media della varianza di
ogni gruppo
- si calcola la varianza tra i gruppi cioè l'errore standard tra le medie
- si fa il rapporto tra le due varianze

TEOREMA DI BAYES
Esiste qualche ragionamento induttivo che ci consente di calcolare la causa
conoscendo l'effetto. La statistica bayesiana è fondata sull'idea che i
parametri di una popolazione abbiano delle distribuzioni di probabilità è
che queste riflettano la nostra conoscenza a priori.

osservato un evento, ha formulato delle ipotesi soggettive in base alle sue


conoscenze “a priori”, attribuendo una probabilità a ciascuna ipotesi, ha
accresciuto i dati disponibili mediante altre osservazioni, e quindi si
giudica quale ipotesi fosse più probabile in base ai dati accumulati.

La statistica bayesiana è tutta qui

Statistica frequentista

La statistica frequentista assume che i parametri (ad esempio la media, la


deviazione standard) di una popolazione abbiano un valore determinato
(non casuale), incognito, e privo di una distribuzione di probabilità:

il frequentista analizza i dati per vedere quanto questi sono congrui al


modello statistico da studiare.

Frequentista è più facile cercare la “verità assoluta” il problema e solo


avere un numero di dati sufficienti, al punto che se sono tantissimi ogni
test avrà sempre significatività positiva.

frequentisti ritengono che si debba affidarsi esclusivamente alle


informazioni contenute nel campione osservato,

Statistica bayesiana

Nella statistica bayesiana si parte da una filosofia diametralmente


opposta: un parametro è una variabile random, cioè casuale, e possiede
una sua distribuzione di probabilità.
Il parametro non è noto, ma la sua distribuzione viene stimata a priori
prima di iniziare l’analisi, sulla base delle impressioni soggettive e delle
conoscenze pregresse di un fenomeno ( la prevalenza).

Lo statistico bayesiano parte, infatti, dai dati e non dai modelli, e


decide quindi qual è il modello più congruo ai dati osservati.

si parte con la distribuzione a priori del parametro e si ottiene la


distribuzione finale, che è condizionata dai dati.

Il cervello bayesiano invece ha solo “verità provvisorie” continuamente


aggiornate dai nuovi dati in arrivo.

i bayesiani invece fanno affidamento in maniera esplicita nei conti alla


cosidetta informazione a priori.

EPIDEMIE
EPIDEMIA

più casi di malattia che si presentano in un gruppo di individui o nella


stessa popolazione entro un breve periodo di tempo purchè abbiano la
stessa origine

CASO INDICE

Il primo caso di malattia che introduce il contagio nel gruppo

TASSO DI ATTACCO

% di soggetti recettivi che ammalano in un determinato periodo

CASI SECONDARI

Casi che prendono origine dal caso indice


TASSO DI ATTACCO SECONDARIO
% soggetti recettivi che ammalano a seguito dell’esposizione al caso
indice
Epidemia
Pandemia
Casi sporadici
Endemia
Studio di una epidemia

Definizione dell’esistenza dell’epidemia


Accertamento diagnostico

Caso sentinella
Fattori condizionanti italia

 Invecchiamento progressivo della popolazione


 Calo della natalità
 Aumento del ricorso ai servizi diagnostici
 Nuovi farmaci (e pressioni selettive sull’ecologia microbica)
 Presidi immunitari efficaci e innocui
 Normative
 Miglioramento delle condizioni igienico-sanitarie e nutrizionali
 Stili di vita corretti e non corretti

Focolai di malattia

 UN CASO PARTICOLARE DI INCIDENZA, SI UTILIZZA


QUANDO L'ESPOSIZIONE AL DETERMINANTE (O AI
DETERMINANTI) DI MALATTIA È AVVENUTA PER BREVE
DURATA, E DI SOLITO SU POPOLAZIONI CHIUSE, O BEN
DEFINITE
A NUMEROSITÀ LIMITATA.

 SI TRATTA QUASI SEMPRE DI FOCOLAI DI MALATTIA «A


SORGENTE COMUNE», OSSIA NEI QUALI TUTTI I CASI DI
MALATTIA HANNO AVUTO ORIGINE DA UN'UNICA
ESPOSIZIONE

Tasso di attacco


Tasso di attacco secondario

IL TASSO DI ATTACCO SECONDARIO SI APPLICA ESCLUSIVAMENTE ALLE


MALATTIE TRASMISSIBILI, LA PROPORZIONE DEI CASI (DETTI CASI
SECONDARI) CHE SI SVILUPPANO PER CONTATTO CON UNO O PIÙ CASI
PRIMARI ENTRO UN TEMPO CORRISPONDENTE AL PERIODO DI
INCUBAZIONE DELLA MALATTIA.

Definizione di caso

Caso clinico
+
Uno o più dei seguenti esami di laboratorio: PCR positiva per SARS-CoV
Sieroconversione
Isolamento virale

Criteri d’esclusione
Il sospetto di SARS e SARS CoV 2 può essere escluso se:

 Può essere posta una diagnosi alternativa


 Il siero convalescente (3-4 settimane) è negativo per SARS-CoV
 Il caso era stato sospettato sulla base di un contatto con un caso
indice che successivamente si è rilevato non essere SARS
R0, dimaniche epidemiche

Procedura statistica

Potrebbero piacerti anche