Statistica Chiarimenti

Statistica chiarimenti
1) Distribuzione binomiale non va fatta e nemmeno quella di Poisson. Non verranno chiesti
2) Funzione di densità di probabilità: abbiamo introdotto la distribuzione di probabilità che è una
qualunque legge che associa a ogni valore che la variabile può assumere la propria probabilità, es
abbiamo i valori X della variabile e dobbiamo ad essi associare la probabilità che questa può
assumere. Es esiti di un lancio di dado e la probabilità è 1/6 che esca 1, 1/6 che esca 2, 1/6 che esca
3 cosi via. Questa è una distribuzione uniforme e la sua caratteristica è che ogni valore della
variabile assume la stessa probabilità. C’è il fatto che la somma di tutte le probabilità deve dare 1
cioè prende la probabilità totale e la distribuisce a tutti i valori della variabile; distribuisce
uniformemente la probabilità.
La distribuzione uniforme, binomiale e Poisson cosa hanno in comune? Che qui noi avremo un
numero finito di valori della variabile, finito e discreto (es testa o croce). Quindi è possibile
associare ad ogni variabile X i suoi valori di probabilità.
Cosa succede se però la variabile X non è discreta ma continua come ad esempio altezza peso,
pressione arteriosa? Qui dentro i valori di X diventano infiniti anche in un intervallo finito perché è
una caratteristica delle variabili continue. Allora non posso fare la tabella con X e con la probabilità
perché la probabilità tenderebbe a zero. Allora avremmo infiniti valori la cui probabilità tenderebbe
zero ma che per somma (la probabilità) deve dare 1. Quindi si usa la funzione di densità di
probabilità cioè una funzione matematica che posso graficare (non è una normale gaussiana ma
una distribuzione qualunque) dove in X ci metto i valori della variabile che però sono infiniti e in y
non ci metto la probabilità ma ci metto la densità di probabilità (quanto è densa lì la probabilità). Il
punto è che la probabilità in questo grafico non è rappresentata dall’ordinata ma dall’area sottesa
dalla curva e l’area dice qual è la probabilità di trovare un valore della variabile compreso in un
intervallo ad esempio tra x1 e x2. Quindi L’area sotto la curva è la probabilità e l’1 (cioè la somma
della probabilità che deve dare come somma 1) è l’area totale sottesa dalla curva cioè in altri
termini posso dire che un grafico può rappresentare una funzione di densità di probabilità se la
funzione è sempre positiva e se l’area sottesa dalla curva vale 1 (probabilità totale) quindi non
potrò più associare 1 valore di probabilità a un certo valore X perché quella che trovo con la
funzione è la densità di probabilità e siccome la probabilità è l’area sotto la curva, che area è l’area
di un segmento verticale? È zero, tende a zero che è proprio il concetto che avevamo stabilito
prima. Posso però calcolare tutte le probabilità che voglio se fisso un intervallo di valori; posso
calcolare nel grafico la probabilità che estraendo un soggetto a caso abbia un valore compreso tra
x1 e x2, la probabilità che abbia un valore inferiore a x1, che abbia un valore superiore a x1,
compreso tra x2 e x3, e così via, basta che io fissi un intervallo (PS minore di 3 è un intervallo
compreso tra – infino e +3). Ps sull’asse y c’è la densità di probabilità: qualcosa che numericamente
ci interessa infatti raramente si trovano le tavole della y ma troviamo le aree di una coda in
funzione di un valore x1, x2, x 3 e così via. Io prendo intervalli tra due valori della variabile continua,
a una coppia di valori.
3) Perché si fa standardizzazione della gaussiana? Quando abbiamo a che fare con la gaussiana,
dobbiamo pensare che abbiamo a che fare non con una funzione di densità di probabilità, ma con
una famiglia di funzioni di densità di probabilità. La normale gaussiana se ricordate noi la
indichiamo in questo modo, normale N (di media mi e deviazione stand sigma) cioè la normale
gaussiana ha una certa forma matematica ma all’interno di questa forma matematica (1 su sigma
radice di 2 pigreco x e elevato a -1 su 2sigma quadro per x meno mi chiusa parentesi elevato al
quadrato); al di là della formula matematica, quello che mi interessa è che questa funzione
gaussiana dipende da due parametri mi e sigma. Al variare di questi parametri resto sempre nelle
gaussiane ma avrò sempre gaussiana differente, quindi ho infinite gaussiane (non ne ho una ma
infinite) e per essere più precisi, ho infinite al quadrato gaussiane, al quadrato perché dipende da
due parametri cioè posso tenere mi fisso oppure sigma fisso e variare una delle due in infinti modi e
le due cose vanno contemporaneamente cioè posso cambiarle contemporaneamente sia mi che
sigma. È chiaro che io potrei avere le tavole di ogni specifica gaussiana , tabulo la gaussiana ma non
è conveniente tabulare la gaussiana che mi serve né sarebbe conveniente tabularle tutte
(impossibile perché sono infinite al quadrato) quindi non posso avere infinite tavole quindi riduco
qualunque normale gaussiana a una gaussiana normale standardizzata che è quella di cui ho le
tavole, cioè con le tavole di una sola di queste infinite gaussiane e cioè fisso (per essere una
normale gaussiana) N di parametri fissati cioè 0 di media e 1 di deviazione standard. Questa
normale gaussiana prende il nome di gaussiana normale standardizzata e posso trasformare
qualunque generica gaussiana in una gaussiana normale standardizzata e lo faccio perché in questo
modo posso avere le tavole di 1 sola gaussiana ma risolvere attraverso questa tutti i problemi di
tutte le infinite al quadrato gaussiane.
4) Regressione e correlazione: siamo in un capitolo della statistica che non è più univariato ma
bivariato cioè su uno stesso soggetto la mia unità di campionamento io non rilevo una variabile ma
due e lo scopo è quello di andare ad indagare qual è la relazione tra queste due variabili. Cosa fa la
regressione? La regressione o meglio regressione lineare semplice (semplice=bivariata
lineare=retta) mi dice che se io ho dei punti, data una serie di dati bivariati, la regressione dice qual
è la migliore retta lineare possibile per il set di dati? Avrà equazione y=a+bx. ma il problema è
calcolare b ed a. b lo calcolo come il rapporto fra la codevianza di x e y e la devianza di x ed a la
calcolo imponendo il passaggio per x medio e y medio e conoscendo già b dal primo passaggio.
criterio che dico che questa retta è la migliore possibile? È il Criterio dei minimi quadrati vuol dire
che la somma di questi scarti al quadrato è la più piccola possibile cioè che se scelgo un’altra retta e
faccio la somma degli scarti ho qualcosa di più alto. È la retta che mi garantisce valore più piccolo di
somma degli scarti. Però posso avere la stessa retta anche in situazione diversa: posso avere la
stessa retta con una situazione peggiore e quindi mi serve un indice che misuri quanto bene la retta
si adatta ai dati cioè qual è il grado di legame lineare tra la variabile X e la variabile Y? A questo ci
pensa la correlazione; la correlazione è un indice. Mentre la regressione mi fornisce l’equazione di
una retta, la correlazione è un indice che indichiamo con r minuscolo cioè il coefficiente di
correlazione dato dal rapporto tra codevianza al numeratore e al denominatore la radice del
prodotto della devianza di x per la devianza di y; è un valore sempre compreso tra -1 e 1 dove il
valore più si avvicina a 1 e più la correlazione è perfetta cioè vuol dire che i punti stanno
perfettamente sulla retta se r=1 o r=-1. se r=1 vuol dire che la retta è crescente quindi c’è una
correlazione positiva perfetta (o diretta perfetta), se r=-1 è una correlazione perfetta negativa.
Quindi la differenza tra regressione e correlazione è che la regressione misura qual è la retta
migliore ma non ci dice quanto è buona, mentre la correlazione ci dice quanto è buona, quantifica
la bontà della retta.
5) Coefficiente di determinazione lineare: abbiamo detto che r è coefficiente di correlazione lineare e
si muove tra -1 e 1, tuttavia si preferisce utilizzare R^2 che è esattamente il quadrato di r; eppure
per consuetudine ormai ri scrive con r maiuscola. Questa roba qui r^2 si chiama coefficiente di
determinazione lineare  dal punto di vista informativo sembrerebbe un passaggio assurdo perché
io alla fine ho lo stesso livello di informazioni, non ho informazioni in più ma informazioni in meno
perché r è in valore assoluto. Tuttavia si usa perché in realtà porta un’informazione aggiuntiva cioè
r quadro dice quanto della y io posso spiegare attraverso la x. 0,81 del coefficiente di
determinazione lineare dice che attraverso la x spiego l’81% del fenomeno y, della variabile y e
quindi se volete che il mio modello teorico che ricava la y dalla x è incompleta per il 19%, spiega
tutto tranne il 19%.
6) Monitoraggio di efficacia del trattamento il monitoraggio della sperimentazione vuol dire
diverse cose . vuol dire monitorare la qualità della ricerca cioè verificare nel tempo che la ricerca
mantenga standard di qualità e lo facciamo attraverso analisi del tasso di arruolamento che ho nel
tempo , se mi rendo conto che nell’arruolamento parto con dei valori alti e poi si abbassano vuol
dire che qualità della ricerca sta scemando perché si è perso l’entusiasmo; se invece vedo che c’è
un numero maggiore di arruolamento vuol dire che nella ricerca si sta verificando un allentamento
dai criteri di inclusione ed esclusione. Altri sono il monitoraggio degli effetti collaterali che fa un
comitato etico. Poi c’è monitoraggio delle analisi ad interim o analisi intermedie: logica è ha senso
continuare sperimentazione che durano anni se appare evidente che un farmaco è meglio
dell’altro? È eticamente lecito il fatto di continuare la sperimentazione? Nell’idea che non sia lecito
si fanno analisi intermedie però non posso farle post hoc quindi devo fissare analisi intermedie a
monte nel protocollo quindi prevedendo a priori evito Bias di selezione. Se faccio analisi
evidentemente faccio test di significatività a un livello del 5% ma se faccio 5 analisi ho un 25%, ed è
un rischio enorme mentre nel protocollo ho stabilito che il livello di significatività deve essere
globalmente del 5%. Quindi facendo 5 analisi, voglio globalmente 5% per 5 analisi, io prendo il mio
0,05 e lo divido per 5 = 0,01 vuol dire che ogni analisi ad interim devo farla con un livello di
significatività dell’1% e siccome ne faccio 5 mi dice che il livello di significatività globale resta al 5%.
7) ANOVA come faccio a capire quando il campione è diverso? Faccio analisi di confronto multiplo,
prima premessa, io introduco anova proprio per evitare che ad esempio volendo confrontare 3
campioni, 3 trattamento io debba fare (come si faceva prima di anova) il campione A contro il
campione B, poi B contro C e poi A contro C. il problema era che ogni volta lavorando con test a un
livello del 5% (come nell’interim) io avrei un rischio quasi del 15%. Allora l’idea dell’analisi della
varianza è ‘’non faccio 3 ipotesi nulle e 3 test ma faccio un'unica ipotesi nulla, la mia ipotesi nulla è
che fino a prova contraria tra A, B e C non c’è differenza’’; se respingerò questa ipotesi nulla con
tutte le tecniche dell’analisi della varianza sarò arrivato a dire che non è vero che tutti e 3
trattamenti sono uguali e quindi c’è qualcuno diverso. Qui qualcuno intervien e dice ‘’ma come
faccio a stabilire quale è diverso? Noi di fatto confrontiamo A con B, B con C e A con C e allora
qualcuno dice ‘’ e allora ricado lì’ NO perché io lo faccio solo se l’analisi della varianza è risultata
significativa, non comunque, lo faccio solo se l’analisi della varianza è risultata significativa (1
aspetto); secondo aspetto tengo conto di questo stesso principio qua cioè io quando faccio i
confronti multipli, suddivido la significatività tra il numero di confronti multipli che vado a fare
quindi tengo sotto controllo il livello di significatività globale.
8) T test e anova? È lo stesso concetto, utilizzo t test quando i campioni sono 2, nel caso in cui i
campioni sono più di 2 faccio anova. Ma l’analisi della varianza è stata inventata per 3 o più
campioni ma la posso applicare anche su 1 o 2 campioni e arrivo alla stessa conclusione di test t.
test t però viene utilizzato molto ed è importante perché se i campioni sono 2 la procedura del test
t è molto più semplice dell’analisi della varianza.
9) DEV TOT TRA ED ENTRO? Facciamo caso di 3 gruppi che è il caso minimo dell’analisi della varianza
quindi 3 trattamenti (A, B e C). La DEV tot è la devianza in cui considero tutti i soggetti del gruppo A,
B e C e li confronto, faccio gli scarti al quadrato con la media globale dei 3 campioni. La super
media, quella X medio-medio con due segni sopra la X che chiamiamo media generale; la media
generale è la media di Na+Nb+Nc, di n del totale dei campioni. La DEV tra è la devianza che c’è degli
scarti tra le medie del campione A, del campione B e del campione C rispetto alla media generale
(prima erano i singoli valori, adesso sono le medie dei tre campioni e ne calcolo gli scarti rispetto
alla media generale) e naturalmente devo tener conto della dimensione campionaria quindi
moltiplico per Na, per Nb o per Nc. Nel caso della DEV entro invece confronto ogni singolo
individuo quindi ogni x (chiamiamolo ij) e lo confronto con la media del suo campione, ma lo faccio
per tutti gli individui di tutti e 3 i campioni ma finché si tratta degli individui del gruppo A lo
confronto con la media del gruppo A, quando sono gli individui del gruppo B lì confronto con la
media del gruppo B e quando sono con gli individui del gruppo C li confronto con la media del
gruppo C.
10) Randomizzazione randomizzazione semplice o completa equivale a lanciare in aria una
moneta, arriva il paziente esce T e va nel gruppo di trattamento, C va nel gruppo di controllo (non
dobbiamo pensare che il medico si metta a lanciare la moneta in aria ma semplicemente che c’è un
software che attribuisce secondo criteri analoghi al lancio della moneta l’allocazione). La
randomizzazione semplice ha un grande vantaggio, è la più imprevedibile cioè quella che garantisce
il maggior livello di casualità possibile cioè è davvero la randomizzazione ideale dal punto di vista
della casualità; ha però un difetto non garantisce il bilanciamento della sperimentazione cioè non
garantisce il fatto che alla fine di un lancio di monete i due gruppi abbiano la stessa numerosità e
questo si può testare facilmente soprattutto se il campione è piccolo infatti se lanciate la moneta in
aria 10 volte , è vero che il valore atteso 5C e 5T ma è anche vero che se sommo insieme tutte le
altre probabilità io scopro che è molto più probabile non ottenere 5T e 5C rispetto a tutte le altre
possibilità messe insieme. Questo si fa sentire pesantemente se io sono su una dimensione
campionaria abbastanza piccola; se la dimensione campionaria è grande invece sostanzialmente, è
vero non avrò mai il bilanciamento perfetto ma %mente le cose sono più favorevoli. È uno
sbilanciamento così alto che in un campione piccolo potete osservarlo ma in un campione grande
no, è molto più raro (nella pratica impossibile). Perché si introduce la randomizzazione a blocchi a
permutazione randomizzata? Per garantire il bilanciamento. L’idea è questa: cos’è un blocco?
Faccio un esempio: è una sequenza di 4 assegnazioni di cui 2 al gruppo A (trattamento) e 2 al
gruppo B (di controllo) cioè facciamo degli esempi -> AABB, BBAA, ABAB, BABA, ABBA, BAAB.
Questi sono tutti i 6 blocchi permutati (ricordate nel calcolo combinatorio la permutazione ovvero
conta l’ordina ma la composizione è identica) e sono sistemati in tutti gli ordini possibili, sono 6.
L’idea di fondo dei blocchi a permutazione randomizzata qual è? È che quando arriva il primo
paziente io lancio non una moneta (che assegna A o B) ma un dado perché sono 6 i casi possibili, un
dado per cui se esce il 3 ad esempio, io comincio ad aprire il blocco ABAB; cosa vuol dire? vuol dire
che la persona che è appena arrivata e davanti alla quale virtualmente ho lanciato il dado ed è
venuto 3 viene assegnata al gruppo A, quando arriva la seconda persona non la assegno lanciando
di nuovo un dado ma automaticamente sarà nel gruppo B e quando arriva la terza persona nel
gruppo A e la quarta automaticamente nel gruppo B. quando arriva la 5 persona, il blocco l’ho finito
e lancio nuovamente il dado; diciamo che esce il valore 6 cioè BAAB quindi questa persona andrà
nel gruppo B , la sesta in A, la settima in A e l’ottava in B. ogni volta che si chiude un blocco se ci
fate caso, cosa è successo? Che ho assegnato metà nel gruppo A e metà nel gruppo B cioè ho
ottenuto il bilanciamento; questa cosa la pago con un po’ di prevedibilità cioè è del tutto evidente
che se io ho aperto questo blocco , dopo i primi 3 che sono 2 A e 1B potrò avere naturalmente un B
cioè il quarto soggetto è prevedibile ma anche negli altri è prevedibile e nei primi due casi (AABB e
BBAA) non solo il quarto, ma anche il terzo soggetto è prevedibile perché se sono uscite 2° adesso il
terzo e quarto saranno 2B e stessa cosa se sono usciti 2B , il terzo e quarto saranno 2A. quindi
perde un po’ in casualità, guadagno in bilanciamento. Adesso quando introduco la randomizzazione
stratificata? La randomizzazione stratificata la introduco congiuntamente o alla randomizzazione
semplice o più frequentemente alla randomizzazione a blocchi a permutazione randomizzata
quando io voglio garantirmi non solo il bilanciamento ma anche l’omogeneità della
sperimentazione; omogeneità cosa vuol dire? vuol dire che io avrò determinate caratteristiche
variabili dei soggetti che voglio che siano simili nei due gruppi perché sono potenziali variabili di
confondimento. Come faccio allora? Uso esattamente lo stesso metodo visto fin qui, ma quando
apro un blocco, ad esempio ad esempio il blocco 3 (ABAB) questo non vale per tutti i pazienti ma
per tutti i pazienti di quello strato di popolazione ad esempio delle femmine giovani oppure dei
maschi anziani. Quindi se arriva una femmina giovane e ho aperto il gruppo 3, la femmina giovane
(sesso ed età sono le due variabili che tengo sotto controllo) va nel gruppo A ; poi arriva un maschio
anziano ma questo gruppo ormai è dedicato alle femmine giovani quindi arriva un maschio anziano
e io lancio il dado ed esce il 6 allora questo maschio anziano andrà nel gruppo B, un nuovo maschio
anziano andrà nel gruppo A. arriva di nuovo una femmina giovane e andrà nel gruppo B, arriva un
maschio giovane non ho un blocco aperto quindi lancio il dato, esce 1 ad esempio e quindi questo
maschio giovane andrà nel gruppo 1. Vi rendete conto che man mano che aumenta il numero voi
avete avuto due grandi vantaggi: il primo è che alla fine avrete un bilanciamento perché ogni 4, 2
sono A e 2 sono B ma avendo separato gli strati di popolazione voi vedrete che ogni strato di
popolazione sarà ugualmente rappresentato quindi le variabili di conseguenza saranno omogenee
nei due bracci sperimentali.
11) Validazione cross culturale quando facciamo un questionario clinimetrico lo dobbiamo validare
(attendibilità che si divide in riproducibilità e ripetibilità, validità, responsività, definizione di
minima differenza clinica e poi in subordine sensibilità e specificità). la validazione cross culturale
la maggior parte di questi test sono validati ma nella lingua originale cioè inglese. Ma io poi devo
applicarla a italiani o arabi o cinesi… quindi è fondamentale capire che uno strumento cioè il
questionario è uno strumento validato nella lingua d’origine e se lo traduco non automaticamente
funziona ma va rivalidato cioè un questionario validato in lingua originale va rivalidato con una
procedura ad hoc nella lingua d’origine del paziente su cui deve essere validato.
12) Punteggio standardizzato si intende il valore z, quando passo da una normale qualunque a una
normale standardizzata ho z= x meno mi su sigma; quando trasformo i valori di x attraverso mi e
sigma ottengo il valore di z che è il punteggio standardizzato.
13) Sensibilità e specificità: es siamo in attesa di validare un test diagnostico immunologico per covid
19 o meglio per SARS 2 cov cioè virus SARS coronavirus. Test immunologico vuol dire che si fanno i
tamponi orofaringei e si va a verificare la presenza del virus attraverso PCR, identificando pezzi
specifici di RNA che appartengono a quello specifico coronavirus. Come si fa il test? Test che
devono identificare igg e igm cioè gli anticorpi del momento e gli anticorpi di memoria, identificano
quindi l’infezione attuale e l’infezione del passato e potranno dirmi se ho avuto o no il coronavirus.
(Stessi test che la donna in gravidanza fa per vedere se ha avuto rosolia ad esempio). Il problema di
questi test è quello di avere un certo livello di sensibilità e specificità. Se dicono che questo test ha
sensibilità al 96% e una specificità del 96% che significa? sensibilità di catturare tutti i soggetti
malati, ma questa sensibilità del 96% vuol dire che ne catturo il 96% cioè 4 soggetti su 100 mi
daranno F-. la specificità del 96% siccome indica la capacità di catturare solo i malati, vuol dire che
catturo 4 soggetti che mi daranno come esito la malattia ma che in realtà non sono positivi (quindi
F+). Il problema dei F- è che loro in realtà sono positivi ma non lo sanno e quindi continueranno a
infettare le persone perché sono portatori di patologia; invece il rischio dei F+ è il fatto che credono
di essere immuni ma in realtà non lo sono e quindi si esporranno alla patologia.
14) Calcolo combinatorio per gruppo posso intendere diverse cose, sapere quanto è grande il
gruppo (k) seconda cosa gli stessi oggetti diversi uno dall’altro li posso prendere più volte
(ripetizione verso non ripetizione ) nel primo caso posso prendere lo stesso oggetto più volte (es
proteine k=50 perché ho 50 aa avendone 20 ho ripetizione), poi cosa intendo per gruppo diverso?
Deve variare composizione? Deve variare ordine? O entrambe? Noi abbiamo studiato solo casi
senza ripetizione, cambia la composizione, cambia l’ordine o cambiano entrambe? Se cambia solo
l’ordine si parlerà di permutazioni, se cambiano entrambe parlerò di disposizione, se cambia solo la
composizione parlerò di combinazione. Tutto il calcolo combinatorio si fonde sul principio
fondamentale del calcolo combinatorio  se ho una procedura complessa e la spezzo in k
procedure semplice, allora la procedura complessa si potrà realizzare in n1xn2xn3xnk modi diversi.
15) Valutazione dei soggetti implica il fatto che dobbiamo definire una variabile che sia utile nella
comprensione clinica. Come la misura? Con emoglobina glicata ad esempio per diabetici. Le
variabili di risposta prese in considerazione sono tutte qualitative ordinali? NO dipende dal
contesto: Sono ordinali quando uso questionari clinimetrici, ma se uso emoglobina glicata è
quantitativa, se uso guarigione è qualitativa nominale.

Statistica Chiarimenti

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Statistica Chiarimenti

Caricato da

Copyright:

Formati disponibili

Statistica chiarimenti

Potrebbero piacerti anche