Sei sulla pagina 1di 19

Statistica La statistica una disciplina che ha come fine lo studio quantitativo e qualitativo di un particolare fenomeno in condizioni di non determinismo

o o incertezza ovvero di non completa conoscenza di esso o parte di esso. Studia i modi (descritti attraverso formule matematiche) in cui una realt fenomenica - limitatamente ai fenomeni collettivi - pu essere sintetizzata e quindi compresa. La statistica studia come raccogliere i dati e come analizzarli per ottenere l'informazione che permetta di rispondere alle domande che ci poniamo. Si tratta di avanzare nella conoscenza partendo dall'osservazione e dall'analisi della realt in modo intelligente e obiettivo. lessenza del metodo scientifico.

La prevalenza una misura di frequenza, una formula ad uso epidemiologico mutuata dalla statistica. La prevalenza il rapporto fra il numero di eventi sanitari rilevati in una popolazione in un definito momento (od in un breve arco temporale) e il numero degli individui della popolazione osservati nello stesso periodo. Per migliorare la leggibilit del dato si moltiplica il risultato per una costante (pari a dieci od un suo multiplo), che normalizza il risultato e consente di confrontare campioni di popolazione quantitativamente differenti.

L'incidenza una misura di frequenza, una particolare relazione matematica utilizzata in studi di epidemiologia, che misura quanti nuovi casi di una data malattia compaiono in un determinato lasso di tempo (ad esempio pu essere rapportato ad un mese od un anno, il suo fine ultimo quello di stimare la probabilit di una persona di ammalarsi della malattia in oggetto di esame.

Nella statistica il campione rappresentato dalla popolazione.I test statistici servono a comprendere le caratteristiche di una popolazione target a partire dalle osservazioni.

La randomizzazione un processo di assegnazione casuale dei soggetti inclusi in uno studio a uno
dei gruppi di trattamento (studio parallelo) o a una certa successione di trattamenti (studio cross-over). La randomizzazione ha lo scopo di rendere tendenzialmente simili i gruppi per le loro caratteristiche, soprattutto per i fattori prognostici e di risposta alla terapia in esame, sia quelli noti e misurabili sia quelli ignoti.La randomizzazione permette lapplicabilit dei modelli probabilistici, sui quali si regge dal punto di vista metodologico lintero studio. In questo modo le differenze eventualmente osservate tra i gruppi di pazienti possono essere attribuite al trattamento.Esistono diverse tecniche di randomizzazione, fra cui larandomizzazione a blocchi, la randomizzazione a cluster e larandomizzazione stratificata.

Randomizzazione.semplice E il metodo pi semplice per lassegnazione casuale che pu essere effettuato tramite il lancio di una moneta o di un dado; metodi che, tuttavia, presentano problemi pratici, di validazione e riproducibilit. La randomizzazione semplice viene generalmente attuata utilizzando specifici software o le tabelle dei numeri random presenti nei libri di statistica. Randomizzazione.con.restrizioni Prevede tecniche specifiche per migliorare il bilanciamento tra i due gruppi rispetto al numero di pazienti

progressivamente arruolati (randomizzazione a blocchi) e/o a specifici fattori prognostici (randomizzazione stratificata). Randomizzazione a blocchi. Viene utilizzata per bilanciare lasimmetria quantitativa dei pazienti assegnati ai due gruppi, sia nel corso che al termine dellarruolamento. Il blocco una sequenza della lista di randomizzazione che contiene lo stesso numero di pazienti da assegnare ai trattati (A) ed ai controlli (B). Ad esempio, un blocco di 4 genera sei diverse sequenze, ciascuna delle quali assegna due pazienti al gruppo A e due al B: AABB, ABAB, BBAA, BABA, ABBA, BAAB. Grazie alla progressiva assegnazione bilanciata, la randomizzazione a blocchi garantisce nei due gruppi un numero analogo di pazienti arruolati, anche se il trial viene interrotto precocemente.Alcuni dettagli metodologici: a- il numero dei blocchi deve essere un multiplo dei bracci del trial; b- sono da evitare sia blocchi troppo piccoli, molto prevedibili, sia troppo grandi (nei trial a due bracci sono ottimali blocchi da 8-10). In ogni caso i software consentono di creare liste di randomizzazione a blocchi permutati (di dimensioni variabili), al fine di ridurre ulteriormente la prevedibilit della sequenza; c- la dimensione dei blocchi non deve mai essere resa nota ai professionisti che arruolano i pazienti. Randomizzazione stratificata. Per effetto del caso, specialmente nei trial di piccole dimensioni, i due gruppi possono essere sbilanciati per uno o pi fattori prognostici. La randomizzazione stratificata migliora il bilanciamento di specifici fattori prognostici: ad esempio, al fine di garantire che i fumatori siano equamente distribuiti tra i due gruppi vengono creati due strati (fumatori, non fumatori) e per ogni strato viene generata una lista separata.La randomizzazione stratificata trova poche applicazioni pratiche per varie ragioni: a- il numero elevato di fattori prognostici determina la paradossale necessit di creare troppe liste di randomizzazione (2 fattori prognostici= 4 strati, 3= 8 strati, 4= 16 strati); b- la probabilit di sbilanciamento dei fattori prognostici diminuisce allaumentare dei pazienti arruolati; c- eventuali sbilanciamenti dei fattori prognostici possono essere aggiustati in fase di analisi statistica. La randomizzazione stratificata indispensabile nei trial multicentrici, in particolare se sperimentano strategie interventistiche: ad esempio, in un trial di confronto tra endoarteriectomia e posizionamento di stent in pazienti con stenosi carotidea, ciascun centro (strato) deve arruolare un numero equivalente di pazienti da sottoporre a ciascun intervento.

Tabella di cntingenza
Le tabelle di contingenza sono un particolare tipo di tabelle a doppia entrata (cio tabelle con etichette di riga e di colonna), utilizzate in statistica per rappresentare e analizzare le relazioni tra due o pi variabili. In esse si riportano le frequenze congiunte delle variabili. Il caso pi semplice quello delle tabelle tetracoriche, in cui ciascuna delle due variabili assume solo due possibili valori, ad esempio: Colore degli occhi\Colore dei Capelli

Biondi NonBiondi Totale


21 9 30 19 51 70 40 60 100

Chiari NonChiari Totale

Dove, tra le 100 persone esaminate, 30 presentano capelli biondi, 40 occhi chiari e soltanto 21 hanno capelli biondi e occhi chiari. Da questi dati possibile ricavare i dati restanti della tabella. Utilizzando le tabelle di contingenza e operando specifici calcoli su di esse, si pu arrivare a determinare la dipendenza o indipendenza tra le due variabili considerate, in base al valore assunto dallindice di contingenza quadratico X2 . Le due variabili considerate sono di tipo quantitativo discreto o qualitativo. Indicando tali variabili con X e Y e rispettivamente con xi (i = 1,2,,h) e yj (j=1,2,,k) le modalit rilevate per le due variabili, ad ogni coppia (xi,yj ) si fa corrispondere nella tabella la sua frequenza associata ni,j , cio il numero di elementi, tra gli n della popolazione, che possiedono contemporaneamente la modalit di xi di X e yj di Y. X\Y

x1

y1 n1,1

y2 n1,2

... yj ... n1,j

... ...

yk n1,k

Totale n1,.

x2 ... xi ... xh Totale


dove

n2,1 ... ni,1 ... nh,1 n.,1

n2,2 ... ni,2 ... nh,2 n.,2

... n2,j ... ... ... ni,j ... ... ... nh,j ... n.,j

... ... ... ... ... ...

n2,k ... ni,k ... nh,k n.,k

n2,. ... ni,. ... nh,. n

(i = 1,2,,h) rappresenta le frequenze marginali assolute di X

(j = 1,2,,k) rappresenta le frequenze marginali assolute di Y

Ovviamente, sommando tutte le frequenze assolute presenti nella tabella, troveremo la numerosit n della popolazione:

Dalle frequenze assolute ni,j si ottengono le frequenze relative fi,j calcolando:

X\Y

x1 x2 ... xi ... xh Totale

y1 f1,1 f2,1 ... fi,1 ... fh,1 f.,1

y2 f1,2 f2,2 ... fi,2 ... fh,2 f.,2

... ... ... ... ... ... ... ...

yj f1,j f2,j ... fi,j ... fh,j f.,j

... ... ... ... ... ... ... ...

yk f1,k f2,k ... fi,k ... fh,k f.,k

Totale f1,. f2,. ... fi,. ... fh,. 1

In epidemiologia, l'odds ratio (OR) uno degli indici utilizzati per definire il rapporto di causa-effetto tra due fattori, per esempio tra un fattore di rischio e una malattia. Il calcolo dell'odds ratio prevede il confronto tra le frequenze di comparsa dell'evento (ad esempio, malattia) rispettivamente nei soggetti esposti e in quelli non esposti al fattore di rischio in studio. Esso utilizzato negli studi retrospettivi (caso-controllo), dove non necessaria la raccolta dei dati nel tempo, infatti esso non calcola un andamento ed , anzi, indipendente dal fattore durata. Negli studi prospettici si utilizza invece, allo stesso scopo, il calcolo del rischio relativo. L'odds ratio definito come l'odds della malattia tra soggetti esposti, diviso l'odds della malattia tra soggetti non

esposti.

Se il valore dell'OR uguale a 1, significa che l'odds di eposizione nei sani uguale all'odds di esposizione nei malati, cio il fattore di rischio ininfluente sulla comparsa della malattia. Se il valore dell'OR maggiore di 1, il fattore di rischio o pu essere implicato nella comparsa della malattia; se il valore dell'OR minore di 1 il fattore di rischio in realt una difesa contro la malattia.

Il rischio relativo (risk rate, RR) la probabilit che un soggetto, appartenente ad un gruppo esposto a determinati fattori, sviluppi la malattia, rispetto alla probabilit che un soggetto appartenente ad un gruppo non esposto sviluppi la stessa malattia. Questo indice utilizzato negli studi di coorte dove l'esposizione misurata nel tempo:

RR = I(esposti) / I(nonesposti)
dove I = incidenza, che si definisce come I

= n.nuoviammalati / (n.personetot n.ammalati)

Se l'RR risulta uguale a 1 il fattore di rischio ininfluente sulla comparsa della malattia; se l'RR maggiore di 1 il fattore di rischio implicato nel manifestarsi della malattia; se l'RR minore di 1 il fattore di rischio difende dalla malattia (fattore di difesa). Esempi di applicazione di tale formula sono gli studi riguardanti la correlazione tra il fumo e lo sviluppo di cancro al polmone, nei quali sono stati riscontrati RR > 17.

Esempio

Stress correlato al rumore

variabile indipendente (esposizione) luogo rumoroso luogo non rumoroso

variabile dipendente (malattia) stress stress si no A 60 B 40

100 tot esposti tot non C 20 D 80 100 esposti tot malati e 80 120 200 non tot tot non tot malati e malati malati non

ODDS RATIO=odds di esposizione nei casi/odds di non esposizione nei casi ODDS RATIO=A/C / B/D=A/B X B/C=AXD/BXC ODDS di esposizione nei casi=60/20=3 ODDS di non esposizione nei casi=40/80=0,5 ODDS RATIO=3/0,5=6

RISCHIO RELATIVO=incidenza esposti/incidenza non esposti RR=A/ (A+B) / C/(C+D) Incidenza negli esposti=60/(60+40)=0,6 Incidenza nei non esposti=20/(20+80)=0,2 RR=0,6/0,2=3

Il valore OR e RR se sonop =1 c assenza di associazione tra malattia e fattore,se <1 indica associazione negativa cio il fattore pu proteggere dalla malatia,se <1 il fattore causa la malattia.In questo caso sia OR che RR sono >1 e quindi c correlazione tra stress e rumore.

La frequence ration si usa quando si deve misurare quante volte si verificato un certo evento E. FR=100(totale osservazioni minore/totale osservazioni maggiori Es A osserva 20 eventi,B osserva 19 eventi FR=100(19/20)=90%

Point by point agreement PPA=100xA/(A+B)

Il Kappa di Cohen un coefficiente statistico che rappresenta il grado di accuratezza e affidabilit in una classificazione statistica; un indice di concordanza calcolato in base al rapporto tra l'accordo in eccesso e l'accordo massimo ottenibile.Questo valore deve il suo nome allo scienziato Jacob Cohen. Attraverso la matrice di confusione possivile valutare questo parametro:

dove Pr(a) data dalla somma della prima diagonale della matrice e rappresenta la proporzione dei giudizi concordanti tra i giudici. Mentre Pr(e) il prodotto dei totali positivi sommato a quelli negativi e rappresenta la proporzione dei giudizi concordanti casualmente. Se = 1, allora la statistica rappresenta il caso ottimo. Infatti 0

< = < = 1.

Valori attuali p p' Valori predetti n' totale Falsi negativi P Veri negativi N N' Veri positivi n Falsi positivi totale P'

In statistica bisogna escludere aspetti psicologici e relazionali e affidarsi alla logica e alla scienza. Illues perception:percezine del malassere Illuess narrative:ci che dicono i pazienti affetti dalla malattia In statistica c bisogno di ragionamento diagnostico,valutazione di test diagnostici ect.

Conformit:concordanza o rispondenza con norme,termini,fattori ect Omeostasi o equilibrio: L'omeostasi (dal greco -, stesso posto), la tendenza naturale al
raggiungimento di una relativa stabilit interna delle propriet chimico-fisiche di un organismo vivente, per il quale tale stato di equilibrio deve mantenersi nel tempo, anche al variare delle condizioni esterne, attraverso dei precisi meccanismi autoregolatori.Es lequilibrio della pressione sanguigna.

euritmia:ritmicit anturale come il ritmo cardiao,il ritmo sonno veglia ect

VALORI di RIFERIMENTO Un individuo normale in buono stato di salute non ha segni e sintomi di malattie e non presenta evidenze documentabili di sviluppare malattie, che possano modificare in maniera irreversibile il suo stato di salute, la sua attesa e qualit di vita. Un individuo normale presenta sempre e soltanto valori normali per i test di laboratorio? Poich esistono ampie variazioni dei valori non patologici dei test di laboratorio, legati alla enorme

variabilit individuale (et sesso, razza, abitudini di vita, attivit lavorativa, allenamento fisico, attivit ormonale), alcuni individui, pur presentando valori nellambito di quelli di riferimento (normali), possono avere una patologia non ancora diagnosticabile, possono appartenere ad una popolazione a rischio di sviluppare una malattia, oppure possono essere malati, ma per vari motivi non avere valori alterati in quello specifico test. Lintervallo di valori di riferimento per uno specifico test pu essere valutato e definito in termini statistici. Considerando, come di solito si verifica, una distribuzione gaussiana simmetrica nei valori di distribuzione dei risultati di un test applicato ad una determinata popolazione (di riferimento) e considerando il 5 ed il 95 percentile come valori troppo distanti dalla media, valori di riferimento sono considerati quelli contenuti + 2DS dal valore mediano. Nel processo decisionale un altro grado di incertezza rappresentato dalla variabilit analitica dovuta sia alla non riproducibilit del risultato sullo stesso campione (mancanza di precisione) sia ad un risultato non corretto o differente da quello atteso (vero), anche se riproducibile (mancanza di accuratezza ). I valori che rientrano nellintervallo di riferimento non escludono la presenza di unalterazione fisiopatologica legata ai meccanismi patogenetici della malattia, ed in genere non fanno nascere il dubbio che ci sia, soprattutto quando interpretati e valutati singolarmente e senza tenere nel dovuto conto la storia clinica del paziente. I valori del test, al di fuori dellintervallo di riferimento, rappresentano un segno di laboratorio che costantemente indica la probabilit della presenza della malattia. Quanto pi ristretti sono i limiti degli intervalli di riferimento, tanto pi elevata sar la

percentuale di individui che il test classifica come malati e nei quali non c presenza di malattia (falsi positivi, bassa specificit del test). Daltro canto un intervallo pi ampio dei valori di riferimento comporta laumento della percentuale di individui malati che presentano valori normali (falsi negativi, bassa sensibilit del test). INDIVIDUI di Riferimento costituiscono una POPOLAZIONE di Riferimento dalla quale viene scelto GRUPPO CAMPIONE di Riferimento sul quale vengono determinati i VALORI di Riferimento Sulla base della distribuzione statistica dei VALORI vengono calcolati il LIMITE e gli INTERVALLI di riferimento che servono per valutare i risultati analitici nei PAZIENTI A nostro giudizio ed in base anche ad esperienze professionali ampiamente dibattute e largamente condivise, ci sono tre livelli di intervento affinch i dati ottenuti in laboratorio abbiamo la giusta efficacia clinica e siano importanti ai fini delle attese di salute del paziente. Il primo livello quello della appropriatezza nella richiesta analitica; il secondo quello della migliore effettuazione delle indagini analitiche; il terzo quello della corretta e completa refertazione. La chiave di volta di tutti laggiornamento ed il confronto tra le differenti competenze professionali di tutti gli operatori coinvolti, al fine di definire e migliorare costantemente un modello di attivit assistenziale (interazione laboratorio-clinica) che abbia al centro il pi elevato livello di cura ed il migliore risultato per il paziente.

Nella pratica quotidiana il medico curante si trova abitualmente a dover interpretare e dare il giusto significato ai risultati dei dati analitici. Questi risultati non sono assoluti e risolutivi. Un risultato negativo ad un test non esclude sempre la presenza di malattia ed alcuni risultati possono essere falsamente positivi. Uno dei fattori che influenza la valutazione di un risultato analitico la prevalenza (numero dei casi percentuale) della malattia nella popolazione, ad es. di una certa fascia di et, alla quale il paziente appartiene (neoplasia nei pazienti anziani). Lepidemiologia clinica, applicata ai dati di laboratorio, ha sottolineato limportanza di sensibilit, specificit, valore predittivo positivo o negativo, quali parametri di interpretazione dei risultati analitici. Applicando un test ad una popolazione ampia e significativa di riferimento, i risultati possono essere riassunti in una matrice 2x2. (Figura) RISULTATI DEL TESTS Presenza Assenza di malattia POSITIVI a Veri Positivi b Falsi Positivi c Falsi Negativi d Veri Negativi NEGATIVI di malattia

SENSIBILITA = a/(a+c) SPECIFICITA = d/(b+d) VPP = a/(a+b) VPN = d/(c+d) La sensibilit esprime la percentuale delle persone malate tra quelle risultate positive la test. La sensibilit una misura di quanto il test sia capace di rilevare le malattia quando questa realmente presente: un test molto sensibile ha pochi falsi negativi; la sensibilit di un test influenzata dai falsi negativi. La specificit indica la percentuale delle persone sane tra quelle risultate negative al test. E, quindi, una misura di quanto il test sia capace di individuare lassenza della malattia; un test molto specifico ha pochi falsi positivi; la specificit di un test influenzata dai falsi positivi. La sensibilit e la specificit di un test sono caratteristiche di ciascuna indagine analitica e dipendono dalla metodologia applicata e dalle caratteristiche (biologiche, genetiche, abitudini di vita etc.) della popolazione studiata. Non possibile, quindi, riferire queste propriet al singolo paziente per interpretare correttamente ed in modo inequivocabile il risultato analitico (ad es. tutti i Veri positivi sono malati). Il medico che interpreta il dato di laboratorio pu utilizzare pi appropriatamente la misura del valore predittivo positivo (VPP) o negativo (VPN) del test. Questo equivale a sapere rispondere alla domanda: perch un paziente risultato positivo (o negativo) a quella indagine analitica? Questi valori dipendono criticamente dalla prevalenza della malattia tra la popolazione di riferimento ed alla quale appartiene il paziente sottoposto al test di laboratorio. Minore + la

prevalenza della malattia meno significativa la capacit discriminante del test. I valori predittivi sono valgono per il singolo paziente e non sono criteri generalizzabili. Un altro criterio per interpretare i dati di laboratorio e quello dei Rapporti di verosimiglianza, che sono indipendenti dalla prevalenza della malattia. Se un paziente risultasse positivo ad un test che non desse errori, il paziente sarebbe sicuramente malato (vero positivo). Ma non possiamo prescindere dai falsi positivi che ogni test pu dare. Si tratta di correggere i VP per i FP che dal punto di vista matematico significa: Rapporto di Verosimiglianza Positivo = %VP / % FP (a/(a+c)) (b/(b+d)) che significa vale a dire

Sensibilit / (1-Specificit) Allo stesso modo pu essere espresso il Rapporto di Verosimiglianza Negativo (probabilit che un test sia negativo in persone malate, rispetto alla probabilit che sia negativo in persone sane) (1-Sensibilit) / Specificit) I Rapporti di verosimiglianza hanno numerose propriet: - non variano in popolazioni e sistemi diversi - possono essere utilizzati per il singolo paziente per individuare la probabilit di malattia Tanto pi elevato il rapporto di verosimiglianza positivo, tanto maggiore la probabilit della presenza della malattia; tanto pi basso il rapporto di verosimiglianza negativo, tanto minore la probabilit di malattia. Se ad esempio applichiamo ad un paziente un test la sensibilit e la specificit del quale, rispetto al test standard di riferimento, siano rispettivamente 70% e 92% ed il paziente risulti positivo al test, il

rapporto di verosimiglianza positivo per questo paziente : 0,70/ (1-0,92) = 8,7. Il risultato positivo indica che la verosimiglianza che il paziente sia ammalato aumentata di quasi 9 volte. Per tradurre questo dato in un valore di probabilit necessario applicare il teorema di Bayes, disponibile in formato elettronico sui siti web dellEvidence based medicine. Il teorema afferma che gli odds post-test (rapporto tra la probabilit del verificarsi di un evento e la probabilit che lo stesso non si verifichi) di una malattia sono il prodotto degli odds pre-test per il corrispondente rapporto di verosimiglianza. Limpiego del nomogramma di Fagan evita vari calcoli e consente rapidamente di leggere il valore di probabilit post test. La valutazione dei rapporti di verosimiglianza una stima della possibilit che il paziente sia malato. Pertanto, il medico che valuta il risultato del test conosce il rischio di malattia e pu dare al paziente tutti gli strumenti pi idonei per le decisioni circa il suo stato di salute. Non si potr mai ottenere la sicurezza diagnostica in tutti i casi, ma un risultato positivo aumenta, in maniera significativa e con maggiore certezza, la diagnosi posta sulla base della valutazione anamnestica e clinica del paziente. Condizione necessaria per questo approccio alla valutazione dei test di laboratorio la conoscenza della sensibilit e della specificit del test e quella della probabilit pre-test. Questultima dipendente dalla valutazione del paziente e dei segni e dei sintomi che egli presenta. Pu essere effettuata, sia con il dovuto acume clinico e la necessaria attenzione, sia applicando correttamente criteri clinici decisionali, quali quelli indicati dalle societ scientifiche e dai dati della letteratura scientifica accreditata.

La curva di Gauss
La gaussiana (curva di Gauss) un concetto matematico abbastanza avanzato, ma che ha notevoli implicazioni con il mondo reale. Molte persone ritengono la matematica arida e finiscono per odiarla ("non sono portato per i numeri"). Questa posizione pu essere senz'altro giustificata da un insegnamento troppo nozionistico della materia, insegnamento che fa danni notevoli perch si riscontra che chi ha scarso spirito matematico ben difficilmente comprende a fondo la realt. Per spirito matematico non s'intende la conoscenza delle scienze matematiche, ma la comprensione (a volte intuitiva) di ci che della matematica ha un'applicazione concreta, anzi concretissima. vero che molte nozioni sono assolutamente inutili per chi non le user poi nella sua professione. Pensiamo alla trigonometria, utilissima a un ingegnere, ma inutile a una commessa, a un giornalista ecc. Che importanza "pratica" (cio per la comprensione del mondo) ha sapere che sen2a+cos2a=1? Nessuna. La stessa cosa invece non pu dirsi per altri concetti: la curva di Gauss (da Karl Friedrich Gauss, grande matematico tedesco) ne un esempio. Anzi, questo articolo sar propedeutico a molti altri di alimentazione o di sport che spiegheranno concetti semplicissimi ma fondamentali. Armatevi quindi di buona volont e provate a seguirmi in questa esposizione divulgativa della curva gaussiana.

La distribuzione
Quando dobbiamo giudicare un evento possiamo descriverlo con la distribuzione dei suoi possibili valori. Se lancio una moneta il valore testa ha probabilit 0,5 e idem ne ha il valore croce. Avremo una distribuzione a due soli valori, ognuno dei quali ha probabilit 0,5. La somma dei valori possibili d l'unit (cio la certezza, o esce testa o esce croce: non si considera la possibilit che la moneta resti in piedi!). Se analizziamo la distribuzione di un campione di persone che seguono un certo programma televisivo per decadi di et, magari otteniamo un grafico di questo tipo:

Le cose si complicano quando ho molti valori possibili, addirittura infiniti. Supponiamo per esempio di effettuare tante misurazioni di una stessa grandezza con uno strumento; avremo risultati differenti, dovuti all'inevitabile imprecisione del nostro strumento e del nostro operato, che sono detti errori accidentali. Se rappresentiamo le misure ottenute su un grafico, se il numero di misurazioni molto grande, al limite infinito, la curva che otterremo proprio la curva di Gauss.

Si tratta di una curva dalla classica forma a campana che ha un massimo attorno alla media dei valori misurati e pu essere pi o meno stretta a seconda della dispersione dei valori attorno alla media; la dispersione si misura con la deviazione standard: praticamente una delle propriet della gaussiana che il 68% delle misurazioni differisce dalla media meno della deviazione standard e che il 95% meno di due deviazioni standard: quindi maggiore la deviazione standard, pi la gaussiana "aperta" e pi c' la possibilit che la media (il punto pi alto) non sia rappresentativo di tanti casi. Anche nel caso della curva di Gauss l'area sottesa dalla curva vale 1 perch la somma delle probabilit di tutti i valori d 1, cio la certezza.

Un esempio reale
La distribuzione di Gauss spesso detta normale. L'aggettivo significativo perch indica che moltissimi fenomeni possono essere descritti da una curva gaussiana o Gauss-like (cio simile). Se vero che la gaussiana vale per una popolazione infinita di misurazioni e per eventi del tutto casuali, altres vero che curve a campana (Gauss-like) possono descrivere facilmente molti fenomeni; per detti fenomeni anche i concetti di mediae di deviazione standard continuano a essere validi, anche se spesso solo il primo pu essere definito con una notevole precisione. Supponiamo di considerare l'altezza degli italiani maschi. Analizziamo un campione di 1.000 soggetti. Probabilmente otterremmo una curva a campana, centrata attorno a una media, del tipo 174 cm di media con una "deviazione standard" di circa 20 cm, cio il 95% dei soggetti analizzati sarebbe compreso fra 154 cm e 194 cm.

L'importanza di questi concetti


Siamo sommersi da mail di persone che, dopo aver fatto le analisi del sangue, si preoccupano che un dato valore sia fuorirange. Qual l'errore logico che commettono? Di solito uno dei due:

credere che il range di normalit sia assoluto: al di fuori di esso c' patologia; non conoscere la distribuzione del parametro. Il primo punto quello che genera maggiori preoccupazioni; in realt i parametri clinici si distribuiscono secondo curve a campana centrate attorno a una media; i range di riferimento cercano di indicare con buona probabilit quando si di fronte a un individuo normalmente sano. Un po' come se io dicessi che gli italiani maschi sono alti da 165 a 185 cm: un soggetto alto 163 cm comunque normale, mentre un soggetto adulto alto 140 cm sicuramente affetto da nanismo.

Per capire fino in fondo l'esame occorrerebbe quindi avere non solo il range di riferimento, ma anche la distribuzione completa dei valori nella popolazione, cio capire la "gaussiana" dei valori normali e conoscere la sua deviazione standard. Per esempio, per la glicemia la deviazione standard potrebbe essere 10 mg/dl con una media di 95 mg/dl, per cui, nonostante i valori "consigliati" da un laboratorio siano 80-110, anche un valore di 75 (sportivo) o 115 potrebbe essere attribuito a un soggetto sano. Consideriamo poi che ci sarebbe sempre e comunque un 5% di soggetti sani con valori al di fuori del range 75115. Per altri parametri la deviazione standard potrebbe essere ancora maggiore. Quindi se avete capito il concetto di gaussiana, non tanto importante capire se un parametro vicino alla media della popolazione, quanto se ne talmente lontano da avere pochissime probabilit di essere sani!

Varianza In teoria della probabilit e in statistica la varianza di una variabile aleatoria X (e della distribuzione di probabilit che questa segue) un numero, indicato con Var(X), che fornisce una misura di quanto siano vari i valori assunti dalla variabile, ovvero di quanto si discostino dalla media E[X]. Definizione La varianza di X definita come il valore atteso del quadrato della variabile aleatoria centrata Y=X-E[X]

In statistica viene spesso preferita la radice quadrata della varianza di X, lo scarto tipo (o scarto quadratico medio) indicato con la lettera . Per questo motivo talvolta la varianza viene indicata con 2.Un esempio di "misura" dello scostamento di una variabile aleatoria dalla media dato dal teorema di ebyv che controlla questo scostamento in termini dello scarto tipo:

Propriet La varianza di una variabile aleatoria non mai negativa, ed zero solamente quando la variabile assume quasi certamente un solo valore, P(X=x)=1. Una formula alternativa per la varianza

Questa formula a volte pi pratica per calcolare la varianza. mostra

Dimostrazione Linearit La varianza invariante per traslazione, che lascia fisse le distanze dalla media, e cambia quadraticamente per riscalamento:

mostra Dimostrazione La varianza della somma di due variabili indipendenti pari alla somma delle loro varianze

mostra Dimostrazione Se X e Y non sono indipendenti, la formula viene corretta dalla loro covarianza, , dove

In particolare, la media medesima legge, ha varianza

di n variabili aleatorie indipendenti aventi la

Variabili discrete e continue La varianza di una variabile aleatoria discreta X a valori in un insieme S si calcola attraverso la sua funzione di probabilit:

La varianza di una variabile aleatoria continua X a valori in un insieme S si calcola attraverso la sua densit di probabilit:

Statistica In statistica viene utilizzata pi spesso della varianza la sua radice quadrata, vale a dire lo scarto quadratico medio anche detto deviazione standard. Con riferimento a questa notazione la varianza si trova quindi anche indicata come 2. Stimatori In statistica si utilizzano solitamente due stimatori per la varianza su un campione di cardinalit n:

(anche chiamati varianza campionaria) dove la media.

lo stimatore per

Lo stimatore Sn-1 privo di bias, ovvero il suo valore atteso proprio la varianza . Al contrario, lo stimatore Sn ha un valore atteso diverso dalla varianza, .

Una giustificazione del termine n-1 data dalla necessit di stimare anche la media. Se la media nota, lo stimatore Sn diventa corretto. Questa detta "Correzione di Bessel".

In contrasto con,

Se le Xi seguono la legge normale N(,), lo stimatore S2n-1 segue una legge del 2 UNIQ1623f0936689be3-math-0000004E-QINU Varianza osservata Come per gli stimatori, esistono due diverse varianze osservate sui dati di un

campione

di media osservata

In particolare, sn la media quadratica delle distanze dei valori dalla loro media. Esempi [modifica]

Una variabile aleatoria X di legge di Bernoulli B(p), ovvero che ha probabilit p di fornire "1" e probabilit q=1-p di fornire "0", ha valore medio E[X] = 0P(X = 0) + 1P(X = 1) = P(X = 1) = p; la sua varianza pu essere calcolata come

oppure come

. Il campione {-4, -1, 1, 2, 7} ha media

e le varianze osservate sono

Potrebbero piacerti anche