Sei sulla pagina 1di 19

STATISTICA

La statistica è la scienza che si occupa di raccogliere, organizzare, riassumere e analizzare


le informazioni per trarre conclusioni o per rispondere a domande. Inoltre, la statistica serve
a fornire una misura di confidenza relativa alla conclusione che si trae dall’analisi.

La statistica medica si avvale degli strumenti della statistica nell’ambito delle scienze
biomediche (biologia, biotecnologia, medicina, genetica, …). I metodi della statistica medica
vengono utilizzati nell’epidemiologia, che si occupa dello studio dell’occorrenza delle
malattie (o di eventi di interesse sanitario), delle modalità di comparsa, dei meccanismi
d’azione e dei fattori che la determinano in una popolazione umana.

➔ Dato: rappresentazione di un fenomeno, che presenta attitudine a variare, nel


momento in cui questo accade.
➔ Informazione: comprendere e interpretare i dati generando informazioni.
➔ Conoscenza: dare valore all’informazione per generare conoscenze.

Gli scopi della statistica sono:


• Raccogliere i dati attraverso indagini statistiche;
• Descrivere sinteticamente i dati per generare conoscenze;
• Analizzare le relazioni che intercorrono tra i dati.

La statistica descrittiva descrive una grande massa di dati al fine di sintetizzare e individuare
le caratteristiche fondamentali.

La statistica matematica si avvale di


distribuzioni teoriche per descrivere
i dati attraverso il calcolo delle
probabilità.

La statistica inferenziale è un
insieme di metodi che consentono
di indurre una conclusione sulla
popolazione in base ai dati di un
campione.

La popolazione statistica consiste nella totalità (N) degli elementi (unità statistiche) che
hanno certe caratteristiche. Deve essere definita in modo non equivoco.

Il campione è un sottoinsieme di unità statistiche (n) prese dalla popolazione e viene


utilizzato per trarre conclusioni sulla popolazione. Si ricorre al campione per: economicità,
tempestività, motivi etici. Deve essere rappresentativo della popolazione dal quale viene
«estratto».
VARIABILI

Il fenomeno in studio si presenta in modi diversi nelle varie


unità statistiche (es. variabilità biologica). Chiamiamo
variabile una caratteristica delle unità statistiche che può
assumere una pluralità di valori al variare dell’unità su cui è
rilevata e vengono indicate con lettere maiuscole.

La variabile quantitativa assume valori numerici (quantità).


Può essere:
➢ Continua: può assumere un numero infinito di valori misurati su scale di misura
continue, come ad esempio peso, altezza o livello di espressione genica.
➢ Discreta: assume un numero finito di valori misurati su scale di misura discrete, come
ad esempio numero di campioni ematici, numero di geni sovra -espressi.

La variabile qualitativa assume valori non numerici (qualità).


Può essere:
➢ Ordinale: assume valori per i quali è possibile definire un ordinamento, come ad
esempio il livello di soddisfazione (per nulla, poco, abbastanza, molto,
completamente).
➢ Nominale: non sono dotate di un’unità di misura e su di esse non è possibile definire
alcun tipo di ordinamento, come ad esempio il colore degli occhi.

I dati sono valori numerici o intensità


(per variabili continue) o modalità
(per variabili discrete) che può
assumere una variabile.
Rappresentati da lettere minuscole
con un indice (pedice) che distingue
le diverse unità statistiche tra di loro.
I dati di una rilevazione statistica su n
unità statistiche (righe) con
riferimento a p variabili (colonne),
vengono raccolti nella cosiddetta
«matrice dei dati». La matrice dei dati va sintetizzata attraverso la cosiddetta distribuzione di
frequenza, che mette in evidenza l’occorrenza delle modalità della variabile.
Si devono sintetizzare i dati costruendo la distribuzione di frequenza della nostra(e) variabili.

➢ Per variabili quantitative costruiamo la seriazione: insieme delle intensità e delle


frequenze con cui si è manifestato un fenomeno quantitativo.
➢ Per variabili qualitative costruiamo la serie: insieme delle modalità con cui si è
manifestato un fenomeno qualitativo.
LE FREQUENZE

La frequenza assoluta (ni ) è il conteggio (numero di volte)


con cui un certo valore numerico (per variabili continue) o
modalità (per variabili discrete) si manifesta. Non fornisce
indicazioni sulla reale indicazione del fenomeno.

La frequenza relativa (f i ) è il rapporto tra la frequenza


assoluta (n i ) e il numero di unità statistiche n: ⇒
La somma delle frequenze relative è pari a 1: ⇓
La frequenza relativa fornisce
un’indicazione della dimensione
del fenomeno.

La frequenza cumulata assoluta (N i ) di una


modalità è data dalla somma della sua frequenza
assoluta (n i ) e dalle frequenze assolute delle
precedenti modalità. Si può calcolare per variabili
qualitative ordinali e per variabili quantitative,
ovverosia per variabili per le quali è possibile
definire un ordinamento.

Analogamente, la frequenza cumulata relativa (F i ) di una


modalità è data dalla somma della sua frequenza relativa (f i )
e dalle frequenze relative delle precedenti modalità.

La frequenza cumulata relativa si può


esprimere sotto forma percentuale ( P i ):

Le distribuzioni di frequenza per variabili quantitative


continue vengono sintetizzate in classi. La
formazione di classi disgiunte ed esaustive
presuppone la suddivisione in intervalli e il
raggruppamento delle unità entro determinati
intervalli. Devono essere definiti l’ampiezza degli
intervalli e un valore di riferimento di ciascun
intervallo, tipicamente il valore centrale.
Si ricorre alle classi per evitare di ottenere una
distribuzione con frequenze unitarie. Le classi devono essere disgiunte ed esaustive.
I GRAFICI

Le rappresentazioni grafiche sono il modo più veloce e intuitivo per sintetizzare la


distribuzione di frequenza. Capita spesso però che le rappresentazioni grafiche siano
utilizzate in modo improprio.

Quando la variabile che stiamo rappresentando è una variabile


qualitativa, si possono costruire diagrammi a barre (chiamati anche
a nastri, o bastoncini) o diagrammi circolari (aerogrammi, noti come
torte). Tali tipi di grafici sono formati da barre con altezza
proporzionale alla frequenza (assoluta o relativa) di ogni modalità.
Nel diagramma circolare il cerchio è ripartito in k settori
proporzionali alle frequenze relative delle varie modalità.
Il diagramma a barre è tale per cui le barre hanno tutte uguale
ampiezza e sono staccate tra loro e non bisogna confonderlo con
l’istogramma.

In presenza di una variabile quantitativa, la cui distribuzione è in


classi, si costruisce un istogramma. A differenza del diagramma a
barre, la base di ogni rettangolo è pari all’ampiezza della classe wj ,
mentre l’altezza del rettangolo è pari alla densità di frequenza dj .
La somma delle aree dei rettangoli sarà pari alla numerosità del
campione. L’istogramma è tale per cui i rettangoli che lo
compongono sono contigui e la loro area è pari alla frequenza
assoluta delle varie classi:
➔ Se le classi hanno tutte uguale ampiezza, in ordinata si può
mettere la frequenza assoluta (o relativa).
➔ Più le barre sono strette e alte, tanto maggiore è il numero di unità statistiche per
ogni unità di ampiezza wi della classe.

I fenomeni che la statistica studia coinvolgono


generalmente più di una variabile, cioè sono
fenomeni multivariati. Bisogna organizzare i dati
secondo una distribuzione doppia di frequenze,
detta anche tabella a doppia entrata. Nelle tabelle
a doppia entrata ciascuna unità statistica è
classificata in base alla combinazione delle
modalità dei due caratteri considerati
contemporaneamente.
Anche le distribuzioni di frequenza doppia si possono rappresentare graficamente,
utilizzando grafici a barre.

Il diagramma a dispersione,
noto anche come «scatter
plot», è un grafico che
mostra la relazione tra due
variabili quantitative misurate
sul medesimo individuo.
Consente di individuare
eventuali relazioni tra le
variabili.

Una serie storica, o temporale, è la distribuzione di frequenza


di un fenomeno osservato cronologicamente nel tempo. Si
può rappresentare all’interno di un diagramma a dispersione
unendo i vari punti attraverso una spezzata. Il risultante
grafico è un diagramma a linee.
Distribuzioni di frequenza e
rappresentazioni grafiche sono
il primo passo per sintetizzare i
dati raccolti in un’indagine
statistica. Occorrono però degli
indici di sintesi che descrivano
caratteristiche fondamentali di
una distribuzione, quali la
tendenza centrale e la
variabilità.

INDICI DI FREQUENZA CENTRALE

Il valore (scalare per una variabile continua) o modalità (per una variabile discreta) esprime
sinteticamente come si è manifestata la variabile in esame nel campione considerato,
fornendo indicazioni sull’ordine di grandezza della variabile in esame. E’ il valore di sintesi
che meglio rappresenta la distribuzione, cioè il suo centro. Come tale, mantiene l’unità di
misura della distribuzione.

La media aritmetica rappresenta il


baricentro delle osservazioni. Mantiene
l’unità di misura della variabile e sintetizza
bene distribuzioni simmetriche. E’
fortemente influenzata dalla presenza di
valori estremi della distribuzione («outliers»).

La media aritmetica ponderata si usa


quando le variabili quantitative
vengono sintetizzate in classi
attraverso seriazioni. Per calcolarla si
utilizza il valore centrale delle classi.

La media campionaria X è uno stimatore corretto della


media di popolazione μ. Significa che la media che ho
determinato sul campione è uguale alla media (non
nota) della popolazione.
La media aritmetica è sempre compresa tra il più
piccolo x(1) ed il più grande x(n) dei valori osservati.
Perciò non potrà mai essere maggiore o minore del
valore minimo o massimo.

La media di n unità statistiche suddivise in g


gruppi con frequenze (n 1, n 2,…, n g) è pari
alla media ponderata delle medie dei singoli
gruppi ( X1,X2, …, Xg) con pesi uguali alla
numerosità dei sottogruppi (n 1, n 2,…, n g).

Introduciamo il concetto di scarto dalla media (Xi - X). La


somma degli scarti delle osservazioni dalla media è pari a
zero perché la media aritmetica è il baricentro della
distribuzione.

La media aritmetica risente dei valori


estremi («outliers») della distribuzione
mentre la mediana non è influenzata
dai valori anomali. La mediana è
l’osservazione centrale nella seriazione o serie (per variabili ordinali) dei dati, cioè quella che
lascia alla sua sinistra e alla sua destra il 50% delle osservazioni della distribuzione.
Quando si ha una distribuzione in classi, la
mediana non si può calcolare in base alla
numerosità (pari o dispari) del campione,
bensì si utilizzano le frequenze cumulate
(Fi).Definiamo una classe mediana, e non un
valore puntuale. La classe mediana è la prima
classe la cui frequenza relativa cumulata è
maggiore o uguale di 0.5.
Se la variabile è nominale, non si può definire
una mediana.

All’interno di una distribuzione (serie o


seriazione), la moda è l’intensità (per variabili
continue) o la modalità (per variabili discrete)
con la frequenza più alta. Una distribuzione può
essere unimodale (una sola moda), bimodale
(due mode) o multimodale (più mode). Si può
determinare anche per variabili discrete
nominali. La moda è l’intensità più frequente e
bisogna fare attenzione all’errore di confondere
la moda con la frequenza ad esso associata.

Dato un campione di n unità su cui è


stata rilevata la variabile X, Il
k -esimo quantile, chiamato anche
percentile, è quel valore tale per cui il
k percento delle osservazioni
(ordinate in modo crescente) cadono
al di sotto di esso.
I quartili sono quantili noti perché, come dice la parola stessa, dividono in quattro parti uguali
la distribuzione della variabile.
➢ Il quantile di ordine α=0.5 è la mediana.
➢ Il quantile di ordine k=0.25 è chiamato anche primo quartile (Q1).
➢ Il quantile di ordine k=0.50, la mediana, è chiamato anche secondo quartile (Q2).
➢ Il quantile di ordine k=0.75 è chiamato anche terzo quartile (Q3).

Quando si ha una distribuzione in classi, i quartili non


si possono calcolare in base alla numerosità del
campione, bensì si utilizzano le frequenze cumulate.
Prendiamo la seriazione e definiamo una classe per il
primo, secondo e terzo quartile, e non un valore
puntuale. La classe del primo, secondo e terzo quartile
è la prima classe la cui frequenza relativa cumulata è
maggiore o uguale di 0.25, 0.5 e 0.75 rispettivamente.
INDICI DI DISPERSIONE

Il box -plot, anche detto grafico a scatola, è un grafico che


sintetizza la distribuzione di una variabile quantitativa tramite alcuni
indici di tendenza centrale (media aritmetica, mediana, primo e
terzo quartile) e che si estende dal valore minimo x(1) a quello
massimo x(n).

Le misure di tendenza centrale (media, mediana, moda, quantili) ci


danno informazioni sulla/e manifestazioni più comuni della variabile, ma non sulla sua
variabilità. L’ indice di dispersione è il valore scalare che esprime sinteticamente la variabilità
della variabile in esame nel campione considerato, cioè quanto i dati sono dispersi intorno al
centro (media aritmetica) della nostra distribuzione. Forniscono indirettamente
un’indicazione di quanto l’indice di tendenza centrale rappresenta bene o male la
distribuzione.
Gli indici di dispersione:
➢ Assumono solo valori positivi anche se paradossalmente potrebbero assumere il
valore zero nel caso di una distribuzione degenere, cioè quando la nostra
distribuzione si presenta con una sola intensità o modalità.
➢ Assumono valori tanto maggiori quanto maggiore è la variabilità dei dati.
➢ Si possono determinare solamente per variabili quantitative.

Il campo di variazione (range) è definito come


la differenza tra il massimo e il minimo valore
osservato nella distribuzione. Conserva la
stessa unità di misura della distribuzione.

Il range interquartile è definito come la


differenza tra il terzo quartile, Q3, e il primo
quartile, Q1, della distribuzione. Conserva la
stessa unità di misura della distribuzione.
Il boxplot è il modo più semplice per poter visualizzare il range interquartile. Il range
interquartile identifica un intervallo all’interno del quale cade il 50% delle osservazioni
posizionate nella zona centrale della distribuzione. A differenza del campo di variazione, il
range interquartile non risente dei valori anomali («outliers»).

Sebbene il range interquartile, a differenza del campo di variazione, non sia influenzato dalla
presenza dei valori anomali («outliers»), non è determinato su tutti i dati. Servono indici che
sfruttino l’intera distribuzione della nostra variabile: scarto medio assoluto, devianza,
varianza, deviazione standard…

La varianza campionaria è definita come il


rapporto tra la devianza D e il numero di
osservazioni del campione meno 1. La sua unità
di misura è il quadrato dell’unità di misura della
distribuzione.
Il denominatore della varianza campionaria è pari al numero di osservazioni meno 1, n - 1,
per rendere la varianza campionaria uno stimatore non distorto, cioè corretto, della
corrispondente varianza di popolazione.

La deviazione standard (noto anche come


scarto quadratico medio) è definita come
semplicemente la radice quadrata della
varianza campionaria. Conserva la stessa
unità di misura della distribuzione.

Il coefficiente di variazione CV è definito come il rapporto tra la


deviazione standard e la media aritmetica. Può assumere valori
positivi o negativi a seconda del segno della media. E’ una
misura adimensionale utilizzata per confrontare la variabilità di
due o più variabili diverse che misurano fenomeni con diversa
unità di misura.
STATISTICA SOCIALE

LA TEORIA DEGLI ERRORI

Se si eseguono più misurazioni di una stessa


quantità, i valori misurati sono in genere diversi
dal vero valore θ della quantità oggetto di
misura.
Il rilevamento di una misura comporta sempre
il rischio di commettere un errore. Più l’errore è
lieve, più la misura è affidabile.

Gli errori grossolani vengono commessi in seguito ad una inappropriata applicazione del
metodo analitico. Sono i più semplici da prevenire, infatti basta un’accorta organizzazione
del processo di misurazione.

L’errore sistematico δ si manifesta nella tendenza deterministica di un


dato metodo a sovrastimare/sottostimare il vero valore θ, dove μ è la
media delle misurazioni effettuate.

Dipendono dal metodo o dalle sue condizioni di


esecuzione e influenzano l’accuratezza.
L’esempio classico di errore sistematico è lo
strumento di misura tarato male.

L’errore casuale ε è dovuto a influenze non controllabili che


intervengono durante il processo analitico di misura.E’ imprevedibile
e dovuto alle piccole variazioni che fanno si che le misurazioni
fluttuino attorno alla loro media μ. Possono essere ridotti ma non possono essere eliminati e
influenzano la precisione.

L’errore totale η di una misurazione


(esente da errori grossolani) si può
scomporre come somma dell’errore
sistematico δ e dell’errore casuale ε.

➔ ACCURATEZZA (A): misurazioni in media vicine al valore vero.


➔ PRECISIONE (P): misurazioni poco disperse attorno al valore vero.
CALCOLO DELLE PROBABILITÀ

La teoria delle probabilità è uno strumento fondamentale per studiare e descrivere


esperimenti aleatori ed è composta da definizioni, teoremi e assiomi derivanti dalla teoria
degli insiemi.

Definiamo esperimento aleatorio (o casuale) un qualsiasi processo di osservazione o


misurazione di cui non possiamo prevedere a priori il risultato. I possibili esiti di un
esperimento aleatorio sono detti eventi semplici, sono tali per cui il verificarsi dell’uno
esclude l’altro. L’insieme degli eventi semplici di un esperimento aleatorio viene detto spazio
degli eventi S, o spazio campionario.

➔ Eventi certi: non sussistono dubbi sul fatto che si verifichino.


➔ Eventi impossibili: esiste sempre la certezza sul fatto che non si verifichino.
➔ Evento composto: combinazione di più eventi semplici che si possono verificare in
sequenza (compatibilità).

In matematica, si definisce assioma un enunciato considerato vero pur in assenza di una


formale dimostrazione.

Teoria assiomatica della probabilità


(Kolmogorov). ⇒
La teoria delle probabilità si sviluppa
attorno a due regole fondamentali, la
regola dell’addizione e la regola del
prodotto.

La teoria degli insiemi si avvale dei


diagrammi di Eulero-Venn. Gli insiemi si
indicano con le lettere maiuscole e i suoi
elementi con lettere minuscole.
Relazione di appartenenza ∈ che lega
un elemento all’insieme.

➔ Unione: insieme degli elementi che


appartengono ad A, B o ad entrambi.
➔ Intersezione: insieme degli elementi che
appartengono sia ad A e B.

➔ Due insiemi A e B si dicono disgiunti


quando non hanno elementi in comune,
cioè P(A∩B)=∅.
➔ Due o più insiemi formano una partizione
quando sono tra loro disgiunti e la loro
unione (esaustivi) forma l’insieme universo.

La probabilità dell’unione di due eventi


semplici è un evento composto.
Due o più eventi si dicono incompatibili (o mutuamente
esclusivi) quando il verificarsi di uno esclude gli altri, cioè
quando gli insiemi sono disgiunti, P( A ∩ B) = ∅. La
probabilità dell’unione di due eventi incompatibili è un evento
composto.

Se A e B sono due eventi dello spazio campionario S, si


definisce probabilità condizionata di A dato B. Si fa
riferimento alla probabilità che si verifichi l’evento A (evento
condizionato) nell’ipotesi che si sia verificato l’evento B
(evento condizionante).

Si fa cioè riferimento ad un nuovo spazio


campionario Ω* (ridotto rispetto ad Ω) che coincide
con B. P(A/B) ≠ P(B/A). Ma in caso di eventi
mutuamente esclusivi P(A/B) = P(B/A)= 0.

La probabilità dell’intersezione di due eventi semplici è


un evento composto. ⇒

Due o più eventi si dicono indipendenti quando il


verificarsi di uno non modifica la probabilità di
verificarsi dell’altro. La probabilità dell’intersezione
di due eventi indipendenti è un evento composto.

.
TEST DIAGNOSTICI

Si chiama test diagnostico un esame clinico effettuato per


stabilire se un dato individuo è affetto o no da una certa malattia.
Il test, come ogni esame, ha un certo tipo di errore, può risultare
positivo anche se l’individuo è sano, o negativo se l’individuo è
malato.

Dal punto di vista del calcolo delle probabilità, dobbiamo


considerare due diversi eventi: M presenza della malattia, T
risultato del test. ⇒

La performance di un test dipende dal numero di risultati indesiderati, composto dai falsi
positivi e dai falsi negativi.Il test ideale è quello che non genera falsi positivi e falsi negativi,
ma nella realtà non esiste.
➔ Falsi positivi: il test restituisce valore positivo (T+) quando in realtà la malattia è
assente (M-).
➔ Falsi negativi: il test restituisce valore negativo (T-) quando in realtà la malattia è
presente (M+).

La SENSIBILITA’ e la SPECIFICITA’ sono le due principali caratteristiche utilizzate per


valutare la capacità del test di individuare, rispettivamente, i malati e i sani. Nei test di
screening è molto più importante non bollare come malato un sano che il contrario, perciò
privilegiare la specificità a scapito della sensibilità (che deve comunque rimanere entro certi
valori). Nei primi test diagnostici invece la sensibilità viene privilegiata.

La sensibilità (SE) indica la capacità del test di identificare correttamente


gli individui ammalati. In termini di probabilità, la sensibilità è la probabilità
che un soggetto ammalato risulti positivo al test; si può anche dire che
essa è la proporzione di soggetti ammalati che risultano positivi al test.

La specificità (SP) indica la capacità del test di identificare correttamente


gli individui sani. In termini di probabilità, la specificità è la probabilità che
un soggetto sano risulti negativo al test; si può anche dire che essa è la
proporzione di soggetti sani che risultano negativi al test.

Sensibilità e Specificità sono caratteristiche intrinseche


del test (diagnostico o di screening). Non si troverà mai
un test con sensibilità e specificità contemporaneamente
uguali a 1 (test ideale). L’aumento dell’una comporta una
diminuzione dell’altra.
VARIABILI CASUALI

Una variabile casuale (o aleatoria) è una funzione che associa ad ogni elemento (evento
elementare) dello spazio degli eventi Ω un numero reale: X(ω) → R. Dipende dall’esito di un
fenomeno aleatorio.

Il concetto di variabile casuale è strettamente legato a quello di esperimento aleatorio, a


quello, cioè, di una prova il cui risultato è incerto. E’ diverso, dunque, dal concetto di
variabile statistica, di cui io posso conoscere o meno il valore che questa assume sulle
singole unità, ma rispetto alla quale non c’è nulla di incerto.

Esistono due tipi di variabili casuali: discrete e continue.


➔ Una variabile casuale si dice discreta se assume un numero finito o una infinità
numerabile di valori.
➔ Una variabile casuale si dice continua se assume una infinità non numerabile di
valori.

Si definisce funzione di
probabilità P(x) della
variabile casuale
(discreta) X quella
funzione che associa ad
ogni valore xi la
corrispondente
probabilità pi.

Le variabili casuali
continue assumono un
numero infinito di valori.
Si definisce funzione di
densità di probabilità f(x)
della variabile casuale (continua) X quella funzione tale che:

Le variabili casuali sono contraddistinte da una media, detta


valore atteso E[X], e da una varianza, Var[X].

La variabile casuale binomiale si applica al caso in cui abbiamo una successione di n


esperimenti che possono portare a due possibili
risultati («successo» e «insuccesso») mutuamente
esclusivi indipendenti e tra loro identici. La
probabilità di successo per il singolo esperimento è
p e quella di insuccesso è il suo complementare 1-p.

Il coefficiente binomiale e indica il numero di modi (combinazioni) con


cui si può verificare l’evento x.

Con ! si indica il fattoriale, cioè il prodotto di tutti i numeri naturali


da uno al valore di cui si calcola il fattoriale.
Legati a quelli della distribuzione bernoulliana dal numero di prove n. Il valore atteso è pari
alla probabilità di successo p, E[X]= n∙p. La varianza è pari al prodotto tra la probabilità di
successo e il suo complementare: Var[X] = n∙p∙(1-p).

La distribuzione normale riveste un ruolo fondamentale


nella statistica perché descrive bene il manifestarsi di
molti fenomeni. Una moltitudine di variabili di fenomeni
biologici su scala continua hanno distribuzione normale
(altezza, peso..). Detta gaussiana dal nome del
matematico tedesco Karl Friedrich Gauss (1777 -1855).
➢ La media μ è il parametro di locazione.
➢ La varianza σ ² è il parametro di scala.
Al variare di (μ, σ ²) cambia il centro (locazione) e la
variabilità (scala) della distribuzione.

Il teorema centrale del limite afferma che la somma di


una successione di variabili aleatorie indipendenti e
identicamente distribuite (i.i.d.) si distribuisce
normalmente:

Potrebbero piacerti anche