Sei sulla pagina 1di 51

2019

Università degli studi di


Catania

Venerando
Gambuzza

[Biostatistica]
Introduzione; indici statistici di tendenza centrale e di variabilità; analisi bivariata; probabilità e test
statistici
Introduzione
Cosa è la statistica?
La Statistica è una scienza, strumentale ad altre, che elabora i metodi più idonei per analizzare dati
numerici riguardanti vari fenomeni, in particolare sociali, economici, biologici e naturali. Quando
l’interesse è rivolto alle scienze biologiche e biomediche, e all’interpretazione dei fenomeni
correlati ad esse si usa il termine di biostatistica.
Per cui la statistica è l’insieme delle metodologie per lo studio di fenomeni, singolarmente o
congiuntamente considerati, che hanno l’attitudine a manifestarsi in maniere differenti.
L’unità statistica (o unità d’analisi) è rappresentata dai soggetti o oggetti su cui sono rilevabili le
manifestazioni di una variabile.

Organizzazione della materia vivente


La cellula è l’unità morfologica e fisiologica fondamentale nella struttura degli organismi viventi
dei quali possiede tutte le proprietà:
 Riproduzione
 Assimilazione
 Respirazione
 Accrescimento
 Capacità di sintesi
 Reattività agli stimoli
 Movimento
La materia vivente esiste a diversi livelli di organizzazione. Le forme più semplici sono
rappresentate da virus e dai batteriofagi; a queste seguono le cellule dei procarioti rappresentate
dai batteri e da molte alghe; le forme più complesse sono le cellule tipiche degli eucarioti ai quali
appartengono i protozoi ed i protofiti, organismi unicellulari complessi, e gli organismi
pluricellulari.

La rivelazione dei dati


L’unità di analisi o unità statistica è costituita dal singolo elemento della popolazione in esame al
quale si riferiscono le proprietà studiate (es organismo unicellulare, individuo, studente, classe,
evento, famiglia, organizzazione, istituzione, impresa, unità amministrativa, ecc individuo, specie,
genere, famiglia, ordine, classe, phylum regno).
I casi sono gli esemplari di una data unità di analisi inclusi in una determinata ricerca.
Esempio 1. Se l’unità di analisi è la cellula staminale umana, la singola cellula sarà il caso l’universo
sarà costituito dall’insieme di tutte le cellule staminali.
Esempio 2. Se l’unità di analisi è la cellula della cervice uterina umana, la singola cellula sarà il caso
l’universo sarà costituito dall’insieme di tutte le cellule cervicali, e sui casi si studieranno le
caratteristiche biologiche ad es la presenza di DNA da HPV.

1
Esempio 3.Se l’unità di analisi è la scuola, la singola scuola sarà il caso, l’universo sarà costituito da
tutte le scuole.
Le unità di analisi che denotano in maniera astratta il tipo di organismo biologico al quale si
riferiscono le proprietà di interesse per la ricerca, si contestualizzano nel tempo e nello spazio
nella popolazione di riferimento o universo.
La popolazione di riferimento o universo può essere:
 Totale (esaustiva)
 Campionaria (parziale)
Mentre l’indagine totale fornisce il valore esatto del parametro richiesto (es percentuale, valor
medio, variabilità), l’indagine campionaria ne da solo una stima, cioè un valore approssimato,
affetto da un errore o bias: l’errore di campionamento.
Se un campione è stato scelto con una procedura rigorosamente casuale, se cioè si tratta di un
campione probabilistico, la statistica permette di calcolare l’entità di tale errore.

Rivelazione statistica
Un prerequisito indispensabile alle elaborazioni statistiche è la raccolta dei dati riguardanti il
fenomeno che si vuole studiare.
Una rilevazione statistica è la raccolta di informazioni su un certo fenomeno con un metodo
fornito dalla statistica.
I dati rilevati possono riguardare :
 l’intera popolazione;
 un campione estratto da essa.
Un parametro è una misura che descrive una caratteristica dell’intera popolazione.
Una statistica è una misura che descrive una caratteristica di un Campione estratto da essa.

Popolazione statistica Ω
In senso biologico, la popolazione statistica Ω indica l’insieme di tutti gli individui di un
determinato taxon che si vogliono esaminare rispetto al fenomeno in oggetto.
Gli elementi di una popolazione si chiamano unità statistiche e verranno indicate con ω.
Una popolazione statistica deve essere esattamente delimitata.
 Popolazione. Insieme di tutti gli individui o oggetti cui il fenomeno si riferisce.
 Campione. Sottoinsieme di unità estratto dalla popolazione
 Distribuzione. Insieme delle frequenze relative ai valori campionati
Il campione casuale è un sottoinsieme della popolazione che si vuole considerare, formato da
elementi la cui scelta è affidata al caso ma che segue le regole precise del campionamento.

Carattere
Il carattere di una unità statistica è una particolare caratteristica degli individui della popolazione
stessa che si manifesta in essi con forme differenti.
Il carattere in base al quale effettuare l’organizzazione dei dati deve possedere i seguenti requisiti:
1. Il carattere deve poter assumere modalità diverse.
2
2. Più individui possono possedere la stessa modalità del carattere.
3. Ogni individuo della popolazione deve poter possedere un’unica modalità del carattere.
4. Devono esistere almeno due individui della popolazione per cui il carattere assuma
modalità diverse.
Esempio di carattere. Stato nutrizionale di soggetti adulti:
1. Modalità: sottopeso, normopeso, sovrappeso, obeso.
2. Più individui possono possedere la stessa modalità del carattere.
3. Ogni individuo della popolazione deve poter possedere un’unica modalità del carattere
Ossia le modalità sono mutuamente esclusive.
4. Devono esistere almeno due individui della popolazione per cui il carattere assuma
modalità diverse.

Variabili
Un qualunque fenomeno che può assumere valori o modalità diverse è detto variabile. In
biostatistica le variabili possono essere:
 Qualitative ( sono attributi) che a loro volta possono essere nominali o ordinali.
 Quantitative (sono numeri) che a loro volta possono essere discrete o continue.
E’ una proprietà operazionalizzata di un oggetto che può mutare nel tempo sullo stesso
soggetto/oggetto (studio longitudinale o diacronico) o che può variare tra soggetti/oggetti
contemporaneamente (studio traversale o cross-sectional).

Variabili qualitative

 Variabili nominali: non esiste nessun ordine naturale delle categorie per cui dal loro
confronto si possa stabilire una relazione del tipo minore, maggiore.
 Variabili cardinali: se le sue categorie hanno un ordine naturale non ambiguo.
Le variabili qualitative sono intuitivamente più semplici anche se la loro natura limita le possibilità
di analisi e ne circoscrive il potenziale informativo. Anche le variabili qualitative possono essere
espresse in numeri, ad esempio i primi 2560 casi di AIDS del CDC, affetto 1 o no 0 da sarcoma di
Kaposi (tumore della cute, mucose e linfonodi).
Le variabili nominali che assumono una di due distinte modalità sono dette dicotomiche. Ad
esempio: maschio/femmina variabili dicotomiche o dummy.
Ma non tutte le variabili sono dicotomiche, basti pensare al gruppo sanguigno A, B, 0.
In ambedue i casi l’ordine non importa.
Quando l’ordine tra le categorie di una variabile è importante, siamo dinnanzi a variabili ordinali.
Ad esempio la ferita da arma mortale, grave, mediamente grave, lieve oppure classe della ferita
chirurgica, pulita, contaminata, sporca.
Dati ordinati in ranghi in relazione alla grandezza, ad esempio in ordine decrescente a ciascuna
osservazione è assegnato un numero che corrisponde alla posizione nella sequenza (es Tabella
della mortalità per causa o età).
Esempi di variabili qualitative nominali:
 Genere.

3
 Stati della proprietà: M e F.
 sconnessi, M ≠ F.
 Classificazione degli agenti biologici.
Esempi di variabili qualitative discrete:
 Classe di rischio: variabile qualitativa ordinale.
 Stati della proprietà: basso, medio, alto ed elevato.
 Operazioni: classificazione e ordinamento: basso < medio < alto < elevato.

Variabili quantitative

Mentre le variabili qualitative assegnano alle unità statistiche osservate degli attributi, le variabili
quantitative rappresentano misurazioni numeriche effettuate sulle unità statistiche osservate. Le
variabili discrete possono assumere solo valori interi è rilevante sia l’ordine che la grandezza i
numeri non sono qui simboli ma vere misure, che possono assumere solo valori specifici:
 N di nucleotidi di una sequenza di DNA
 Quanti pasti consumi al giorno?
Invece, le variabili continue possono assumere qualunque valore, anche frazionario
Il tempo, il peso, il livello di colesterolo sierico, concentrazione di metalli pesanti nell’acqua.
Esempi di variabili quantitative discrete. Operativizzazione: conteggio
 N di paia di basi (di una sequenza nucleotidica)
 N di casi di malformazioni congenite a Gela nel 2003.
 N di nuclei in una cellula.
Esempi di variabili quantitative continue. Operativizzazione: misura (stabilire l’unità di misura):
 La concentrazione di mercurio nell’acqua potabile è compreso tra 50 e 500 ng/l
(nanogrammi/litro).
 Le dimensioni di una cellula 4-6 µ.
 Il peso di un organo (es nell'uomo adulto, il cervello pesa mediamente da 1 3 a 1 4 Kg).

La matrice dei dati

La matrice dei dati serve ad organizzare l’informazione (materiale empirico grezzo) in una forma
idonea all’analisi statistica ogni riga rappresenta un caso.

4
Nel linguaggio informatico derivante dall’inglese, ogni riga della matrice è chiamata record il
tracciato record è la chiave di lettura della matrice dei dati poiché indica la posizione delle variabili
nella riga (oltre che lo spazio occupato da ciascuna di esse).
Ogni colonna rappresenta una variabile ovvero una caratteristica osservata e misurata. Il numero
delle colonne della matrice dipende dalla più o meno ampia gamma di informazioni che sono
disponibili per ciascun caso.
L’ input delle informazioni nella matrice dei dati avviene mediante l’operazione di codifica.
Il codice, codebook assegna ad ogni modalità della variabile un valore numerico. Esso deve essere
sempre associato ad una matrice codificata per renderla interpretabile.

Classificazione
Classificare una popolazione Ω secondo un certo carattere (variabile X) significa individuare per
ogni soggetto ω ∈ Ω una ed una sola modalità della variabile X. Attraverso la classificazione,
pertanto, si passa da un certo numero di casi (nella popolazione Ω ad un certo numero di aggettivi
o numeri che rappresentano le modalità del fenomeno (variabile X) rispetto al quale ogni caso
viene classificato. La classificazione è l’operazione logica che presiede alla formazione di una
variabile statistica.

Distribuzioni di frequenze
Distribuzione di Presenze o Frequenze Assolute. Siano:
 Ω: popolazione statistica costituita da N elementi (es studenti)
 X: carattere in esame (es età)
Supponiamo che l’insieme delle modalità del carattere X sia costituito da K elementi, cioè X (Ω) = {
x 1 , x 2… x k }. (Ad es. 18, 19, 20…28 anni)
Il concetto di frequenza è prettamente statistico e si riferisce al numero di volte in cui ricorre una
medesima osservazione. Ad esempio il valore 20 anni ha una frequenza più elevata rispetto al
valore 22 anni in questa aula.
Costruiamo la distribuzione di presenze frequenze assolute avente la seguente struttura:

Dove x i è la i esima modalità del carattere ed ni è il numero di elementi di Ω che presentano le


modalità x i del carattere, cioè le presenze. Ovviamente risulta:
k

∑ ni=N
i=1

5
Distribuzione frequenza relativa. Si dice frequenza relativa (o semplicemente frequenza) della
modalità x i , e si denota con f i, il rapporto fra il numero di presenze di x i ed il numero di elementi
di Ω. In questo caso la popolazione Ω, classificata in base al carattere X, si associa una distribuzione
di frequenza relativa:

Ovviamente risulta:
k

∑ f i=1
i=1

Distribuzioni cumulative. Un’importante caratterizzazione di una variabile statistica viene data


dalla distribuzione cumulativa di frequenza (assoluta o relativa) è calcolata sommando le
frequenze relative per il valore specificato insieme a quelle dei valori precedenti.

Per cui le distribuzioni di frequenze possono essere:


 Assolute (variabile aleatoria, ni )
 Relative o percentuali (%, ni / N )
 Cumulate (cumulate ∑ ni; % cumulate, ∑ ni /N )

Esempio. Distribuzione per età degli iscritti alle scuole medie di Catania.

Il 92.7% degli iscritti ha un’età inferiore o uguale a 13 anni.

Distribuzioni per classi di valori


Quando una rilevazione statistica riguarda una popolazione molto vasta e la variabile statistica che
si considera, pur essendo discreta, assume numerosi valori distinti entro un ampio intervallo, è

6
conveniente raggruppare i valori della variabile in un certo numero di classi o intervalli e, per ogni
classe, riportare il numero dei casi il cui carattere si è manifestato con un valore compreso nella
classe stessa.
Un tipico caso di distribuzione per classi di valori si ha nel caso di variabili statistiche continue.

Nella costruzione delle classi in base alle quali effettuare la classificazione è essenziale poter
individuare con esattezza a quale classe appartiene ciascun caso.

Frequenze assolute di colesterolo sierico in 1067 soggetti maschi di età compresa fra 25 e 34 anni,
Stati Uniti, 1976 1980.

Piramide dell’età: Previsioni demografiche nazionali (ISTAT 2005-2050)

Regola di Sturges
La Regola di Sturges è usata per le distribuzioni per classi di valori:
 Numero di classi da formare : c = 1 + 3.3 log N; N = numero di valori della variabile
( X i max ; X i min )
 Ampiezza di ciascuna classe α =
c
Esempio. La regola di Sturges fornisce dei valori indicativi sul numero delle classi e sull'ampiezza di
ciascuna classe:
 Numero dei valori della variabile (N): 399 80 = 319
 Numero delle classi (c) = 1 + 3.3 log 319 = 9.26 ≈ 9
7
 Ampiezza di ciascuna classe α = 319 / 9 = 35.4
Quindi 9 classi di ampiezza 35.4.
Tuttavia, volendo scegliere una divisione della scala la più semplice possibile (a numeri interi) il
valore 35 4 funziona male se si pone c=8, l'ampiezza diventa a = 319 / 8 = 39.88 ≈ 40 che fornisce
una divisione più semplice:
 inizio della prima classe: 80
 inizio della seconda classe: 120
 ………
 inizio dell'ottava classe: 360

Presentazioni grafiche
Le presentazioni grafiche hanno lo scopo di fornire immediatamente le caratteristiche essenziali
del fenomeno oggetto dell’indagine. Ciò si ottiene facendo corrispondere alcuni disegni alla
distribuzione di frequenze della variabile statistica precedentemente costruita.
Le più importanti rappresentazioni grafiche in biologia sono il diagramma a barre, l’ istogramma, il
poligono di frequenza, il diagramma lineare, il diagramma a settori circolari o a torta.
Diagramma a barre. Il diagramma a barre è una maniera di presentare dati qualitativi nominali
(ma non solo). Sulla scala delle ascisse i diversi valori si susseguono in maniera arbitraria nel caso
di mutabili puramente nominali o con un certo ordinamento nel caso di mutabili ordinali o di
variabili quantitative. In ordinate si riportano le frequenze (assolute o relative) di presentazione. I
dati appaiono, allora, come una successione di rettangoli di larghezza arbitraria e di altezza
proporzionale alla frequenza.
Il modo di presentare con i grafici le variabili numeriche è più vasto. In ordinate si riportano
sempre le frequenze (assolute o relative) di presentazione delle grandezze In ascisse si riportano i
valori ottenuti Se i valori sono riportati con continuità si ottiene un istogramma variabili
quantitative continue

Istogramma. L’ istogramma è la rappresentazione grafica di una funzione nota solo per un certo
numero di valori della variabile: risulta costituita da più rettangoli adiacenti, ognuno dei quali ha
per base un certo intervallo della variabile e un'altezza tale che la sua area rappresenti, nella scala
prefissata, il relativo valore globale della funzione.

8
I dati per una variabile quantitativa discreta sono analoghi a quelli per una variabile qualitativa.
Nella rappresentazione di queste variabili, si vuole spesso mettere in risalto la natura numerica
della variabile. Quindi verrà rappresentato l'asse dei valori, come un asse delle x del piano
cartesiano (ciò non avrebbe senso per variabili qualitative); i rettangoli costituenti l'istogramma
verranno centrati sul valore corrispondente (ad esempio, la base del rettangolo che rappresenta la
frequenza del valore 1 si estenderà da 0,5 a 1,5; quella del valore 2 da 1,5 a 2,5; e così via).
Per cui ogni classe individua un intervallo di valori e il numero di dati che ricade in quella classe
costituisce la frequenza associata a ciascuna classe. I dati si presentano, pertanto, come una
successione di rettangoli di area pari alla frequenza della classe.
La base del rettangolo è l’ampiezza della classe.
L’altezza è data da:
fi
ai
cioè la densità di frequenza, ovvero il rapporto tra la frequenza e l’ampiezza della classe
considerata.

Esempio: Distribuzione per classi d’età.

Poligono di frequenza. Si può costruire (al posto dell'istogramma o sovrapposto a esso)


un poligono di frequenza: ossia se p1 è la frequenza del valore 1 (e quindi l'altezza del rettangolo
corrispondente), p2 la frequenza del valore 2..., si tracceranno sul grafico i punti (1, p1 ), (2,p2 ) e
l'intero segmento che li congiunge, e così via. Spesso, per convenzione, si aggiungono due
segmenti che congiungono il punto iniziale e quello finale all'asse delle x. Il poligono di frequenza

9
assomiglia al grafico di una funzione definita sui reali; si possono quindi usare grafici di funzioni
note come confronto, per avere un'idea migliore del tipo di distribuzione trovata.

Epidemia idrica da Salmonella typhi ad Albano. 1910

Diagramma lineare. Il diagramma lineare mostra la tendenza di un fenomeno evidenziandone


l’entità della variazione nel tempo.
Ad esempio: distribuzione della TB in Italia in rapporto al sesso ed all’età

Diagramma a settori circolari. Esso si rappresenta come parte (settore) dell’area di un cerchio la
frequenza associata a ciascuna modalità della distribuzione.
f ×360 °
L’ampiezza dell’angolo α ° i è ottenuta dalla proporzione: a ° i :360° =f i : N ; da cui a ° i= i .
N
Adatto ad ogni tipo di carattere, ma da utilizzare quando il numero di modalità è limitato.
Esempio. Categorie di dispersione scolastica.

Distribuzione geografia dell’infezione cronica da HBV

10
Indici statistici
Indici statistici descrittivi
Gli indici statistici descrittivi o semplicemente statistiche sono indici che vengono ricavati usando i
dati della variabile statistica al fine di:
 Riassumerne le caratteristiche essenziali;
 consentire un confronto fra distribuzioni diverse.
Tali indici non rappresentano esattamente una distribuzione, ma solo alcuni aspetti.
Sintesi dell’informazione. Una statistica è una sintesi significativa dei dati e può essere:
 Una misura dell’intensità della variabile rilevata indice di tendenza centrale o di posizione.
 Una misura dell’attitudine del fenomeno a variare indice di variabilità.

Indicatori statistici
Per descrivere in modo succinto una variabile osservata si utilizzano delle misure sintetiche dette
Indicatori Statistici
 della tendenza centrale
 della variabilità
Si parla in questo caso di analisi statistica univariata (o monovariata) in quanto ciascun aspetto
della realtà oggetto di studio è considerato separatamente, una variabile alla volta.
Le famiglie di indici descrittivi sono:
 Indici di posizione, che tendono a localizzare la distribuzione
 Indici di variabilità, che tendono a misurare la dispersione
Indici di posizione. Gli indici di posizione tendono ad individuare il valore intorno al quale si
accentra la variabile statistica e forniscono quindi una prima sintesi del fenomeno su cui si sta
indagando. I più usati sono:
 La media aritmetica
 La mediana
 La moda
Indici di variabilità o dispersione. Gli indici di variabilità misurano la dispersione di una variabilità
statistica X. Gli indici di variabilità sono delle costanti non negative; in particolare assumono valore
zero se tutti i valori di X sono uguali fra di loro ed aumentano al crescere della disomogeneità di
tali valori. Considereremo i seguenti indici di variabilità
 Il campo di variazione
 La varianza
 La deviazione standard
Gli obiettivi:
 definire i principali indici di tendenza centrale (media, moda, mediana) e riassumerne le
caratteristiche;
 mettere a confronto l'aspetto di una distribuzione normale (gaussiana) e di una
asimmetrica;

11
 definire alcuni indici di variazione (o indici di dispersione) e precisarne le caratteristiche di
base.
Le statistiche descrittive più utilizzate per dati quantitativi (ma anche qualitativi) sono indici
numerici di posizione e di dispersione:
 gli indici di posizione forniscono informazioni sull’individuo medio o tipico della
distribuzione, indicano pertanto dove si concentrano le osservazioni.
 gli indici di dispersione mostrano quanto sono diversi gli individui ossia quanto
ampiamente sono disperse le osservazioni intorno al centro della distribuzione.
La statistica descrittiva più utilizzata per dati qualitativi o variabili categoriche è la proporzione,
che misura la frazione di osservazioni in una data categoria e che possono definire sempre con:
 gli indici di posizione, che indicano dove si concentrano le osservazioni sono anche
denominate misure di tendenza centrale. Rispondono alla domanda quale modalità della
variabile è più frequente?
 gli indici di dispersione o di variazione indicano quanto sono variabili le osservazioni
rispetto al centro della distribuzione. Rispondono alla domanda quanto sono grandi le
differenze tra gruppi rispetto alle differenze all’interno di essi?
In Biologia la variazione è considerata importante, la “materia prima” dell’evoluzione: se non ci
fosse la variabilità non esisterebbe nemmeno l’uomo.

Indicatori di Tendenza Centrale


Gli indicatori di tendenza centrale, come già citato sono:
 Media: intensità con cui si manifesta un fenomeno quantitativo;
 Mediana: modalità rappresentata dall’osservazione che occupa la posizione centrale; può
essere individuata per caratteri quantitativi e qualitativi ordinali.
1. n dispari: me = (n +1)/2
2. n pari: me = n/2; (n/2)+1
 Moda: modalità più diffusa; può essere calcolata per ogni tipo di variabile

Media aritmetica
La media campionaria è la somma di tutte le osservazioni in un campione divisa per la loro
numerosità è un valore che sostituisce una sola modalità alle varie modalità del carattere e, per il
modo in cui è stata scelta, può ritenersi rappresentativa o tipica.
Media aritmetica. Modalità che se sostituita alle modalità osservate, rende invariata la loro
somma. Può essere calcolata solo per variabili quantitative. Sia Ω una popolazione costituita da N
elementi, e sia X una variabile statistica relativa ad essa Si definisce media aritmetica, e si indica
con X oppure M(X), il valore dato da:

Proprietà della media aritmetica:


1. La media aritmetica rappresenta il baricentro, in senso fisico, della distribuzione;

12
2. La media aritmetica è sempre compresa tra il valore più piccolo e quello più grande delle
modalità del carattere;
3. La somma degli scarti della media è sempre nulla, cioè:

Media aritmetica Ponderata. Se X è una variabile statistica che presenta un numero finito di
modalità, allora la media aritmetica si può esprimere anche come:

ni xi
dove rappresenta il numero di presenza (o frequenza) della modalità .
Tale espressione viene anche chiamata media aritmetica ponderata. Analogamente, se si
considera la distribuzione di frequenze relative di X si ha:

Un’ importante applicazione della media aritmetica ponderata si ha nel caso in cui le varie x i non
sono singole osservazioni ma medie.
Ad esempio consideriamo le seguenti tre medie basate su campioni estratti da una stessa
popolazione ma aventi dimensioni diversa:

La media pesata sarà allora data da:

Il calcolo della media prende in considerazione la grandezza di ogni singola osservazione in una
serie di dati. Che cosa accade quando un’osservazione ha un valore molto diverso dagli altri? La
media è estremamente sensibile a valori atipici.

Mediana
La mediana è la modalità che occupa la posizione (rango) centrale in una serie ordinata di dati.
Può essere individuata per caratteri quantitativi e qualitativi ordinali. La mediana di una variabile
statistica X è quel valore di X per cui la frequenza relativa cumulata vale 0.5.
La mediana è anche definita come il 50° percentile di una serie di misurazioni: se una serie di
osservazioni è disposta in ordine crescente, la metà dei valori sarà maggiore o uguale alla
mediana, l’altra metà sarà minore o uguale ad essa.
Nei casi in cui si ha solo la distribuzione per classi di valori in generale, a meno di ulteriori ipotesi,
non si può calcolare la mediana, per cui si considera la classe mediana, cioè quella classe che
contiene la mediana. Rispetto alla media aritmetica, la mediana è meno influenzata dai valori
estremi (e pertanto è definita robusta).

13
Esempio. Analisi di macrorestrizione

Se vogliamo ordinare le lunghezze dei frammenti di restrizione di una sequenza di DNA in ordine
crescente risulterà:
2.15, 2.25, 2.30, 2.60, 2.68, 2.75, 2.82, 2.85, 3.00, 3.38, 3.50, 4.02, 4.05
Poiché il n° di osservazioni è dispari la mediana sarà la (13+1)/2=7, la settima osservazione 2.82
Se la penultima osservazione fosse 40.2, l’ordine sarebbe 2.15, 2.25, 2.30, 2.60, 2.68, 2.75, 2.82,
2.85, 3.00, 3.38, 3.50, 4.05, 40.2 e la mediana rimarrebbe 2.82 mentre la media passerebbe da
2.95 a 5.73.
Quantili, quartili e percentili. Valori divisori di una distribuzione ordinata di dati suddividono la
distribuzione in 4, 5, …, K parti.
 Quantili: suddividono la distribuzione in K parti, ciascuna contenente la stessa percentuale
dei dati.
 Quartili: 4 parti contenenti lo stesso numero di dati (25%) Q1; Q2=Me; Q 3; Q4 =N (il 25° ed il
75° percentile di una serie di dati).
 Percentili: suddividono la distribuzione in 100 parti.

Moda
La moda è la modalità a cui è associata la massima frequenza (la massima densità di frequenza nel
caso di un carattere quantitativo raggruppato in classi). Può essere calcolata per ogni tipo di
variabile. La moda di una variabile statistica è quella modalità del carattere (o classe di modalità)
cui corrisponde la massima frequenza (la massima densità di frequenza nel caso di un carattere
quantitativo raggruppato in classi). Può essere calcolato per ogni tipo di variabile. Rispetto al
numero di punti di massima frequenza le distribuzioni di frequenze si distinguono in:
 Unimodali
 Bimodali
 multimodali (tri-; quater-; ecc)
Esempio di moda: Indicatori del sesso in 13 adolescenti

14
Il valore 1 si presenta 8 volte mentre il valore 0 si presenta 5 volte. La moda è quindi 1.

Distribuzioni simmetriche
 Distribuzione simmetrica: media, moda e mediana coincidono.
 Distribuzione bimodale simmetrica: media e mediana coincidono.

Riportando in un sistema di assi cartesiani i risultati di misurazioni di caratteri biologici (es. numero
di eritrociti/mm3, età al primo parto, durata della gestazione ecc.) effettuati su una serie di
individui diversi, si ottiene spesso una curva particolare, simile a quella (a). Questo tipo di curva,
che ha un solo 'picco' (classe di massima frequenza o moda: curva unimodale), viene detta
«gaussiana» o «normale»; essa è simmetrica, nel senso che si può dividere in due parti,
specularmente uguali, tracciando una linea verticale in corrispondenza del valore di massima
frequenza.

Possibili distribuzioni asimmetriche dei valori dei dati


Nelle distribuzioni deformate, media, moda e mediana non coincidono e la media è l'indice che
viene più distorto dai dati estremi.

Esempio: frequenza delle distribuzioni della concentrazione di emoglobina nel sangue umano.

Confronto tra indici di posizione e indici di dispersione


Le misure di tendenza centrale forniscono informazioni sulle caratteristiche (variabili)
dell’individuo medio, o tipico, cioè ci dicono dove si concentrano le osservazioni. Le misure di
15
dispersione mostrano invece quanto sono diversi tra loro gli individui, ossia quanto ampiamente le
osservazioni sono disperse intorno al centro della distribuzione.

Indicatori della variabilità


La variabilità è l’attitudine di un carattere a presentarsi con modalità diverse (definizione di
variabile).
Per caratteri qualitativi: più la distribuzione di frequenze delle modalità tende ad uniformarsi,
maggiore è la variabilità (mutabilità, eterogeneità).

Per caratteri quantitativi: maggiore è la dispersione delle modalità attorno alla media, maggiore è
la variabilità.

Nel primo caso c’è maggiore variabilità, nel secondo c’è minore variabilità.

Indici di variabilità o dispersione


Gli indici di variabilità misurano la dispersione di una variabilità statistica X. Gli indici di variabilità
sono:
 costanti non negative
 assumono valore zero se tutti i valori di X sono uguali fra di loro
 aumentano al crescere della disomogeneità di tali valori
Considereremo i seguenti indici di variabilità:
 Il campo di variazione o intervallo di variazione o range
 La varianza
 La deviazione standard

Il campo di variazione o range


Il campo di variazione (o range) è definito come la differenza fra il valore massimo e quello minimo
delle modalità di X, cioè:
r ( X)=max( X) – min(X )
oppure specificando il valore del dato più basso (min (X)) e quello del dato più alto (max (X)).

Tale indice fornisce una prima informazione sulla variabile statistica X, ma come la media è molto
sensibile ai valori estremi.
Esempio: Lunghezze dei frammenti di restrizione (kb) di una sequenza di DNA:
2.15, 2.25, 2.30, 2.60, 2.68, 2.75, 2.82, 2.85, 3.00, 3.38, 3.50, 4.02, 4.05

16
Range: 4.05 – 2.15 = 1.90 oppure 2.15; 4.05
Il range impiega soltanto le due informazioni estreme trascurando tutta l’informazione che può
essere ottenuta dalle rimanenti osservazioni.
Esempio:
 2.15, 2.25, 2.30, 2.60, 2.68, 2.75, 2.82, 2.85, 3.00, 3.38, 3.50, 4.02, 4.05
 2.15, 3.02, 3.30, 3.60, 3.68, 3.75, 3.82, 3.85, 3.85, 3.88, 3.90, 4.02, 4.05
In entrambi i casi, il range equivale:
4.05 – 2.15 = 1.90
Campo di variazione in tre quartile. Il range interquartile è definito dall’intervallo compreso tra il
25° ed il 75° percentile di una distribuzione, e comprende pertanto il 50% delle osservazioni
centrali.

Range interquartile: 3.338– 2.60 = 0.78

Misure di variabilità

 Varianza: quoziente tra la somma dei quadrati degli scarti di ciascun valore dalla media,
diviso il numero delle osservazioni (N).
 Scarto: differenza tra una misura e la media la quantità al numeratore del quoziente che
esprime la varianza è definita devianza.
Varianza. La varianza misura l’entità della variabilità o dispersione dalla media ed è costituita dalla
media aritmetica del quadrato degli scarti della media cioè:

La varianza viene anche indicata con σ 2.


La quantità Σ[ xi – M ( X)]2 si indica come devianza.
Il denominatore è N: numero di osservazioni. Dividendo la devianza per N-1 si ottiene una stima
più corretta della varianza della popolazione.

Deviazione standard
La deviazione standard viene definita come la radice quadrata della varianza:
DS(X )= σ =√ Var ( X )
Molto spesso la deviazione standard si denota con la lettera greca σ.

Molto spesso, i dati biologici vengono riassunti attraverso il più comune indice di tendenza
centrale: la media. In questo caso, per descrivere compiutamente la popolazione, è sempre
necessario dichiarare anche, come indice di variazione, il valore della deviazione standard.
Esempio. Supponiamo di misurare lo stesso carattere (ad esempio la lunghezza in cm) in due
campioni di pesci ornamentali contenuti in due diverse vasche, e di ottenere i seguenti dati:
17
 Campione A: 2, 3, 4, 5, 6, 7, 8, 9, 10
 Campione B: 5, 6, 6, 6, 6, 6, 6, 6, 7
Calcolare la media: i due campioni sono simili fra loro?
 Media Campione A: 2+3+4+5+6+7+8+9+10 / 9 = 6
 Media Campione B: 5+6+6+6+6+6+6+6+7 / 9 = 6
I due campioni sono molto simili fra loro
Calcolare la deviazione standard:
 σ Campione A:
√(2−6)2+(3−6)2+(4−6)2+(5−6)2 +(6−6)2+(1)2 +(2)2 +(3)2 +(4)2 /9 ¿ 2.6
 σ Campione B:
√(5−6)2 +(6−6)2 +(0)2 +0 2+(0)2+(0)2 +( 0)2 +(0)2+(1)2 / 9=0.5
Il campione B è molto omogeneo, contrariamente al campione A

Coefficiente di variazione
La dispersione relativa delle distribuzioni può essere confrontata anche facendo ricorso al
coefficiente di variazione:

Esso esprime in termini percentuali la deviazione standard rispetto alla media. Il coefficiente di
variazione è una quantità adimensionale.

Per questa variabile statistica si ha:


M(X) = (1x13) + (2x49) + (3x96) + (4x28) + (5x16) + (6x8) / 210 = 3.03

Per questa variabile statistica si ha:


M(X) =3.03 σ (X) =1.12
Segue pertanto:

Sorgenti di variazione
La deviazione standard viene utilizzata per misurare la dispersione.
E’ importante allora individuare le varie sorgenti di dispersione nelle osservazioni su popolazioni di
dati biologici.

18
Sono tre le principali sorgenti di variazione:
a) Esclusivamente biologica (età, sesso, razza, individuo, etc.).
b) Temporale (clima, stato di attività, etc.).
c) Errori di misura (strumenti di misura, condizioni di laboratorio, stabilità di reagenti per
l’analisi).
Si pone il problema di separare l’errore derivante da cause biologiche dagli errori di misura. La
tecnica che si adotta in questi casi è quella di replicare più volte l’esperimento.
Fonti di variazione sono presenti in ogni misurazione di un carattere biologico. Tale variabilità non
è tuttavia del tutto imprevedibile: infatti, molti fenomeni naturali seguono un modello teorico
definito «curva di distribuzione normale» o «gaussiana».
L’uso della deviazione standard come misura di dispersione si evince dalle seguenti relazioni
proprie di distribuzioni unimodali ed approssimativamente simmetriche:
 l’intervallo [ M −σ ; M +σ ]comprende circa i 2/3 delle osservazioni.
 l’intervallo[ M −2 σ ; M + 2 σ ]comprende circa il 95% delle osservazioni.
 l’intervallo[ M −3 σ ; M +3 σ ] comprende approssimativamente tutte le osservazioni
(99,7%).

Criterio di normalità
In biologia una delle domande più frequenti che sorgono immediatamente quando si viene a
conoscenza di un valore di una misura biologica eseguita su un individuo è: « si tratta di un valore
normale »?
Esempi: Sono stati ottenuti i seguenti valori. Possono essere considerati "normali"?
- 240 pulsazioni cardiache/minuto in un pappagallino ondulato
- 150.000 linfociti per mm cubo nel sangue di un bovino
In biostatistica il criterio di 'normalità' accettato è quello di assumere come limiti il 2.5° ed il 97.5°
percentile della distribuzione dei dati di una popolazione 'sana'. Quindi Normale = frequente e
anormale = raro.

Mutabilità
Quando si considerano fenomeni o caratteri che assumono modalità qualitative è possibile
studiarne la mutabilità (variabilità) mediante alcuni indici di variabilità utilizzando solo le
frequenze delle modalità con cui si presenta il carattere in esame.

Indice di Entropia
Il più noto fra gli indici che esprimono la dispersione di una mutabile statistica è l’indice di
entropia.
- K: numero di modalità che, in una popolazione assegnata, può presentare un dato
carattere;
- f i , con i = 1, 2, …, K: le frequenze relative di ciascuna modalità.
Situazione di massima concentrazione (minima eterogeneità): k = 1, f = 1.

19
H=0
Situazione di concentrazione nulla (massima eterogeneità): k ≠ 0, f 1 = f 2 = … = f k = f = 1/k.

H = ln K
Esempio: contenuto di nicotina in 35 marche di sigarette
I valori sono stati ordinati in ordine crescente e raggruppati in modo da distinguere 4 classi (bassa,
media, alta ed elevata concentrazione) in base al contenuto di nicotina.
 1° classe – contenuto inferiore a 0.4 ng/ml
 2° classe – contenuto compreso fra 0.4 e 0.8 ng/ml
 3° classe – contenuto compreso fra 0.8 e 1.2 ng/ml
 4° classe – contenuto superiore a 1.2 ng/ml

La distribuzione precedente (K = 4 modalità) di classi fornisce:


 bassa – contiene il 17% dei campioni ( f 1)
 media – contiene il 3% dei campioni ( f 2)
 alta – contiene il 51% dei campioni ( f 3)
 elevata – contiene il 29% dei campioni ( f 4)
L'indice di entropia H vale:
H=−(0.17 ln0.17 +0.03 ln 0.03+0.51 ln 0.51+0.29 ln 0.29)=1.10
Se la concentrazione di nicotina fosse stata la stessa per tutte le diverse marche di sigarette allora
(f=1) classe unica – contiene il 100% dei campioni (f).
H=−1 ln1=0
La massima concentrazione di valori.
Se si fossero distribuiti egualmente sulle quattro classi (f=0.25)

20
 bassa – contiene il 25% dei campioni ( f 1)
 media – contiene il 25% dei campioni ( f 2)
 alta – contiene il 25% dei campioni ( f 3)
 elevata – contiene il 25% dei campioni ( f 4)
H=−(0.25 ln 0.25+ 0.25 ln 0.25+ 0.25 ln 0.25+0.25 ln 0.25)=1.39 (max eterogeneità:
concentrazione nulla).
Pertanto, confrontando il valore ottenuto H = 1.10 con le due situazioni estreme:
 H=0
 H=1.39
Si ha una dispersione medio-alta dei valori del contenuto di nicotina.

Indice di eterogeneità
Poiché H varia fra 0 e lnK si introduce un indice di eterogeneità definito come il rapporto fra
l'indice di entropia H ed il suo valore massimo (lnK).
H
E=
lnK
E varia fra 0 e 1. Così al valore di H = 1.10 corrisponde E = 0.80; ad H = 0 un E = 0, e ad H = 1.39, E =
1.
Esempio 1. L’infezione persistente da HPV è causa necessaria per lo sviluppo del carcinoma
cervicale:
 Accordo: 45%
 Disaccordo: 23%
 Non so: 32%
K = 3; f 1=0.45; f 2=0.23; f 3=0.32.
H = - (0.45 ln0.45 + 0.23 ln0.23 + 0.32 ln0.32) = 1.06
Casi estremi: H=0 (minima eterogeneità) H=ln3=1.10 (massima eterogeneità).
E= H/lnK= 1.06/1.10= 0.96 dispersione alta
Esempio 2. L’infezione persistente da HPV è causa necessaria per lo sviluppo del carcinoma
cervicale:
 Accordo: 90%
 Disaccordo: 8%
 Non so: 2%
K = 3; f 1=0.9; f 2=0.08; f 3=0.02.
H = - (0.9 ln0.9 + 0.08 ln0.08 + 0.02 ln0.02) = 0.37
Casi estremi: H=0 (minima eterogeneità) H=ln3=1.10 (massima eterogeneità)
E= H/lnK= 0.37/1.10= 0.34 dispersione bassa.

21
L’analisi bivariata: le relazioni causali tra variabili
Il concetto di causalità
Il concetto di causalità è intrinseco allo stesso pensare scientifico: come può il cambiamento di
una variabile produrre il cambiamento di un’altra? Il concetto di produzione è connesso a quello
di causalità, per la quale viceversa non è sufficiente la semplice “associazione” tra due eventi.
Tuttavia malgrado l’appartenenza di questo concetto all’idea stessa della scienza esso sembra pure
uno dei più difficili da tradurre in termini operativi, uno dei più esposti a quel “divario tra il
linguaggio della teoria e quello della ricerca.
È stata ripetutamente messa in discussione dai filosofi: la critica si basa sull’affermazione che la
scienza empirica può al massimo constatare la variazione simultanea di due fenomeni o il loro
accadere in successione temporale, ma questi fatti non sono sufficienti per provare l’esistenza di
una relazione di causalità. Questa appartiene completamente al livello teoretico e le teorie non
sono mai verificabili empiricamente (Popper, 1934).
Non è tuttavia inutile pensare in termini causali. Anche se una legge causale non può mai essere
dimostrata empiricamente, essa è tuttavia empiricamente saggiabile L’oggettività delle asserzioni
della scienza risiede nel fatto che esse possono essere controllate intersoggettivamente variabile
indipendente A variabile dipendente.

Criterio della falsicabilità


“…le teorie non sono mai verificabili empiricamente” (Popper 1934). Il criterio che Popper propone
è quello della falsificabilità - negativa - di una teoria, in contrapposizione alla verificabilità –
positiva – della stessa. Se non è possibile verificare positivamente - cioè dimostrare - attraverso la
ricerca empirica una teoria o più semplicemente una relazione di causalità è però possibile
falsificarla – cioè respingerla - sulla base di un riscontro empirico. Se non è possibile provare che
una relazione di causalità è vera, perché diverse teorie possono produrre gli stessi dati, tuttavia il
non trovare nel momento empirico i dati previsti dalla teoria ci consente di respingerla o di non
respingerla se i dati fossero compatibili con la teoria stessa
Se questo è vero in generale è ancor più vero per la ricerca non sperimentale.

Il disegno sperimentale
Il ricercatore crea una situazione artificiale, o di laboratorio, nella quale tutte le altre possibili
cause di variazione sulla variabile dipendente sono mantenute costanti o tenute sotto controllo.
Solo alle variabili oggetto dell’esperimento, in tale sistema definito isolato, è consentito variare
variabile indipendente a variabile dipendente. Al ricercatore è possibile variare artificialmente la
variabile indipendente.
Sperimentazione biologica. Nel caso dell’esperimento in laboratorio questo è praticabile anche se
non si potrà provare che il sistema sia completamente isolato. Tuttavia la strategia è ancor più
complessa nel caso dello studio delle variabili biologiche nell’ambiente esterno al laboratorio in

22
quanto non esiste il presupposto dell’isolamento del sistema né, nella maggioranza dei casi, quello
di poter far variare artificialmente la variabile indipendente.

Il disegno non sperimentale


Nel caso del disegno non sperimentale o osservazionale il ricercatore ha a disposizione solo:
 i dati osservati
 le relazioni osservate tra le variabili
L’unico modo di procedere sarà quello di formulare una teoria quale ipotesi e confrontare quanto i
risultati previsti da tale teoria sono in accordo con i dati osservati.
Il processo della verifica empirica della teoria prevede:
1. Formulazione del modello teorico di relazioni causali esistenti tra le variabili.
2. Simulazione di una realtà quale è quella prefigurata dal modello con produzione di dati.
3. Confronto fra i dati prodotti dal modello teorico e quelli osservati in realtà.
4. Valutazione della discrepanza o “residuo” fra dati attesi e dati osservati e, sulla base della
sua entità, “rifiuto” del modello teorico ovvero “non-rifiuto”, il che non vuol dire
“accettazione” del modello teorico.

Covariazione e casualità
Prima di affrontare l’analisi della relazione di causalità tra variabili e lo studio della relazione tra
due variabili è utile la distinzione tra:
 covariazione (variabile↔variabile)
 causalità (var. indipendente→var. dipendente)
Il concetto di causalità presenta due elementi in più:
 Direzionalità dell’azione: il variare di una variabile precede il variare dell’altra
 Legame diretto: il variare di una variabile è dovuto e non meramente associato al variare
dell’altra
Mentre la covariazione è empiricamente osservabile, la causalità appartiene al dominio della
teoria: teoria e dati appartengono a mondi separati ma non per questo privi di connessioni. Due
variabili:
 possono covariare senza essere causalmente legate
 viceversa è possibile che esse siano causalmente legate senza mostrare covariazione
E’ evidente che il nesso tra teoria e dati, tra causalità e covariazione, sia un problema di non
immediata o intuitiva soluzione.

Relazione causale tra due tipi di variabile


La relazione causale tra due tipi di variabile può essere: Diretta; reciproca; spuria; indiretta e
condizionata.
Relazione causale diretta. Si tratta del tipo di relazione causale di primo e immediato interesse del
ricercatore: una teoria scientifica è spesso un insieme di proposizioni causali e la sua
rappresentazione formalizzata, il modello, non è altro che una rete di relazioni causali in
prevalenza dirette. Per illustrare la relazione causale diretta fra due variabili consideriamo due
23
variabili, esse sono legate da relazione causale diretta quando il variare dell’una, la “causa”,
produce un mutamento nella variabile “effetto”.
1) Asimmetria (o direzionalità senza la quale avremmo una relazione reciproca).
2) Concetto di “produzione” (senza il quale avremmo una covariazione e cioè una relazione
spuria).
3) Immediatezza del nesso (senza la quale avremmo una relazione indiretta).

Ad esempio una sostanza che ha la capacità di interagire con il DNA causa direttamente il danno
genotossico.
Relazione reciproca. Quando viene meno l’asimmetria del rapporto tra variabili, e queste si
influenzano reciprocamente; si parla anche di retroazione o causazione reciproca In questo caso
viene meno la distinzione fra variabile causa e variabile effetto. Un esempio può essere il feed-
back nella regolazione dei processi biologici

Esempio: il feed-back nella regolazione dei processi biologici: ormoni tiroidei e TSH ipofisario.
La quantità di ormoni tiroidei T 3 e T 4 in circolo a bassi livelli stimola la produzione da parte
dell’ipofisi di TSH (tyroid stimulating hormone) che a sua volta stimola la tiroide a rilasciare T 3 e T 4
(feedback positivo). Quando l’ipofisi attraverso il TSH determina un elevato livello di questi ormoni
T 3 e T 4 viene inibita (feedback negativo) la produzione da parte dell’ipofisi di TSH.
Relazione spuria. È il caso classico di covariazione in assenza di causazione. Esempio: i nidi di
cicogna in un’area e il numero di nascite. La collocazione urbano/rurale delle aree costituisce la
terza variabile (Z): nelle zone rurali le famiglie sono più prolifiche e ci sono anche più nidi di
cicogne. Quindi:
1) è presente una causa comune alle due variabili covarianti
2) la causa di Y non proviene da X ma da una terza variabile a questa correlata

Esempio: Si consideri uno studio di coorte su lavoratori di una fabbrica esposti a possibili
cancerogeni respiratori. Per confronto, si considerano gli impiegati della medesima fabbrica, non
esposti a cancerogeni nell’ambiente di lavoro. I due gruppi sono simili tra loro per età, sesso, razza
e luogo di residenza. Per valutare l’esposizione in studio, si calcolano i tassi di incidenza di tumore
polmone nei due gruppi, grezzi e stratificati per abitudine respiratoria. Il RR grezzo indica
un’associazione tra l’occupazione e l’insorgenza di cancro polmonare, con un aumento del rischio
di circa 2 volte. Tuttavia questo dato è assai diverso da quello risultante dall’analisi stratificata per
abitudine fumatoria, il che suggerisce un confondimento da parte del fumo nello studio. ll fumo di
sigaretta ha agito come fattore di confondimento. La prima ipotesi che sosteneva una
associazione tra il lavoro nella fabbrica è infondata: il RR superiore a 2 trovato nei dati globali può
semplicemente essere dovuto alla prevalenza dei fumatori che è maggiore tra gli operai (80%)
che tra gli impiegati (20%).

24
Relazione indiretta. Quando il legame causale tra due variabili X e Y è mediato da una terza
variabile Z.

Esempio: razza e quoziente intellettivo QI. La razza (X) agisce sul livello di istruzione (Z) il quale
agisce su Y (basso QI). La terza variabile viene chiamata variabile interveniente Il legame causale
esiste ma non è diretto ossia non è la razza, ossia la variabile genetica, a determinare il grado di
intelligenza.
Un ulteriore esempio può essere fattore α di necrosi tumorale (che determina polimorfismo al
codone 308 e ulcera alle gambe) che è possibilmente associato con l’obesità.
Relazione condizionata (interazione). È il caso in cui la relazione tra due variabili cambia a
seconda del valore assunto da una terza variabile.

Esempio: infezione da HPV e cervicocarcinoma. Assenza di relazione fra HPV (X) e


cervicocarcinoma (Y) in alcuni gruppi di donne; con l’introduzione di una terza variabile Z
(polimorfismi genetici) emerge la relazione. L’azione della variabile Z si esercita non su X o su Y, ma
sul legame che lega X a Y (relazione condizionata).

Covariazione e dipendenza
Covariazione, quando due variabili presentano variazioni concomitanti, ossia quando al variare
dell’una varia anche l’altra.
Dipendenza, quando esiste una relazione tale che una variabile X indipendente, costituisca la
causa della variabile Y dipendente che ne è l’effetto: è implicata la nozione di produzione.

Variabilità statistica a 2 dimensioni


Il problema è quello di esaminare un fenomeno da due diversi punti di vista. Data una
popolazione costituita da N unità, questa viene classificata da due diversi punti di vista dando così
origine a due diverse variabili statistiche X e Y che costituiscono gli elementi di una variabile
statistica doppia.

Tabelle a doppia entrata


Si costruiscono operando su due variabili tra le quali si ipotizza una relazione di covarianza o di
dipendenza. Le modalità della prima variabile vengono riportate a intestazione delle righe. Le
modalità della seconda variabile vengono riportate a intestazione delle colonne.

25
Nelle celle che rappresentano l’incrocio tra le modalità delle due variabili si riportano le frequenze
congiunte (o frequenze assolute), ovvero il numero di unità statistiche che hanno presentato
quella particolare combinazione di modalità.

Tabella a doppia entrata frequenze assolute:

Frequenze marginali. Alla tabella vengono aggiunte una riga ed una colonna che riportano le
frequenze marginali assolute (rispettivamente di colonna e di riga), che corrispondono alla
distribuzione di frequenze dello spoglio univariato.

Si definiscono frequenze marginali relative (ossia di riga e di colonna) di X e Y rispettivamente i


rapporti:
Pi Qj
pi= q j=
N N
Per i = 1, 2, … , k (numero di righe) e j = 1, 2, … , h (numero di colonne)

Esempio. Richio di HCC (carcinoma epatico) a causa della frequenza delle delezioni del DNA
mitocondriale (mtDNA).

26
Tecniche per lo studio della relazioni tra le variabili
Lo studio della relazione tra le variabili viene condotto mediante tecniche diverse che dipendono
dalla natura delle variabili analizzate.

Indici statistici descrittivi per variabili statistiche quantitative doppie


A partire dalle distribuzioni marginali, si può costruire la media e la varianza per ciascuna
componente della variabile statistica doppia:

E analogamente:

Media valore atteso varianza


Una variabile X viene descritta compiutamente dalla sua distribuzione di frequenza, l’insieme dei
valori assunti dalla variabile, dove ad ogni valore viene associata la sua frequenza. La frequenza
relativa del valore x 1 :
fi
N
equivale alla probabilità che ha il valore xi di apparire.
Nella terminologia statistica, tutte le volte che associamo i valori di una certa variabile alla
probabilità che essi hanno di accadere, definiamo una variabile stocastica.
La media di una variabile stocastica X si definisce come il valore atteso di X (o speranza
matematica) e si indica con E(X).

Covarianza
Con la media abbiamo una misura di tendenza centrale, con la varianza una misura della sua
dispersione. La media si riferisce ai dati osservati mentre il valore atteso si riferisce alla
distribuzione di probabilità teorica, pertanto la media è la stima del valore atteso. Una terza misura
statistica che non si riferisce alla singola variabile ma alla associazione tra due variabili è la
covarianza. La Covariazione è l’associazione o relazione tra due variabili che si verifica quando al
variare dell’una varia anche l’altra. La covarianza è una misura di come le due variabili covariano,
ed è quindi un numero.
27
La covarianza è definita come il valore atteso del prodotto degli scarti dei valori di X e Y dalle
rispettive medie. La covarianza sarà tanto più elevata quanto più sarà stretta la covariazione fra X e
Y.
Si definisce covarianza di X e Y il valore atteso del prodotto degli scarti dei valori di X e Y dalle
rispettive medie, la quantità:

Ovvero:

Nella prima formula della covarianza il denominatore è N cioè il numero di osservazioni totali,
ossia nel caso della popolazione considerata nel suo complesso.
Se studio un campione uso la seconda formula con n-1 al denominatore e non N.
La ragione di ciò è che in un campione la media di (x i – M x )2 sarà più piccola del valore (x i – M x )2
della popolazione e quindi se si divide per N si avrà una sottostima della covarianza della
popolazione. È possibile dimostrare che dividendo per n-1 invece che per N si rimuove questo bias
delle stime campionarie.
Si dimostra che la covarianza di due variabili X e Y è data dalla media dei loro prodotti meno il
prodotto delle loro medie. Si dimostra cioè che:

Analisi Della Dipendenza


Dipendenza fra gli elementi di una variabile statistica doppia. Il problema che ci si pone è quello
di fornire una misura che esprima la dipendenza fra due variabili statistiche relative ad una stessa
popolazione. Vogliamo esaminare se esiste una relazione tale che una variabile X indipendente
costituisca la causa della variabile Y dipendente che ne è l’effetto.
Supponiamo ad esempio di volere esaminare la relazione tra due variabili continue, ad esempio, la
percentuale di bambini che sono stati vaccinati contro DTP (Difterite, Tetano e Pertosse) in un
determinato Paese e il corrispondente tasso di mortalità nei bambini al di sotto dei 5 anni di età.
Due casi limite di dipendenza:
 Perfetta dipendenza: la modalità del carattere X che si presenta in un’osservazione
determina univocamente la modalità che assume la variabile statistica Y nella stessa
osservazione.
 Indipendenza stocastica: fra le due osservazioni non è possibile stabilire alcun legame.
Perfetta dipendenza. Esiste una funzione:
y=f (x )
tale che, per ogni osservazione x i risulta:
y 1=f ( xi ) i=1,2 … N
In una tabella a doppia entrata, quindi in ogni riga x i vi sarà una sola frequenza f ij diversa da zero:
tutti gli individui che presentano la modalità x iavranno lo stesso valore y i della variabile statistica
Y.
28
 f(x) viene chiamata funzione di dipendenza statistica.
Indipendenza stocastica. Sia (X,Y) una variabile statistica doppia. Si dice che X e Y sono
stocasticamente indipendenti se risulta:

f ij =p i q i

Coefficiente di correlazione lineare di Pearson


Una misura della relazione esistente fra le componenti di una variabile statistica doppia (X,Y) viene
fornita dal coefficiente di correlazione lineare.
Cov (X , Y )
ρ=
σx σ y
Il coefficiente di correlazione è dato dalla covarianza tra x e y (cioè il valore atteso del prodotto
degli scarti dei valori di X e Y dalle rispettive medie) fratto il prodotto delle deviazioni standard di x
e y.

Proprietà del coefficiente di correlazione. Il coefficiente di correlazione gode delle seguenti


proprietà:
 Risulta sempre −1 ≤ ρ ≤+1
 ρ=0 .Caso di indipendenza correlativa: non c’è relazione lineare tra le due variabili
(indipendenza stocastica).
 ρ=+ 1. Caso di perfetta dipendenza lineare diretta.
 ρ=−1. Caso di perfetta dipendenza lineare inversa.
 ρ è indipendente da cambiamenti di unità di misura e di origine per le variabili statistiche X
e Y.
Quindi il Coefficiente di correlazione di Pearson misura l’associazione lineare tra due variabili.

Il valore che può assumere il coefficiente di correlazione è compreso nell’intervallo che va da -1 a


+1.
 Se r = 0 non vi è correlazione.
 Il segno di r dipende da quello della covarianza fra x e y.
 È una misura della correlazione lineare fra due variabili.

29
Esempio. Nell’esempio precedente, r=-0.79 quindi esiste una forte relazione lineare negativa tra la
percentuale di bambini vaccinati contro DTP in un determinato Paese ed il tasso di mortalità al di
sotto di 5 anni.
I Limiti del coefficiente di correlazione sono:
1. Esso quantizza solo la relazione lineare; se due variabili X e Y hanno una relazione non
lineare, esso non fornisce una misura valida di questa associazione.
2. Il coefficiente di correlazione del campione è estremamente sensibile a valori estremi.
3. Una correlazione tra due variabili non implica una relazione causa-effetto.

Coefficiente di correlazione di Spearman


Questo indice di correlazione non parametrico viene indicato con ρ s o Spearman rho e permette di
valutare la forza del rapporto tra due variabili quando le assunzioni per il modello di correlazione
parametrica, coefficiente ρ Pearson, non sono soddisfatte. In particolare quando la distribuzione
delle variabili X ed Y non risulta normale (caso piuttosto frequente per popolazioni di dati ad
elevato numero di casi) o quando le sottopopolazioni dei valori di Y od X non risultino avere la
stessa varianza, la correlazione parametrica non viene utilizzata e si ricorre a questo indice che ha
inoltre modalità di calcolo piuttosto semplice. Le assunzioni di applicabilità di questa procedura
risultano :
 Il campione da cui sono estratti i valori di X ed Y è casuale e semplice
 I valori di X ed Y sono misurati ad un livello almeno ordinale
Il coefficiente di correlazione di Spearman assume i valori tra – 1 e + 1 indicando nel segno e nel
valore il tipo e la forza della correlazione. Il segno + indica una correlazione direttamente
proporzionale, il segno – indica una correlazione inversamente proporzionale; valori di rho vicini
ad 1 indicano una correlazione perfette, il valore rho è uguale o molto vicino a 0 indica una
correlazione nulla.
Procedura di calcolo:
 Si ordinano i valori di X ( che corrispondono alla colonna X nella coppia dei valori X ed Y) da
1 ad n e si assegnano i ranghi tenendo conto anche dei valori uguali, ties che assumono la
media del rango.
 Si ordinano i valori di Y ( che corrispondono alla colonna Y nella coppia dei valori X ed Y) da
1 ad n e si assegnano i ranghi tenendo conto anche dei valori uguali, ties che assumono la
media del rango.

30
 Per ogni coppia si calcola la differenza di del rango di Y - il rango di X, si eleva d ial
quadrato;
Si calcola la somma dei d i al quadrato ∑ d i .
2

2
6 ∑ di
Viene quindi utilizzata la formula rho=1− 2
n(n −1)
Significatività del coefficiente rho. Per valutare se il coefficiente determinato risulta significativo
rispetto ai valori di alfa fissati viene confrontato il valore ottenuto con i valori critici della tabella
rho Spearman per il rispetivo n ed il valore alfa di significatività. In particolare:
 se viene formulata preliminarmente una ipotesi di correlazione diretta positiva (al variare
positivo di X corrisponde un variare positivo di Y, test monodirezionale coda di destra ) il
valore rho è significativo se supera il valore critico indicato nella tabella per alfa e n dati;
 se viene formulata preliminarmente una ipotesi di correlazione inversa negativa ( al
variare positivo di X corrisponde un variare negativo di Y, test monodirezionale coda di
sinistra ) il valore rho è significativo se supera il valore critico preceduto da - indicato nella
tabella per alfa e n dati;
 se viene formulata preliminarmente solo una ipotesi di correlazione, ovvero di non
indipendenza senza specificare il segno (corrispondente ad un test bidirezionale, code in
entrambi i lati ) il valore di rho è significativo se supera in valore assoluto il valore critico
riportato nella tabella per alfa/2 ( alfa mezzi, se alfa =0.05 allora alfa mezzi = 0.025) ed n
dati. Se n è maggiore di 30 per la verifica della significatività si può usare la distribuzione z
dei valori della normale standardizzata previa la trasformazione.
z=rho √ n−1
I pacchetti statistici inoltre permettono di applicare in automatico anche una correzione dovuta ad
un possibile numero di osservazioni con uguale valore, ties, che comunque quando non sono
molto numerose comportano variazioni minime nel valore di rho.
Esempio. La seguente tabella riporta 10 cittadine ordinate secondo il numero di DMF (carie
dentarie) per 100 bambini e la concentrazione di fluoro espressa in scala ordinale a 10 livelli. E’
vero che all’aumentare della concentrazione del fluoro diminuisce il numero di carie dentarie DMF
nei bambini? Poni alfa 0.05.

Poniamo che i dati del modello in analisi non soddisfino le assunzioni di applicabilità di una
correlazione parametrica, ovvero la distribuzione delle variabili non sia normale gaussiana anche
dovuta alla misurazione su scala ordinale della variabile concentrazione del fluoro. Sussistono
invece le condizioni di applicabilità della correlazione non parametrica di Spearman.
 Ipotesi H 0: i valori di DMF e concentrazione di fluoro sono indipendenti.
 H A : i valori di DMF tendono a diminuire all’aumentare della concentrazione al fluoro,
correlazione inversa.
31
Procedimento: ordino ed assegno i ranghi alle coppie di valori, calcolo la differenza di rango Y-
rango X, elevo al quadratod i e ottengo∑ d i =322.
2

6 ∑ di
2
6 ×322
Applico la formula:rho=1− =1− 0.9515
n ( n −1 ) 10 ( 100−1 )
2

Data l’ipotesi HA di correlazione inversa il valore viene confrontato con il valore critico rho
preceduto da segno – ovvero per n=10 alfa= 0.05 rho critico= - 0.5515, mentre rho calcolato= -
0.9515 che supera di molto rho critico, quindi si rifiuta H 0, ovvero esiste una forte correlazione
inversa negativa tra concentrazione di fluoro e numero di carie dentarie DMF percentuali.

Analisi della regressione


Attraverso l’analisi della correlazione possiamo analizzare la relazione tra due variabili continue
che sono trattate in modo simmetrico.

Anche la regressione lineare semplice è un’analisi di questo tipo, ma a differenza della


correlazione, con l’analisi della regressione possiamo esaminare la variazione di una variabile,
detta di risposta, o dipendente, che corrisponde ad una determinata variazione dell’altra,
denominata variabile esplicativa, o indipendente.

Studio congiunto di variabili: regressione lineare semplice


Regressione. Studio dell’andamento di una variabile continua Y (detta variabile dipendente) in
funzione di un’ altra variabile continua X (detta variabile indipendente), ipotizzando che il legame
tra le due variabili sia lineare.
La rappresentazione grafica di tale legame è una retta sul piano cartesiano:
Y =a+bX

32
Dove :
 Y: variabile dipendente
 X: variabile indipendente
 a: intercetta, rappresenta il valore Y quando X è uguale a 0
 b: coefficiente angolare della retta (pendenza della retta)
Esempio. Circonferenza cronica media e età gestazionale.

Esempio. Diagramma a punti della circonferenza cranica media (y) in funzione dell’etàgestazionale
(x) per un campione di 100 neonati con basso peso alla nascita.

Quale retta descrive meglio la relazione tra le due variabili?

Metodo dei minimi quadrati


Una tecnica matematica utilizzata per adattare una linea retta ad una serie di punti.

Scarto dalla retta: distanza tra il valore empirico y e il valore teorico f(X).

33
Se tutti gli scarti dalla retta fossero uguali a zero, ciascun punto (xi, yi) si troverebbe sulla retta di
regressione. Pertanto, la migliore retta, quella che fornisce il migliore adattamento, è quella che
da il valore minore in questa sommatoria.

Il processo di adattamento della retta dei minimi quadrati implica il calcolo di a e b, stime dei
coefficienti di regressione della popolazione.

La retta di regressione dei minimi quadrati adattata ai 100 valori di circonferenza cranica ed età
gestazionale è:
y=3,91+ 0,78 x
La pendenza della retta è 0.78: ciò implica che per ciascuna settimana in più di età gestazionale, la
circonferenza cranica di un neonato aumenta in media di 0.78 cm.

34
Probabilità
La statistica descrittiva serve per organizzare e sintetizzare i dati. L’inferenza statistica consente di
utilizzare le informazioni di un campione per fare inferenze sulle caratteristiche della popolazione
da cui è stato estratto. La teoria della probabilità ne è il fondamento.

Evento
Un evento è l’elemento di base al quale può essere associata la probabilità: è il risultato di una
osservazione, di un esperimento o la descrizione di un potenziale risultato. Un evento si verifica o
non si verifica e pertanto può essere considerato una variabile dicotomica.
È quindi possibile eseguire operazioni con gli eventi rappresentati - nello studio di probabilità - da
lettere maiuscole, ad es. A, B e C, e si possono avere:
 Intersezione, definita come l’evento “sia A che B”: A ∩ B
 Unione, definita come l’evento “A o B, o entrambi”: A ∪ B
 Complemento, definito dall’evento “non A”, o evento complementare: A o A c

Diagrammi di Venn
Supponiamo che i punti all'interno di un rettangolo rappresentino la classe delle osservazioni
"peso alla nascita". Il cerchio designato con A rappresenti l'evento "peso alla nascita minore di 2
kg" e quello con B "peso alla nascita fra 1.5 e 2.5 kg". L'insieme dei due cerchi rappresenta quindi
l'unione dei due eventi.

I due cerchi si sovrappongono in quanto un certo numero di valori "peso alla nascita" sono comuni
ad A e a B. In questo diagramma la zona scura fra A e B rappresenta la zona comune fra A e B, cioè
quegli eventi che sono sia A sia B e quindi la loro intersezione:

rappresenta l'evento «peso alla nascita fra 1.5 e 2 kg»


 A "peso alla nascita minore di 2 kg"
 B "peso alla nascita fra 1.5 e 2.5 kg"
In questo grafico il cerchio rappresenta l'evento A e quindi tutto il resto del rettangolo rappresenta
il suo complemento, Ā.

35
Esempio. Cervico Carcinoma.
Evento A: Presenza dell’infezione da HPV.
Evento B: Presenza di lesioni citologiche preneoplastiche della cervice uterina.

Supponiamo che i punti all'interno di un rettangolo rappresentino la classe delle osservazioni


“donne esaminate". L’unione dei due eventi comprende o solo gli individui con presenza di
infezione o solo quelli con le lezioni o quelli che hanno sia le lesioni che l’infezione.
L’intersezione, in questo caso, rappresenta l'evento "donne HPV positive che presentano lesioni
cervicali ". Le donne non infette da HPV rappresentano il complemento di A.

Eventi mutuamente esclusivi


Eventi mutuamente esclusivi sono quegli eventi cui l’uno esclude ‘altro. Se A è l'evento "peso alla
nascita inferiore o uguale a 2 kg", Ā allora è l'evento "peso alla nascita superiore a 2 kg" l'unione di
A e Ā esaurisce la totalità delle osservazioni "peso alla nascita".
A∪Ā=1
L'intersezione fra A e Ā dovrebbe fornire un evento che sia classificabile come A o come Ā; e
questo non può mai verificarsi. L'intersezione genera un evento nullo, indicato con Ø.
A∩Ā = Ø

Concetto di probabilità
Supponiamo di effettuare m osservazioni, in condizioni sostanzialmente identiche; supponiamo
che un evento A si verifichi n volte; il rapporto n/m, al crescere di m, tende ad un valore costante:
tale valore costante definisce la probabilità di verificarsi dell'evento A.
n
P( A)=
m
La Probabilità di un evento A è la frequenza relativa con cui l’evento si verifica in una lunga serie
di esperimenti ripetuti in condizioni virtualmente identiche Questa definizione qui presentata è la
definizione frequentista di probabilità, una definizione applicativa, la probabilità fornisce una
misura quantitativa delle possibilità che un certo evento si verifichi.
 Probabilità: fornisce una misura quantitativa delle possibilità che un evento si verifichi;
 evento: è la descrizione di una situazione, il risultato di un esperimento o di una
osservazione.
Il valore numerico di una probabilità è compreso fra 0 (l'evento non si può verificare o 0/m) e 1
(l'evento si verifica con certezza m/m). Fra questi due estremi esiste tutta una serie di eventi che
hanno valori di probabilità di verificarsi compresa fra 0 e 1.
Se consideriamo A ∪ A la probabilità del verificarsi di questo evento è 1.
P( A ∪ A )=1
36
Mentre:
P( A ∩ A )=0
Un evento che non può mai verificarsi è detto evento nullo Ø.
P ¿Ø)=0

Determinare la probabilità di Ā. Se l'evento A ha una probabilità P(A) di verificarsi possiamo


calcolare la probabilità P(Ā). Se A si verifica n volte su m osservazioni – m molto grande - allora Ā si
verificherà per il restante m-n volte su m osservazioni.
m−n n
P ( A )= =1− =1−P ( A )
m m
allora
P ( A ) + P ( A )=1
ma anche
P ( A ∪ A )=1

da cui
P ( A ∪ A )=P ( A ) + P ( A )

Principio della somma della probabilità


Unione di eventi mutualmente esclusivi. I due eventi A e Ā sono mutuamente esclusivi:
P( A ∪ Ā)=P( A)+ P( Ā)
possiamo generalizzare questo risultato e dire che se, in genere, due eventi A e B sono
mutuamente esclusivi allora la probabilità della loro unione è la somma delle singole probabilità.
P( A ∪ B)=P( A)+ P(B)
Probabilità dell'unione di eventi non mutuamente esclusivi. Se A e B non sono mutuamente
esclusivi ci sarà un insieme di osservazioni comuni - la loro intersezione - la cui probabilità di
verificarsi deve essere tolta dal computo della somma delle probabilità di A e B.
P( A ∪ B)=P( A)+ P(B)−P( A ∩B)
Queste relazioni possono essere comprese meglio mediante il diagramma di Venn.

Principio del prodotto delle singole probabilità


Due eventi A e B sono detti indipendenti se il verificarsi di uno non ha alcuna influenza sul
verificarsi dell' altro la probabilità che si verifichino entrambi, la probabilità della loro intersezione,
è data dal prodotto delle singole probabilità
P( A ∩ B)=P( A) × P(B)
Se A e B sono mutuamente esclusivi, se accade A allora B non può accadere, l'intersezione è
l'evento nullo e quindi:
P( A ∩ B)=P( A)P (B)=0

Probabilità condizionale
Se due eventi A e B sono in un certo modo correlati, la probabilità che si verifichi B essendosi già
verificato A è detta probabilità condizionale e si indica con P( B∨ A) e si legge P di B dato A La
37
probabilità che si verifichino sia l'evento A, P(A), che l'evento condizionato B, P( B∨ A), è la
probabilità dell'intersezione dei due eventi, cioè P( A ∩ B)=P( A) P (B∨ A)
Nel caso i due eventi A e B non siano correlati la probabilità condizionale che si verifichi B
essendosi verificato A in quanto il verificarsi di A non influenza il verificarsi di B:
P( B∨ A)=P (B)
Allo stesso modo:
P( A∨B)=P (A )
Sia B un evento condizionato dal verificarsi di A. La probabilità che si verifichino A e B è
P( A ∩ B)=P( A) P (B∨ A)
e poiché P(A) ≠ 0, si ricava che:
P( A ∩B)
P ( B| A )=
P (A)
Poiché A e B sono scelti a caso, vale anche:
P( A ∩B)
P ( A|B )=
P( B)
in quanto P( B)≠ 0.

38
Test Statistici di Ipotesi
Il problema della verifica di un’ipotesi statistica
La verifica di un’ipotesi statistica è una procedura inferenziale che ha come scopo quello di
considerare l’informazione empirica (ottenuta da una statistica campionaria) e di stabilire se
questa è favorevole ad una asserzione di interesse sui parametri della popolazione.
Il livello medio di colesterolo sierico della popolazione maschile negli Stati Uniti di età compresa
tra 20 e 74 anni è 211 mg/100 ml La distribuzione dei livelli di colesterolo sierico della popolazione
maschile di ipertesi e fumatori negli Stati Uniti è approssimativamente normale con media non
nota Potremmo chiederci se anche il livello medio di colesterolo sierico della popolazione maschile
di ipertesi e fumatori sia di 211 mg/100 ml. Selezioniamo dalla popolazione di soggetti ipertesi e
fumatori un campione casuale di 25 soggetti e osserviamo che il loro livello medio di colesterolo
sierico è 220 mg/100 ml. Questa media del campione è compatibile con una media ipotizzata di
211 mg/100 ml? Il test statistico di ipotesi ci consente di trarre conclusioni su un parametro della
popolazione utilizzando le informazioni contenute in un campione di osservazioni. Il livello medio
di colesterolo sierico in un campione di soggetti (n=25 soggetti) ipertesi e fumatori è di 220
mg/100 ml. Confrontiamo la media di questo campione con la media postulata di 211 mg/ 100 ml.
Vogliamo sapere se la differenza tra la media del campione e la media postulata della popolazione
è troppo grande per essere attribuita solo al caso.

Definizione di sistema di ipotesi


Come primo passo si deve definire l’ipotesi nulla H 0 , cioè quella ipotesi che suppone uguale a
zero la differenza tra il valore effettivo di un parametro (= x teo) e quello stimato (= X sp), e l’ipotesi
alternativa H A , che prevede invece che la differenza sia diversa da 0. Il sistema di ipotesi è dato
da:
H 0 : xteo −X sp =0 H A : x teo −X sp ≠ 0
Nell’esempio l’ipotesi nulla H 0 , è l’ipotesi che il livello medio di colesterolo sierico dei soggetti
ipertesi e fumatori (µ) sia uguale a quello della popolazione maschile tra i 20 e 74 anni ( µ0 ).
H 0 :µ=µ 0=211 mg/100 ml
L’ipotesi alternativa H A è una seconda ipotesi che contraddice H0 e nel caso del nostro esempio è:
HA : µ ≠ 211 mg/ 100 ml.

Test d’ipotesi
L’ipotesi nulla e l’ipotesi alternativa, insieme coprono tutti i valori possibili della media della
popolazione; pertanto una delle due deve essere vera. Per compiere la scelta di quale sia vera,
abbiamo bisogno di un criterio. Tale criterio viene chiamato test. L’obiettivo è di fornire una guida
che permette di giungere a delle “conclusioni” a seconda dei risultati ottenuti sul campione.
Ipotesi nulla ( H 0). Le popolazioni da cui sono stati estratti i campioni a confronto sono uguali
rispetto ai caratteri di interesse.
Il test serve a decidere se: Accettare l’ H 0 oppure Rifiutare l’ H 0
39
In termini generali, tale decisione viene affrontata considerando un’opportuna grandezza X legata
ai parametri in gioco, la cui distribuzione, T(X), rappresenta la probabilità di verificarsi dell’ipotesi
nulla.
Se rappresentiamo graficamente la distribuzione di probabilità avremo una distribuzione
simmetrica con media uguale a 0 a cui si associa la massima probabilità Tanto più i valori di X sono
vicini al valore centrale della distribuzione tanto maggiore è la probabilità di verificarsi dell’ipotesi
nulla Per valori sempre più lontani dal valore centrale la probabilità di verificarsi dell’ipotesi nulla è
sempre più bassa, indicando quindi i casi in cui l’ipotesi nulla può non essere presa in
considerazione.

Si possono allora configurare delle regioni, sulle code della distribuzione, per cui la probabilità
cumulata della T(X) è troppo bassa per poter validare l’ipotesi nulla. Tali regioni si definiscono
come regioni di rigetto; le restanti regioni diventano allora regioni di accettazione dell’ipotesi
nulla. Una tale distribuzione costituisce una statistica test.
In una distribuzione simmetrica la regione di rigetto, o regione critica, o regione di rifiuto si
distribuisce sulle due code; la parte centrale è chiamata regione di accettazione.

Procedimento:
Formulare il sistema di ipotesi
H 0 : xteo −X sp =0
H A : x teo−X sp =0
Individuare la statistica test appropriata
 t di Student
 Chi quadrato
 …
Studiare la distribuzione
Studiare la distribuzione della statistica test T(X) nell’universo campionario sotto l’ipotesi nulla, per
valutare la probabilità di ottenere il risultato osservato se l’ipotesi nulla fosse vera. Se le
popolazioni (o i due campioni) avessero realmente la stessa media, cioè se l’H0 fosse realmente
vera, ripetendo più volte l’esperimento quale sarebbe la probabilità di osservare una differenza tra
le medie maggiore o uguale a quella osservata?
Stabilire il livello di significabilità
Definizione della probabilità. Definire la probabilità p di verificarsi del valore stimato, in modo da
accettare o respingere l’ipotesi nulla Se questa probabilità è grande devo accettare l’ipotesi nulla
Se questa probabilità è piccola devo rifiutare l’ipotesi nulla. Ma che cosa si intende per probabilità
40
piccola? Stabilire il livello di significatività, cioè decidere il limite di probabilità sotto il quale il
risultato ottenuto sia da considerare virtualmente impossibile e quindi devo rifiutare l’H0 Come
livello di significatività nella maggior parte dei casi si sceglie 0.05 (5%). Se vogliamo essere più
conservativi, talvolta scegliamo il valore 0.01 (1%). Il livello del 5% sta ad indicare che esistono solo
5 possibilità su 100 che le differenze riscontrate siano casuali e che quindi il campione appartiene
alla stessa popolazione e che ci sono invece 95 probabilità su 100 che il mio campione sia diverso,
cioè non derivi dalla stessa popolazione. Con il livello di significatività si vengono ad individuare
due code sulla distribuzione di probabilità del test, le quali individuano la regione di rigetto detta
anche regione critica.

Quindi, dopo aver calcolato il valore della statistica test T(X), si esamina la probabilità di ottenere
quel risultato (p). Il valore p è confrontato con il livello predeterminato di significatività a per
decidere se l’ipotesi nulla deve essere rifiutata:
 Se p è minore o uguale ad a rifiutiamo l’ipotesi nulla
 Se p è maggiore di a non la rifiutiamo
Per stabilire la significatività di un test si utilizza la seguente regola Se p > 5 % la differenza non è
significativa (accetto H 0 ) Se 1 % < p < 5 % la differenza è significativa (rifiuto H 0). Se p < 1 % la
differenza è altamente significativa (rifiuto H 0). Per cui la regione di rifiuto è quella che sta al di
sotto del 5%.

Distribuzione normale
Trascurare valori di X lontani dalla media significa trascurare dati che hanno un bassa probabilità
di verificarsi, oppure che si riferiscono ad elementi appartenenti a popolazioni differenti da quelle
da cui è stato estratto il campione in analisi. I valori di X compresi nell’intervallo [ m-2σ , m+2σ ]
costituiscono circa il 95% di tutti i valori, così come quelli compresi nell’intervallo [m-3σ , m+3σ ] ne
costituiscono circa il 99%. Per intervalli più grandi la percentuale aumenta. Se consideriamo
“accettabili” i valori nell’intervallo [m-2σ , m+2σ ] siamo confidenti di avere una probabilità del 5%
di trovarne di “non accettabili”. Oppure, allargando l’intervallo a [m-3σ , m+3σ ], di avere una
probabilità del 99% di trovare valori “accettabili” e del 1% di trovarne di “non accettabili”.
Possiamo quindi scartare i dati “non accettabili” confidando che il restante 95%, o 99% o oltre dei
dati sia un livello accettabile per condurre le nostre analisi.

Altre distribuzioni
Se trasportiamo queste considerazioni su una qualsiasi distribuzione, alla stessa maniera possiamo
prendere in considerazione il fatto che i valori sulle code, dove le probabilità sono basse, siano
“non accettabili”, confidando che la parte restante dei dati (95%, 99% o oltre) siano sufficienti per
condurre le nostre analisi. Il test appropriato per il caso in esame va scelto in relazione al tipo di

41
campioni che si intendono confrontare (indipendenti o dipendenti) e a seconda del tipo di
variabile su cui si intende svolgere il confronto:
 Campioni indipendenti: i dati sono forniti da soggetti diversi Es. due diversi gruppi, uno
sottoposto a trattamento, l’altro no
 Campioni dipendenti: i dati sono forniti dagli stessi soggetti Es. uno stesso gruppo
analizzato prima e dopo un trattamento

Tipologie di test

 test non parametrici per variabili qualitative


 test parametrici per variabili quantitative
 test a una coda in cui si individua un valore critico che lascia “sulla coda” una probabilità
pari a p.
 test a due code in cui si individuano due valori critici che lasciano rispettivamente a sinistra
e a destra p/2: se la statistica test è all’interno accetto l’ H0
Distribuzione campionaria di un ipotetica statistica test, sotto l’ipotesi nulla. E’ stata evidenziata la
zona di rifiuto a una coda dell’ipotesi nulla, al 5% di significatività.

Errori di verifiche nell’ipotesi


Nella verifica di un’ipotesi, si possono commettere due tipi di errore:
1. Respingere un’ipotesi giusta
2. Accettare un’ipotesi sbagliata

Confronto tra due medie: test t-student


Le differenze osservate tra le medie di due campioni sono troppo grandi per essere attribuite solo
al caso?
Procedimento
1. Formulare il sistema di ipotesi
2. Individuare una statistica test (t di Student)
3. Studiare la distribuzione della statistica test nell’universo campionario sotto l’ipotesi nulla,
per valutare la probabilità (p) di ottenere il risultato osservato (differenza tra le medie) se
l’ipotesi nulla fosse vera
4. Stabilire il livello di significatività (a), cioè decidere il limite di probabilità sotto il quale il
risultato ottenuto sia da considerare virtualmente impossibile
5. Il valore p è confrontato con il livello predeterminato di significatività a per decidere se
l’ipotesi nulla deve essere rifiutata
42
Il tipo di analisi dipende dalla natura delle due serie di osservazioni: - Campioni appaiati o
dipendenti - Campioni indipendenti

Campioni appaiati
La caratteristica che distingue i campioni appaiati è che ad ogni osservazione nel primo gruppo
corrisponde un’osservazione nel secondo gruppo. Nella tecnica denominata auto-appaiamento, le
misurazioni sono eseguite su un singolo soggetto in due tempi diversi ad esempio prima o dopo
una procedura sperimentale o un trattamento.
Esempio: valori di colesterolemia (mg/dl) rilevati in un campione di soggetti durante lo studio
sull’efficacia di un nuovo farmaco anti-colesterolemia.

T-student test parametrico per campioni appaiati o dipendenti


Formulare il sistema di ipotesi
 H 0 : le medie x 1e x 2 ottenute in una stessa popolazione prima e dopo un certo trattamento
sono uguali.
 H A : le medie x 1 e x 2ottenute in una stessa popolazione prima e dopo un certo trattamento
sono diverse.
d−μ
t=
Sd/ √ n
Dove d è la differenza media campionaria:
d =∑ ¿ ¿ ¿
i

Mentre μ è la reale differenza nelle medie delle due popolazioni ( x 1−x 2).
Per cui la deviazione standard delle differenze, sd , è:


n

∑ (d−d)2
i=1
sd =
n−1
Si calcolano i gradi di libertà (gl): gl = (n - 1)
Si sceglie il livello di significatività (a) ovvero la probabilità di compiere un errore rifiutando
l’ipotesi nulla quando essa fosse vera. Si esamina la tavola che riporta il valore soglia (critico) del t
per il livello di significatività prescelto e per i gradi di libertà del valore osservato:
t gl ;a

43
Significatività di un test. Per stabilire la significatività di un test si utilizza la seguente regola. Se p >
5 % la differenza non è significativa allora on posso rifiutare l’ipotesi nulla. Se 1 % < p < 5 % la
differenza è significativa. Se p < 1 % la differenza è altamente significativa. Ho una probabilità
inferiore a 1 su 100 di ottenere quel valore se l’ H 0 è vera, per cui rifiuto l’ipotesi nulla.

Campioni indipendenti
Le misurazioni sono eseguite indipendentemente su soggetti appartenenti a campioni casuali
indipendenti, ad esempio su un campione di sesso femminile e su un campione di sesso maschile.
Esempio: campioni indipendenti. Valori di pressione arteriosa rilevati in un campione di soggetti di
sesso maschile e in un campione di soggetti di sesso femminile dopo la somministrazione di un
nuovo farmaco anti-ipertensione.

T-student test parametrico per campioni indipendenti


H 0 : le medie x 2 e x 2 delle due popolazioni da cui provengono i due campioni a confronto sono
uguali Per verificare l’ipotesi nulla ( H 0 ).
Si calcola la statistica Test nella situazione osservata:

m1−m2
t=

√ [ ∑ ]
x i−m1 ) + ∑ ( x j −m2 ) ( n1 +n2 )
2 2
(
i j

n1 × n2 × ( n1 +n 2−2 )
 Dove m 1 ed m2 rappresentano le medie dei due campioni.
 n1 ed n2 le numerosità campionarie.

44
Si calcolano i gradi di libertà (gl): gl = (n1+ n2 -2). Si sceglie il livello di significatività (a) ovvero la
probabilità di compiere un errore rifiutando l’ipotesi nulla quando essa fosse vera. Si esamina la
tavola che riporta il valore soglia (critico) del t per il livello di significatività prescelto e per i gradi
di libertà del valore osservato t gl ; a.
Valori critici della distribuzione t di Student per un test bilaterale.

Significatività di un test. Per stabilire la significatività di un test si utilizza la seguente regola Se p >
5 % la differenza non è significativa, allora non posso rifiutare l’ipotesi nulla. Se 1 % < p < 5 % la
differenza è significativa. Se p < 1 % la differenza è altamente significativa. Ho una probabilità
inferiore a 1 su 100 di ottenere quel valore se l’ H 0 è vera, per cui rifiuto l’ipotesi nulla.
Esempio.
 m1= 18.9 µmol/l (livello medio di ferro sierico nei bambini sani)
 m2= 11.9 µmol/l (livello medio di ferro sierico nei bambini con fibrosi cistica)
E’ possibile che la differenza osservata nelle medie dei campioni sia il risultato della variabilità
dovuta al caso, oppure dobbiamo concludere che la differenza sia dovuta ad una reale differenza
nelle medie delle popolazioni?
Conduciamo un test bilaterale ad un livello di significatività a = 0.05.
L’ipotesi nulla è
18.9 μmol
H 0 :m1=m 2 : =11.9 μmol /l
l

L’ipotesi alternativa è
18.9 μmol
H A :m 1 ≠ m2 : ≠ 11.9 μmol /l
l

Valori critici della distribuzione t di Student per un test bilaterale.

45
m1−m2
t=

√ [ ∑ ]
( x i−m1 )2 + ∑ ( x j −m2 )2 ( n1 +n2 )
i j

n1 × n2 × ( n1 +n 2−2 )
In cui: m1= 18.9 µmol/l; m2= 11.9 µmol/l; n1 = 9 ; n2 = 13; t = 2.63.
Gradi di libertà = n1 +n 2 – 2=9+13 – 2=20
Livello di significatività prescelto: a=0,05

Poiché dall’esame delle tavole in corrispondenza del t calc= 2.63, p < 0.05 allora rifiutiamo H 0. La
differenza tra il livello medio di ferro sierico dei bambini sani e quello dei bambini con fibrosi
cistica è statisticamente significativa; in base a questi campioni, sembra che i bambini ammalati
soffrano di una deficienza di ferro.

Confronto di proporzioni in campioni Indipendenti e il Test del Chi-Quadrato

In uno studio di 307 soggetti con sindrome di Down la malattia di Alzheimer risulta pari all’11% nel
gruppo d’età compreso tra 40 – 49 anni ed al 77% nel gruppo d’età compreso tra 60 - 69 anni Nella
popolazione generale la malattia di Alzheimer risulta pari al 2% tra 65 e 70 anni.

Test del chi quadro

Il test del chi-quadro è un test statistico non parametrico atto a verificare se i valori di frequenza
ottenuti tramite rilevazione, sono diversi in maniera significativa dalle frequenze ottenute con la
distribuzione teorica. Questo test ci permette di accettare o rifiutare una data ipotesi nulla.
Esempio. Su un campione di 100 famiglie disagiate, si è trovato che il 26% dei bambini è affetto da
asma. Sulla scorta di questo ipotetico studio epidemiologico, è ragionevole ammettere una

46
relazione di causalità fra acari e asma? Supponiamo che da uno studio epidemiologico effettuato
su un campione di 50 bambini appartenenti a famiglie disagiate, si sia trovato che il 26% (13) è
affetto da asma. Il gruppo di controllo, costituito da 100 bambini mostra una percentuale di
asmatici dell'8% (8). Sulla scorta di questo ipotetico studio epidemiologico, è ragionevole
ammettere una relazione di causalità fra acari e asma?
Quando si lavora con dati nominali raggruppati in categorie, spesso le frequenze sono raggruppate
in tabelle di contingenza. I numeri all’interno della tabella rappresentano le frequenze che
corrispondono ad una particolare combinazione di categorie.
Confronto di proporzioni in campioni indipendenti:

H 0: le distribuzioni percentuali di una variabile in due o più popolazioni sono uguali


Pertanto testiamo H 0, ovvero la proporzione di bambini con asma appartenenti a famiglie
disagiate è uguale alla proporzione di bambini con asma appartenenti al gruppo di famiglie di
controllo contro l’ipotesi alternativa H A , ovvero le proporzione di bambini con asma non sono
uguali nei due campioni di famiglie.
Per verificare l’ipotesi Nulla ( H 0 ) si calcola il Chi Quadro. In generale la frequenza attesa per una
determinata cella della tabella è calcolabile come il totale di riga moltiplicato il totale di colonna
diviso il totale della tabella:

Situazione osservata Situazione attesa

Per valutare se le differenze riscontrate sono dovute al caso si può adoperare la statistica
seguente:
( O−E )2
∑ E
dove si confrontano le frequenze O osservate in ciascuna categoria della tabella di contingenza,
con le frequenze attese E, posto che l’ipotesi nulla sia vera. Esso è utilizzato per stabilire se la
differenza tra le frequenze osservate e quelle attese, O-E, siano troppo grandi per essere attribuite
al caso.
Tale statistica segue con buona approssimazione una distribuzione chi quadro con
(r −1)(c−1)=1¿ grado di libertà). Per la validità di tale approssimazione, nessuna cella deve avere
una frequenza attesa minore di 1 e non più del 20% delle celle deve avere una frequenza attesa

47
minore di 5 Inoltre, per ridurre gli errori di approssimazione, si introduce la correzione per
continuità; si dovrà valutare pertanto la statistica.

( )
2
|O−E|− 1
2
∑ E
tutte≤celle

Correzione di Yates. La correzione di continuità (1/2) è nota come correzione di Yates che riduce il
valore del test statistico c 2 e fa aumentare il valore p corrispondente. Anche se tale correzione è
stata molto utilizzata in passato, oggi molti ricercatori dubitano sulla sua validità Se tuttavia, n è
sufficientemente grande, l’effetto del fattore di correzione è trascurabile.

(|O−E|)2
∑ E
tutte≤celle

2 2 2 2
2 (37−43) (13−7) (92−86) (8−14)
X = + + + =8.95
43 7 86 14

Confronto di proporzioni in campioni indipendenti. In definitiva dalla tabella di contingenza in


(|O−E|)2
esame segue che: X = 2
∑ E
2
X =8.95
tutte≤celle

Si calcolano i gradi di libertà (gl) del osservato: gl=( r−1)(c−1)


Si sceglie il livello di significatività (a) ovvero la probabilità di compiere un errore rifiutando
l’ipotesi nulla quando essa fosse vera. Si esamina la tavola che riporta il valore soglia (critico) del
Chi Quadro per il livello di significatività prescelto e per i gradi di libertà del valore osservato. X 2 gl; a

 Se p > 5 % la differenza non è significativa (accetto H 0 )

48
 Se 1 % < p < 5 % la differenza è significativa (rifiuto H 0 )
 Se p < 1 % la differenza è altamente significativa (rifiuto H 0 )
Per una distribuzione chi quadro con un grado di libertà dalle tavole si ricava che la probabilità di
ottenere 8.95 o un valore maggiore è minore di 0.05. Poiché p<a rifiutiamo l’ H 0 e concludiamo
che le proporzioni di bambini con asma non sono uguali nei due campioni.
Esempio 2. I risultati di uno studio epidemiologico condotto per verificare l’associazione tra fumo
di sigaretta e attività lavorativa (casalinghe – non casalinghe), in cui sono state analizzate un
gruppo di 110 donne fumatrici che sono state confrontate con un gruppo di 94 donne non
fumatrici, sono riportati nella seguente tabella:

H 0 : la proporzione di donne fumatrici tra le casalinghe è uguale alla proporzione di donne


fumatrici tra le non casalinghe.
H A : le proporzioni di donne fumatrici non sono uguali nelle due condizioni lavorative.
Frequenze osservate:

Frequenze attese: totale di riga moltiplicato il totale di colonna diviso il totale della tabella

( )
2
|O−E|− 1
2
∑ E
tutte≤celle
2 2 2 2
2 (|88−77|−0.5) (|22−33|−0.5) (|55−66|−0.5) (|39−28|−0.5)
X = + + + =10.38
77 33 66 28
Si calcolano i gradi di libertà (gl) del chi quadro osservato: gl = (r −1)(c −1)=1
Si sceglie il livello di significatività (a) ovvero la probabilità di compiere un errore rifiutando
l’ipotesi nulla quando essa fosse vera. a=0.05
Si esamina la tavola che riporta il valore soglia (critico) del Chi Quadro per il livello di significatività
prescelto e per i gradi di libertà del valore osservato.
2
X 1 ;0.05
Si guarda la tabella. Essendo p < 0.005. p < 1 % la differenza è altamente significativa. Quindi: la
proporzione di donne fumatrici tra le casalinghe non è uguale alla proporzione di donne fumatrici
tra le non casalinghe. La condizione lavorativa ha influenza sull’abitudine al fumo di sigaretta.
Confronto di molte proporzioni per campioni indipendenti. Il test del chi quadro si può estendere
in generale ad una tabella di contingenza r x c.
49
I valori attesi sono ottenuti come in precedenza moltiplicando i corrispondenti totali di riga e di
colonna e quindi dividendo il prodotto per il totale dell’intera tavola. I gradi di libertà in questo
caso sono (r-1) (c-1).
Esempio 3. In questo caso i dati verranno presentati in una tabella 2 x K, avente cioè 2 colonne e K
righe. Ad esempio, un’indagine campionaria ha fornito le seguenti osservazioni (O):

Ipotesi nulla: uguale distribuzione (stessa proporzione) di donne tromboembolitiche e donne


sane, all’interno dei quattro gruppi sanguigni. Possiamo pertanto costruire la tabella delle
frequenze attese (E):
( O−E )2 (32−22.825)2 (51−60.175)2
X3= ∑
2
= + +…=3.69+1.40+…+2.83=19.47
tutte≤celle E 22.825 60.175
Valutando tale valore in base alle tavole di una distribuzione con 3 gradi di libertà si vede che la
differenza nella distribuzione di donne tromboembolitiche e donne sane nei vari gruppi è
statisticamente significativa.

50

Potrebbero piacerti anche