Sei sulla pagina 1di 11

Appunti schematici Statistica

Introduzione
1) Statistica: scienza che si occupa di trovare i metodi migliori per analizzare i dati numerici di vari
fenomeni, è una scienza strumentale ad altre.
Rilevazione dei dati
1) Unità di analisi: è il tipo di soggetto su cui verifichiamo una determinata variabile, ad esempio gli
studenti in un’aula.
2) Caso: è il singolo soggetto, facente parte dell’unità di analisi, su cui verifichiamo una determinata
variabile, ad esempio uno studente specifico in un’aula.
3) Universo o popolazione di riferimento o popolazione statistica: è l’insieme di tutti i casi, appartenenti
ad un’unità di analisi, che prendiamo in esame, ad esempio tutti gli studenti in un’aula.
4) Campione: rappresenta un sottogruppo dell’universo, ad esempio tutti gli studenti maschi in un’aula.
5) Rilevazione totale: quando la rilevazione è fatta sulla popolazione di riferimento, ci fornisce un valore
reale ed effettivo.
6) Rilevazione campionaria: quando la rilevazione è fatta su un campione della popolazione di riferimento,
ci fornisce una stima, per cui può essere soggetta ad un errore di campionamento.
7) Campione probabilistico: rappresenta un sottogruppo dell’universo preso a caso, senza un criterio, ad
esempio gli studenti in un’aula che si trovano in prima fila.
8) Distribuzione: è l’insieme delle frequenze relative, ad esempio il 70% maschi ed il 30% femmine.
9) Carattere: caratteristica che voglio prendere in esame. Deve rispettare 4 requisiti: 1) il carattere deve
poter assumere modalità diverse (sottopeso, normopeso, sovrappeso, obeso); 2) più individui possono
possedere la stessa modalità del carattere; 3) ogni individuo della popolazione deve poter possedere
un’unica modalità del carattere (se sono normopeso non posso essere obeso e viceversa); 4) devono
esistere almeno due individui della popolazione per cui il carattere assuma modalità diverse (non posso
prendere un campione con tutti normopeso ecc…).
10) Variabili: è un qualsiasi fenomeno che può assumere valori o modalità differenti. Distinguiamo variabili
qualitative, sono quelle a cui non si attribuisce un numero (alto, basso ferita da arma da fuoco, mortale,
grave, mediamente grave, lieve; ferita chirurgica, pulita, contaminata, sporca); variabili quantitative, sono
quelle a cui si attribuisce un numero (cellule in una piastra numero di nucleotidi di una sequenza di DNA;
numero globuli rossi nel sangue; altezza; età; quanti pasti consumi al giorno). Le variabili qualitative si
suddividono ulteriormente in: variabili nominali, sono quelle variabili a cui non si può attribuire un ordine
naturale, ad esempio i gruppi sanguigni (A, B, AB, 0), oppure i tipi di cellule ne sangue (eritrociti, leucociti,
piastrine); le variabili nominali posso essere dicotomiche, cioè che presentano solo 2 modalità, maschio-
femmina, si-no; variabili cardinali o ordinali, sono quelle variabili a cui si può attribuire un ordine naturale,
ad esempio lo stato di peso (sottopeso, normopeso, sovrappeso, obeso; un altro esempio di variabili
qualitative ordinali è la classificazione degli agenti di rischio). Le variabili quantitative si suddividono
ulteriormente in: variabili discrete, sono quelle variabili che possono assumere solo valori interi, quindi che
posso contare, ad esempio il numero di cellule in una piastra di coltura (1, 2, 3 ecc….); variabili continue,
sono quelle variabili che possono assumere valori frazionari, ad esempio i valori di un determinato
parametro nel sangue (glicemia, colesterolo, vitamine). Le variabili quantitative possono essere
trasformate in variabili qualitative decidendo dei range, ad esempio 1,60m<=basso,
1,60m<x<1,75m=medio, >1,75m= alto, >2,00m= gigante
11) Matrice dei dati: serve ad organizzare i dati. Si suddivide in righe e colonne, le righe rappresentano un
caso o record, le colonne una variabile, non deve mai mancare l’intestazione (cioè la prima riga), li trovo
etichetta, variabili e definizioni di ciascuna variabile; è molto importante anche la prima colonna, in cui
possono inserire il nome di ogni singolo caso. La matrice è sempre accompagnata da un code book, cioè un
elenco che rappresenta come converto le variabili nominali in numeri, ad esempio femmina=0, maschio=1.
Quando è presente un dato mancante può essere sostituto con diverse tecniche.

12) Frequenze assolute: in generale per frequenza si intende il numero di volte in cui ci imbattiamo in una
medesima osservazione. Parliamo di frequenza assoluta quando specifichiamo il numero di casi osservati,
senza menzionare il numero di casi osservabili, ad esempio 2 alunni maschi. Usabile per tutte le variabili.
13) Frequenze relative: in generale per frequenza si intende il numero di volte in cui ci imbattiamo in una
medesima osservazione. Parliamo di frequenza relativa quando specifichiamo il numero di casi osservati ed
anche il numero di casi osservabili, ad esempio 2 alunni maschi su 20 alunni di una classe. Dal punto di
vista matematico f=X/C. Usabile per tutte le variabili. Viene espressa con un numero decimale (1/10)
oppure in percentuale (10%).
14) Distribuzioni cumulative di frequenza: viene calcolata semplicemente sommando la frequenza relativa
in una data riga, con quelle delle righe precedenti. Il risultato finale è sempre il 100% (non scordarlo).

15) Presentazioni grafiche: serve a fornire in maniera immediata le caratteristiche essenziali dell’indagine.
Distinguiamo vari tipi: diagramma a barre, istogramma, diagramma a settori circolari, cartogramma.
16) Diagramma a barre: si usa solitamente per variabili qualitative nominali (ma non solo); le colonne sono
separate tra di loro.
17) Istogramma: si usa solitamente per variabili quantitative continue; le colonne sono unite tra di loro, la
somma di tutti i rettangoli da il 100%; la larghezza della colonna è proporzionale alla grandezza della classe.

18) Diagramma a settori circolari: poco utile, infatti gli esseri umani non distinguono bene gli angoli, quindi
lo si usa solo per valori molto differenti per una variabile (98%-2%), nel caso in cui volessimo utilizzarlo è
( f ) (360 ° )
meglio farlo in 2D e non in 3D; l’ampiezza dell’angolo è dato dalla formula: α= .
N
19) Cartogramma: è una rappresentazione grafica su una cartina geografica, molto utile con il covid.
20) Indici statistici descrittivi: servono a riassumere le caratteristiche essenziali di una variabile statistica,
inoltre consente un confronto fra distribuzioni diverse.
21) Indici di tendenza centrale o di posizione: misurano l’intensità della variabile; i più importanti sono
media, mediana e moda.
22) Indici di dispersione o di variabilità: misura la tendenza del fenomeno a variare rispetto ad un valore
centrale; i più importanti sono il campo di variazione (range), la varianza, la deviazione standard. Non
assumono mai valori negativi, hanno valore 0 se tutte le variabili sono uguali. Per caratteri qualitativi, più
le frequenze tendono ad essere uniformi e maggiore sarà la variabilità.

23) Quantili: suddividono la distribuzione in k parti, ciascuna contenente la stessa quantità di dati. Quartili,
divide la distribuzione in 4 parti (0-25, 25-50, 50-75, 75-100); Decili, divide la distribuzione in 10 parti (0-10,
10-20, 20-30, 30-40, 40-50, 50-60, 60-70, 70-80, 80-90, 90-100); Quantili, divide la distribuzione in 100
parti.
24) Media: indica l’intensità di un fenomeno, può essere applicata solo per variabili quantitative; è
estremamente sensibile ai valori estremi; si calcola come la somma di tutte le osservazioni diviso il

numero di osservazioni x=
∑ xi . Alcune caratteristiche della media aritmetica sono: rappresenta il
N
baricentro della distribuzione; è sempre compresa tra il valore più grande e quello più piccolo; la somma
degli scarti della media è sempre nulla. Esiste anche la media ponderata, in questo caso si calcola come x=
∑ xi
N
25) Mediana: è il valore che occupa la posizione centrale (cinquantesimo percentile) in una serie ordinata
di numeri; può essere applicata per variabili quantitative e qualitative ordinali; non è sensibile ai valori
estremi, per questo viene definita una misura robusta; si calcola: n disparime=(n+1)/2, n parime=n/2
oppure per essere più precisi me=(n/2)+1. La mediana di una variabile è quel valore per cui la frequenza
cumulativa vale 0,5.

26) Moda: indica la modalità più diffusa, può essere calcolata solo se sono presenti almeno 2 valori
differenti e se almeno uno dei due si ripete più volte; può essere applicata per tutte le variabili; rispetto al
numero di punti di massima frequenza distinguiamo distribuzioni unimodali, bimodali e multimodali.

27) Campo di variazione o range: è dato dalla differenza tra il valore massimo ed il valore minimo; r=xmax-
xmin; oppure specificando il valore più basso e più alto (0-9); è molto sensibile a valori estremi. Il campo di
variazione interquartile prende in considerazione il 25° ed il 75° percentile, al cui interno è compreso il 50°
percentile.
28) Varianza: è dato dalla divisione tra (la somma dei quadrati degli scardi di ciascun valore dalla media
(cioè la differenza tra un valore e la media))/il numero di esservazioni; il numeratore prende il nome di
devianza; viene indicata con il simbolo σ2; mettendo al denominatore il numero di osservazioni-1 (N-1)

otterrò una stima più corretta.


29) Deviazione standard: è data dalla radice quadrata della varianza; viene indicata con il simbolo σ.
30) Coefficiente di variazione: è una grandezza che esprime in termini percentuali la deviazione standard
σ
rispetto alla media, si calcola come CV= x100; è una grandezza adimensionale.
M
31) Sorgenti di variazione: è importante individuare le sorgenti di variazioni, così da escluderle o ridurle; le
principali sorgenti di variazione sono: esclusivamente biologiche (età, sesso, razza, ecc…); temporale
(pressione, temperatura, clima, ecc…); errori di misura (strumenti di misura, condizioni di laboratorio,
stabilità dei reagenti, ecc….). Il modo per ridurre gli errori di misura è quello di replicare più volte
l’esperimento.

Analisi bivariata, cioè le relazioni tra 2 variabili


1) Causalità: come può il cambiamento di una variabile produrre il cambiamento di un’altra variabile? Una
legge casuale non può essere dimostrata empiricamente. Quando si parla di causalità abbiamo due
caratteristiche, direzionalità dell’azione, cioè che il variare di una variabile (indipendente) preceda il
variare di un’altra variabile; legame diretto, cioè che il variare di una variabile sia dovuto al variare di
un’altra variabile. Variabile indipendentevariabile dipendente.
2) Produzione: il concetto di produzione non è sufficiente per poter associare due eventi.
3) Covariazione: una variabile è dipendente da un’altra e viceversa, variano insieme, variabile↔variabile;
è osservabile empiricamente. Si calcola come il prodotto degli scarti dei valori di x e di y dalle rispettive

medie:
4) Dipendenza: Quando una variabile X indipendente costituisce la causa della variabile y dipendente, che
costituisce l’effetto, per cui non variano insieme, solo una dipende dall’altra.
5) Disegno sperimentale: Quando un ricercatore fa un esperimento, artificiale o in laboratorio, tutte le
variabili sono tenute sotto controllo. Può variare soltanto la variabile oggetto dell’esperimento. Questo
però non è applicabile a variabili che coinvolgono uomini o animali.
6) Disegno non sperimentale: Quando invece abbiamo un disegno non sperimentale, cioè nel caso
dell’epidemiologia, si hanno a disposizione solo i dati raccolti dalle osservazioni e le relazioni tra le variabili.
Quindi l’unica cosa che si può fare è quella di formulare una teoria e confrontarla con i dati che si
otterranno dalle osservazioni.
7) Processo di verifica empirica di una teoria: formulare la teoria, simulare una situazione reale seguendo i
dati ottenuti dall’esperimento con un modello, confronto i dati ottenuti. Se trovo discrepanze la teoria
viene rifiutata viceversa viene accettata.
8) Tipi di relazioni tra variabili: diretta, il nesso tra causa ed effetto è diretto, abbiamo un’unica freccia
(asimmettria) XY; reciproca, dalla variabile x si produce una variabile y, ma una variazione di
quest’ultima fa variare la variabile x, quindi non sono asimmetriche e non posso più capire chi è la causa e
chi è l’effetto, X↔Y; spuria, è il classico caso di covariazione, la variazione della variabile y non dipende
dalla variazione della variabile x ma dalla variazione di una terza variabile z, per cui è presente una causa
comune alle due variabili, XZ e ZY, un esempio è la relazione zone rurali e nidi di cicogna, la causa per
entrambe è la posizione in cui facciamo l’indagine; indiretta, quando il legame tra la variabile x e la
variabile y è mediata dalla variabile z, XZY, ad esempio la razza (x) agisce sul livello di istruzione (z) il
quale agisce sul QI (y); condizionata, la relazione tra la variabile x e la variabile y dipende da quanto vale la

variabile z, ad esempio infezione da HPV (x) fa sviluppare il cervicocarcinoma (y), ma la


probabilità è maggiore quando sono presenti dei polimorfismi genetici (z), più sono e peggio è.
9) Analisi tra 2 variabili: associazione, prende in considerazione due variabili qualitative nominali;
cograduazione, prende in considerazione due variabili qualitative ordinali; analisi della varianza, prende in
considerazione una variabile qualitativa ed una quantitativa; correlazione e regressione, prendono in
considerazione due variabili quantitative.
Analisi della dipendenza
1) Perfetta dipendenza: il carattere x determina in maniera univoca il carattere y, nella stessa osservazione.
Y=f(xi)
2) Indipendenza stocastica: fra le due osservazioni non si può stabilire nessun legame. Si calcolare come
fij=piqj, cioè la frequenza di p per la frequenza di q, quindi non sono legate.
3) Coefficiente di correlazione lineare: fornisce una misura della relazione esistente in una variabile
doppia, quindi due grandezze X ed Y; si calcola come la covarianza tra x ed y, fratto il prodotto delle
deviazioni standard di x e di y; può assumere valori compresi tra -1 ed 1, assume valore 0 quando c’è
un’indipendenza stocastica, valore +1 nel caso di perfetta dipendenza lineare diretta (aumentano
entrambe), valore -1 nel caso di perfetta dipendenza lineare inversa (aumenta una e diminuisce l’altra).
Quando parliamo di popolazione definiamo il coefficiente di correlazione di Pearson, si scrive come r e si
calcola allo stesso modo del coefficiente di correlazione lineare. I limiti del coefficiente di correlazione
sono: valuta solo relazioni lineari; è estremamente sensibile a valori estremi; una correlazione tra due
variabili non implica sempre una relazione causa-effetto.

Analisi della regressione


1) Regressione: l’andamento di una variabile y continua (di risposta o dipendente) in funzione di una
variabile x continua (esplicativa o indipendente), ipotizzando che il legame sia lineare; graficamente si
rappresenta con una retta di regressione Y=a+bX.
2) Metodo dei minimi quadrati: lo scarto dalla retta è la distanza tra il valore preso in considerazione e la
retta formata dall’insieme dei valori teorici; la migliore retta è quella che fornisce il valore minore nella
sommatoria, se tutti gli scari fossero 0 allora ogni punto si troverebbe sulla retta stessa.
Inferenza statistica e teoria della probabilità
1) Inferenza statistica: utilizziamo le informazioni di un campione per formulare delle predizioni relative
alle caratteristiche della popolazione da cui sono state estratte. Si basa sulla teoria della probabilità
2) Evento: l’elemento a cui associamo la probabilità, si ottiene da un’osservazione; l’evento è una variabile
dicotomica, per cui si verifica o non si verifica.
3) Operazioni con gli eventi: intersezione, cioè gli elementi che appartengono ad entrambi gli insiemi,
A∩B; unione, cioè gli elementi che appartengono ad almeno uno degli insiemi, AUB; complemento, cioè gli
elementi che non appartengono all’insieme di riferimento, Ā o Ac. Due eventi che non possono verificarsi
contemporaneamente vengono definiti mutuamente esclusivi o disgiunti, quindi A∩Ā=0 ed AUĀ= 1.
n
4) Probabilità: è la frequenza relativa con cui si verifica un evento. P= dove n è il numero di casi che si
m
verificano mentre, m è il numero totali di osservazioni. Il suo valore è compreso fra 0 ed 1, 0 se non si
verifica mai, 1 se si verifica sempre. La probabilità AUĀ=1, la probabilità A∩Ā=0. La probabilità dell’unione
di due eventi mutualmente esclusivi (testa o croce) è data dalla somma delle singole probabilità, P(AUB)=
P(A)+P(B). La probabilità dell’unione di eventi non mutualmente esclusivi (esce un asso di cuori, esce un
asso, esce una carta a cuori) è data dalla somma delle singole probabilità meno l’intersezione delle due
probabilità P(AUB)= P(A)+P(B)-P(A∩B). La probabilità di eventi indipendenti, cioè che il verificarsi di uno
non ha influenza sul verificarsi dell’altro (esce il numero 3, rimetto il numero dentro, può uscire di nuovo) è
data dal prodotto delle singole probabilità P(A∩B)= P(A) · P(B).
5) Probabilità condizionale: se due eventi sono correlati la probabilità condizionale è la probabilità che si
verifichi il caso B se il caso A si è già verificato, si indica come P(B|A), si legge P di B dato A. La probabilità
dell’intersezione di A e di B è data dal prodotto della probabilità A e della probabilità condizionale B|A,
PA∩B)= P(A) · P(B|A).
6) Teorema di Bayes: è utilizzato nella valutazione dei test biologici, stabilisce una relazione fra la
probabilità a priori e quella a posteriori. La probabilità a priori è quella per cui avviene un evento A, P(A);
la probabilità a posteriori è quella per cui avviene un evento A condizionato da un evento B, P(A|B). La
dimostrazione è nelle slides. Ad esempio: immaginiamo che A sia un insieme di eventi mutualmente
esclusivi, come gli individui in una certa condizione lavorativa (impiegati, disoccupati, esterni alla forza
lavoro), e che B sia la presenza di disturbi alimentari. P(A) è la probabilità di trovare un individuo
impiegato; P(B) è la probabilità di trovare un individuo con disturbi alimentari; P(B|A) è la probabilità che
un individuo impiegato presenti dei disturbi alimentari; P(A|B) è la probabilità che un individuo che
P (B∨ A)P( A)
presenti dei disturbi alimentari sia un impiegato. P(A|B)= . Un altro esempio è: P(A) è la
P(B)
probabilità di un soggetto che ha fatto il test; P(B) è la probabilità che un soggetto sia malato; P(B|A) è la
probabilità di un soggetto, che ha fatto il test, si essere malato.
Argomenti che non fanno parte del programma, ma la prof ha fatto
1) Valutazione di un test: i parametri secondo cui valutiamo un test sono: affidabilità, validità, accuratezza,
sensibilità, specificità, valore predittivo, likehood ratio.
2) Caratteristiche di un test di screening: disponibilità di interventi efficaci, ad esempio nel caso dello
screening, cioè un test che per capire quali sono gli individui a rischio di una malattia (ad esempio cancro
alla mammella); disponibilità di mezzi diagnostici per esaminare i positivi; conseguenze psicologiche. Lo
screening deve essere semplice, non invasivo, facile da applicare alla popolazione, sicura ed accettabile,
bisogna valutare il costo del test, del personale e del test diagnostico di conferma.
3) Affidabilità: è la capacità di un test di offrire sempre lo stesso risultato nel corso di misurazioni ripetute.
4) Validità: è la capacità di un test di distinguere i soggetti sani rispetto ai malati.

5) Accuratezza: proporzione dei risultati veri del test rispetto a tutti i risultati del test; (veri positivi + veri
negativi)/(veri positivi + falsi positivi + falsi negativi + veri negativi).
6) Sensibilità: è la capacità di un test di individuare i soggetti malati, si calcola (veri positivi)/(veri positivi +
falsi negativi); per avere una sensibilità del 100% è necessario che tutti i malati risultino positivi al test.
7) Specificità: è la capacità di un test di individuare come negativi i soggetti sani, si calcola (veri
negativi)/(veri negativi + falsi positivi); per avere una specificità del 100% è necessario che tutti i sani
risultino negativi al test. Specificità e sensibilità sono inversamente proporzionali, per cui all’aumentare
dell’una l’altra diminuisce, per ogni test la proporzione cambia. Spesso si preferisce avere una maggiore
sensibilità, meglio avere dei falsi negativi che lasciare scappare dei falsi positivi.
8) Valore predittivo positivo (VPP): è la probabilità che un soggetto positivo al test sia effettivamente
malato, si calcola come (veri positivi)/(veri positivi + falsi positivi).
9) Valore predittivo negativo (VPN): è la probabilità che un soggetto negativo al test sia effettivamente
sano, si calcola come (veri negativi)/(veri negativi + falsi negativi).
Test statistici di Ipotesti
1) Problema del verificare un’ipotesti statistica: la verifica di un’ipotesi statistica è un procedimento
inferenziale, cioè deduttivo, in cui si hanno dei dati ottenuti in degli esperimenti e si cerca di capire se
questi dati possono essere generalizzati per tutta la popolazione.
2) Sistema di ipotesi: si deve definire l’ipotesi nulla H0, ovvero quella che suppone che la differenza tra il
valore effettivo di un parametro (Xteo) e quello stimato (Xsp) sia uguale a zero, e l’ipotesi alternativa Ha, che
prevede che la differenza sia diversa da zero.
3) Test d’ipotesi: ha come obiettivo quello di decidere se accettare l’ipotesi nulla o quella alternativa,
infatti una delle due deve essere vera. La distribuzione di una determinata grandezza rappresenta la
probabilità di verificarsi dell’ipotesi nulla, è una distribuzione simmetrica. Distinguiamo due zone alle code,
le regioni di rifiuto (5%, quindi 2,5% per ogni coda) per cui l’ipotesi nulla è vera, mentre tutte le altre sono
regioni di accettazione (95%, quindi 47,5 per ogni lato), per cui l’ipotesi nulla è falsa.
4) Procedimento: 1) formulare l’ipotesi; 2) individuare il test più appropriato da applicare; 3) studiare la
distribuzione della statistica test per valutare la probabilità di ottenere il risultato osservato qualora
l’ipotesi nulla fosse vera; 4) stabilire il livello di significatività (α) ovvero stabilire il valore sotto al quale
bisogna rifiutare l’ipotesi nulla, nella maggior parte dei casi si sceglie 0,05 (0,025 per ogni coda) oppure per
essere più precisi 0,01 (0,005 per ogni coda); 5) confrontare il livello di probabilità (p) con il livello di
significatività predeterminato (α) e decidere se l’ipotesi nulla è vera o falsa.
5) Significatività di un test: definire la probabilità che si verifichi un valore stimato, in modo da poter
decidere se accettare (probabilità alta) o rifiutare (probabilità bassa) l’ipotesi nulla. Se la probabilità è
maggiore del 5% la differenza non è significativa ed accetto l’ipotesi nulla; se la probabilità è compresa tra
il 5% e l’1% la differenza è significativa e rifiuto l’ipotesi nulla; se la probabilità è minore dell’1% la
differenza è altamente significativa e rifiuto l’ipotesi nulla.
6) Tipi di test: test non parametrico, si usa per variabili qualitative (chi quadrato); test parametrico, si usa
per variabili quantitative (t-student); test ad una coda, si individua un solo valore critico; test a due code, si
individuano due valori, se la statistica test è all’interno accetto l’ipotesi nulla.
7) Errori: errore di I specie, respinge un’ipotesi giusta ed è indicato con α; errore di II specie, accetta
un’ipotesi sbagliata ed è indicato con la lettera β.
8) Test t-student: è un test parametrico, quindi si utilizza per variabili quantitative, ad esempio due medie.
Il tempo di analisi dipende dal tipo di campione utilizzato. Esso può essere: dipendente, cioè i dati sono
forniti dagli stessi soggetti (un gruppo analizzato prima e dopo un trattamento), per cui ad ogni
osservazione nel primo gruppo corrisponde un’osservazione nel secondo gruppo; indipendente cioè i dati
vengono forniti da soggetti differenti (maschi e femmine).
Test t-student per campioni dipendenti: 1) formulare il sistema di ipotesi; 2) calcolare i gradi di libertà
(gl=n-1); 3) stabilire il livello di significatività (1 o 5%); 4) confrontare la tavola dove sono riportati i valori
soglia (valore critico) del t-student per il livello di significatività prescelto ed i gradi di libertà calcolati.

Test t-student per campioni indipendenti: 1) formulare il sistema di ipotesi; 2) calcolare i gradi di libertà
(gl=n1+n2-2); 3) stabilire il livello di significatività (1 o 5%); 4) confrontare la tavola dove sono riportati i
valori soglia (valore critico) del t-student per il livello di significatività prescelto ed i gradi di libertà calcolati.
9) Test del chi quadro: è un test non parametrico, quindi si utilizza per variabili qualitative, attuo a
verificare se i valori rilevati sono diversi dalle frequenze ottenute con la distribuzione teorica. In genetica lo
utilizziamo per confrontare le frequenze alleliche attese ed osservate, per capire se sono in equilibrio di
Hardy-Weinberg. Quando si lavora con dati nominali questi si raggruppano in tabelle di contingenza.
Quindi la frequenza attesa si calcola moltiplicando (il totale di una riga) X (il totale di una colona)/il totale
della tabella. Per cui si sviluppano 2 tabelle, una con la situazione osservata ed una con la situazione attesa.

Il chi quadrato si calcola facendo la differenza, al quadrato, tra le frequenze osservate e quelle attese, tutto
tratto le frequenze attese.

Per calcolare il grado di libertà si moltiplica il numero di righe meno 1 (r-1) per il numero di colonne meno
1 (c-1); per una tabella 2x2 (r-1) (c-1)=1. Per ridurre gli errori di approssimazione si può usare la formula del
chi quadrato a cui sottraiamo 1/2. Questa correzione prende il nome di correzione di Yates.

10) Correzione di Yates: riduce il valore del test del chi quadro e fa aumentare il valore di p.
I passaggi del chi quadrato sono: 1) formulare il sistema di ipotesi; 2) calcolare i gradi di libertà (gl=(r-1) (c-
1)); 3) stabilire il livello di significatività (1 o 5 %); 4) confrontare la tavola dove sono riportati i valori soglia
(valore critico) del chi quadrato per il livello di significatività prescelto ed i gradi di libertà calcolati.

Potrebbero piacerti anche