Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
1. Cosa è la statistica?
La statistica è una scienza funzionale ad altre che si occupa d i elaborare i metodi più efficaci per analizzare
dati di diversi fenomeni che possono riguardare la sfera economica, sociale ma anche biologica o
biomedica. In questi due ultimi casi parliamo di Biostatistica.
L’unità di analisi o unità statistica è rappresentata dai soggetti/oggetti su cui sono rilevabili le
manifestazioni delle variabili.
Il carattere di un’unità statistica è una particolare caratteristica degli individui della popolazione stessa che
si presenta con forme differenti. Infatti deve presentare dei requisiti ovvero devono esistere più modalità,
più individui devono presentare la stessa modalità, almeno due individui devono presentare modalità
differenti e ogni individui deve presentare una sola modalità
Una variabile è un qualunque fenomeno che assume modalità e valori differenti. Distinguiamo variabili
quantitative e variabili qualitative. Le variabili qualitative sono degli attributi e possono essere nominali,
ovvero senza che tra le modalità vi sia un ordine (relazione di tipo ¿ o< ¿), ne sono un esempio il genere,
che tra l’altro è anche una variabile dicotomica (vale a dire che ho solo 2 modalità) oppure i gruppi
sanguigni (A B AB 0); oppure possono essere ordinali, dove invece questa tipo di relazione maggiore/minore
esiste e ne sono esempio le classi dei cancerogeni, la classificazione di agenti biologici e via dicendo. Le
variabili quantitative sono dei numeri e possono essere discrete, se comprendo solo valori interi come il
numero di amminoacidi in una sequenza polipeptidica o il numero di basi nel DNA di un mammifero oppure
continue, ovvero dove sono inclusi anche valori frazionali come nel caso in cui considero il peso di un
organo oppure la concentrazione di mercurio in acqua.
La matrice di dati è una tabella che organizza l’informazione in una forma idonea all’analisi statistica; lungo
le righe sono rappresentati i casi, ovvero gli elementi della popolazione in studio, mentre lungo le colonne
sono riportate le variabili.
Con frequenza assoluta si indica il numero di volte in cui un evento si verifica a prescindere dal numero
totale di prove o il numero di presenze di una modalità nel campione in studio a prescindere dal numero
totale del campione in studio . La frequenza relativa si calcola tramite il rapporto della frequenza assoluta
(numero di presenze) e il numero totale del campione in studio. La frequenza cumulativa si ricava dalla
somma tra le frequenze relative di quel valore specificata e di quelli precedenti.
Talvolta è necessario dividere i valori di una variabile in più classi in quanto sono molteplici. Per
raggruppare in classi di valori i vari dati della variabile in analisi bisogna avvalersi della regola di Sturges. Per
cui il numero di classi sarà dato da: c=1+3.3 logN , dove N è il numero di valori della variabile e per
N
ricavare l’ampiezza della variabile basta calcolare: α = . Talvolta l’ampiezza può dare dei valori ambigui
c
per esempio 3.4 per cui si può abbassare il numero di classi in cui ho suddiviso i valori della mia variabile in
modo da ottenere un valore maggiormente idoneo dell’ampiezza di queste classi.
Gli indici di tendenza centrale, detti anche indici di posizione sono degli indici che vanno a delineare dove si
concentra la mia osservazione; infatti più che valutare la dispersione va a valutare la distribuzione. Tra i più
noti indici di tendenza centrale vi sono la media, la mediana e la moda.
10. Media
La media campionaria è data dal rapporto della sommatoria delle osservazioni del mio campione diviso la
1
loro numerosità:
N
∑ x i. È detta media aritmetica e rappresenta la modalità rappresentativa in quanto a
più valori ne sostituisce 1. A questa si aggiunge anche la media aritmetica ponderata, utile quando si ha a
che fare con delle medie in cui ogni osservazione e moltiplicata per la propria numerosità il tutto diviso per
1
N:
N
∑ x i n i. La media rappresenta il baricentro delle mie osservazioni; è sempre compresa tra il valore
più piccolo e quello più grande della mia osservazione e la somma degli scarti della media è sempre nulla. È
rilevabile in variabili quantitative
11. Mediana
La mediana è definita come la modalità che occupa la posizione centrale delle mie osservazioni. Talvolta è
definita come il 50 percentile delle mie osservazioni. Si tratta di un valore robusto perché risente poco dei
valori estremi a differenza della media. È rilevabile in variabili quantitative e qualitative ordinali.
12. Moda
Si ha una distribuzione simmetrica quando media, moda e mediana sono uguali fra di loro. Quando media e
mediana sono uguali ma la moda è diversa si può parlare di distribuzioni simmetriche bimodali
Si ha una distribuzione simmetrica quando media, moda e mediana sono tra di loro diverse.
Gli indici di variabilità sono indici che definiscono la dispersione di una variabile e possono essere usati sia
per variabili quantitative che per variabile qualitative. In caso di variabili quantitative avrò maggiori
dispersione più mi discosto dal valore medio della mia variabile mentre per quanto concerne le variabili
qualitative avrò maggiore dispersione o eterogeneità quando le frequenze di ogni modalità della mia
variabile tendono ad uniformarsi. Per variabili quantitative sono indici di dispersione: il range, la varianza e
il coefficiente di Variazione. Per variabili qualitative sono indici di dispersione: l’indice di entropia e l’indice
di eterogeneità.
16. Range
Il range è un indice di variabilità o di dispersione, usato per variabili quantitative. In generale questi indici
mi rilevano la dispersione di una variabile. Il range si po’ calcolare o secondo la formula: x max −x min oppure
si può segnalare con: (x min ; x max ), per cui considera solo i valori estremi della mia variabile.
17. Varianza
La varianza è un indice di variabilità definito come il rapporto tra la sommatoria del quadrato degli scarti di
ciascun valore dalla media diviso il numero di osservazioni. Gli scarti sono la differenza tra il valore
1
considerato e l media:
N
∑ ( xi ¿−m)2 ¿. ∑ (x i¿ −m)2 ¿ corrisponde alla devianza. La varianza è anche
indicata con il simbolo σ 2
Il coefficiente di variazione è un indici di variabilità che serve per mettere in relazione la deviazione
σ
standard e la media ed è un valore in percentuale. Si ricava dalla formula: CV = ×100 . Se il valore si
m
avvicina al 100% ho maggiore eterogeneità; se il valore si avvicina allo 0% ho maggiore omogeneità.
In biostatistica il criterio di 'normalità' accettato è quello di assumere come limiti il 2.5° ed il 97.5°
percentile della distribuzione dei dati di una popolazione 'sana'. Quindi Normale = frequente e anormale =
raro.
L’indice di Entropia è un indice di variabilità usato per variabili qualitative definito come: H=−∑ flnf ,
maggiore è il valore ottenuto maggiore è l’eterogeneità della variabile.
H
L’indice di Entropia è un indice di variabilità usato per variabili qualitative definito come: E= , può
H max
assumere valori da 0 ad 1 e più si avvicina all’1, maggiore la eterogeneità, viceversa il contrario.
Il concetto di causalità è un concetto prettamente teoretico, che non può essere verificato empiricamente.
Si ha la causalità quando due variabili variano e siamo in grado di distinguere chi causa la variazione
dell’altra per cui le caratteristiche di un rapporto causale tra variabili devono essere; l’asimmetria, vale dire
che il variare di una variabile precede il variare dell’altra e il legame diretto, per cui il variare di una variabile
(dipendente) non è meramente associato ma dovuto al variare dell’altra variabile (indipendente):
Se non posso verificare positivamente una relazione causale posso però come suggerisce Popper verificarla
negativamente, vale a dire falsificazionare. Per cui se ho dei valori posso dire in base ad un modello
teoretico se posso rifiutare la mia ipotesi che si basa su tale modello o meno.
Nel caso del disegno non sperimentale o osservazionale il ricercatore ha a disposizione solo: i dati osservati
e le relazioni osservate tra le variabili. L’unico modo di procedere sarà quello di formulare una teoria quale
ipotesi e confrontare quanto i risultati previsti da tale teoria sono in accordo con i dati osservati.
27. Covariazione
Sia ha covariazione tra due variabili quando mostrano una variazione concomitante, ovvero quando al
variare dell’una, varia l’altra, senza che una causa la variazione dell’altra (In quel caso si parlerebbe di
dipendenza.
28. Relazioni causali tra variabili: diretta, reciproca, spuria, indiretta e condizionata
Relazione causale diretta. Si tratta del tipo di relazione causale di primo e immediato interesse del
ricercatore. Due variabili sono legate da relazione causale diretta quando il variare dell’una, la “causa”,
produce un mutamento nella variabile “effetto”.
Asimmetria (o direzionalità senza la quale avremmo una relazione reciproca).
Concetto di “produzione” (senza il quale avremmo una covariazione e cioè una relazione spuria).
Immediatezza del nesso (senza la quale avremmo una relazione indiretta).
Ad esempio una sostanza che ha la capacità di interagire con il DNA causa direttamente il danno
genotossico.
Relazione reciproca. Quando viene meno l’asimmetria del rapporto tra variabili, e queste si influenzano
reciprocamente; si parla anche di retroazione o causazione reciproca In questo caso viene meno la
distinzione fra variabile causa e variabile effetto. Un esempio può essere il feed-back nella regolazione dei
processi biologici.
Esempio: il feed-back nella regolazione dei processi biologici: ormoni tiroidei e TSH ipofisario. La quantità di
ormoni tiroidei T3 e T4 in circolo a bassi livelli stimola la produzione da parte dell’ipofisi di TSH (tyroid
stimulating hormone) che a sua volta stimola la tiroide a rilasciare T3 e T4 (feedback positivo). Quando
l’ipofisi attraverso il TSH determina un elevato livello di questi ormoni T3 e T4 viene inibita (feedback
negativo) la produzione da parte dell’ipofisi di TSH.
Relazione spuria. È il caso classico di covariazione in assenza di causazione. Esempio: i nidi di cicogna in
un’area e il numero di nascite. La collocazione urbano/rurale delle aree costituisce la terza variabile (Z):
nelle zone rurali le famiglie sono più prolifiche e ci sono anche più nidi di cicogne. Quindi: è presente una
causa comune alle due variabili covarianti e la causa di Y non proviene da X ma da una terza variabile a
questa correlata
Relazione indiretta. Quando il legame causale tra due variabili X e Y è mediato da una terza variabile Z.
Esempio: razza e quoziente intellettivo QI. La razza (X) agisce sul livello di istruzione (Z) il quale agisce su Y
(basso QI). La terza variabile viene chiamata variabile interveniente Il legame causale esiste ma non è
diretto ossia non è la razza, ossia la variabile genetica, a determinare il grado di intelligenza.
Relazione condizionata (interazione). È il caso in cui la relazione tra due variabili cambia a seconda del
valore assunto da una terza variabile.
Esempio: infezione da HPV e cervicocarcinoma. Assenza di relazione fra HPV (X) e cervicocarcinoma (Y) in
alcuni gruppi di donne; con l’introduzione di una terza variabile Z (polimorfismi genetici) emerge la
relazione. L’azione della variabile Z si esercita non su X o su Y, ma sul legame che lega X a Y (relazione
condizionata).
29. Dipendenza
Il concetto di dipendenza è applicabile a due variabili quando distinguiamo una variabili indipendente che
causa il variare di un'altra variabile detta dipendente; per cui è il concetto opposto a covarianza in quanto le
due variabili non coovariano ma una determina il variare dell’altra, che ne è l’effetto.
Una tabella a doppia entrata è una tabella usato con lo scopo di inserire analizzare due variabili che
covariano o che sono dipendenti l’una dall’altra; per cui nelle righe metterò una variabile, nelle colonne
un'altra e nelle celle considero le osservazioni che ottengo dalle combinazioni tra le diverse modalità delle
variabili
31. Covarianza
La covarianza è un indice che mi dice come due variabili covariano. La covarianza è definita come il valore
atteso del prodotto degli scarti dei valori di X e Y dalle rispettive medie. La covarianza sarà tanto più elevata
quanto più sarà stretta la covariazione fra X e Y. È definita, quindi, dalla seguente formula:
Il coefficiente di correlazione di Person di calcola quando ho a che fare con due variabili quantitative e ne
Cov (X ; Y )
voglio studiare la correlazione. Si ricava dalla formula ρ= . Può assumere valori tra -1 e +1.
σxσy
Quando si avvicina a -1 vi è una correlazione negativa se si avvicina a +1 vi è una correlazione positiva, se è
uguale a 0, non vi è correlazione. Questo valore è estremamente sensibile a valori estremi e non determina
una relazione causa-effetto. Per esempio, è stato fatto uno studio di tipo ecologico (dati aggregati) in cui è
stato calcolato che una correlatività pari a 0.82 tra il consumo di carne e il cancro allo stomaco. Ciò non vuol
dire che il consumo di carne sia un fattore di rischio del cancro ma significa solo che la mia variabile y sta
aumentando alla variabile x; se voglio determinare l’esistenza di un’ associazione tra le due variabili mi
devo affidare a studi di tipo analitico e mi devo ricavare valori come OD e il RR. Il coefficiente di Pearson
può essere usato solo per correlazioni lineari; per correlazioni alineari mi devo affidare al coefficiente di
correlazione di Spearman.
Un evento è l’elemento di base al quale può essere associata la probabilità. Per cui, è la descrizione di una
situazione, il risultato di un esperimento o di una osservazione. Un evento si verifica o non si verifica e
pertanto può essere considerato una variabile dicotomica.
I diagrammi di Venn ci aiuto dal punto di vista grafico a rappresentare l’unione, intersezione di due eventi e
il complemento di un evento. L’unione di due eventi si ha quando si verifica o solo l’evento A o solo B o
entrambi; l’intersezione è quando si verifica sia l’evento A che l’evento B. Il complemento di un evento e il
“non evento”, ciò il verificarsi della situazione opposta.
Du eventi sono mutuamente esclusivi quando il verificarsi dell’uno condizione il verificarsi dell’altro: un
evento e il complemento dello stesso non eventi mutuamente esclusivi. Due eventi indipendenti sono due
eventi in cui il verificasi dell’uno non condiziona il verificarsi dell’alto.
Il principio della somma delle probabilità si basa sul concetto che l’unione tra l’evento A e il suo
complementare è pari ad 1. Per cui, la probabilità che si possano verificare o uno o l’altro evento è massima
così se dovessi sommare le due probabilità otterrei sempre 1 come valore; per cui:
P ( A ) ∪ P ( A ) =P ( A )+ P ( A ) . Essendo A e il suo complemento degli eventi mutuamente esclusivi possono
generalizzare questa regola per eventi mutuamente esclusivi. Qualora i due eventi fossero non
mutuamente esclusivi devo sottrarre al valore ottenuto l’intersezione ovvero l’intervallo in cui si verificano
entrambi gli eventi: P ( A ) ∪ P(B)=P ( A ) + P ( B )=P( A ∩ B).
Il principio del prodotto delle singole probabilità si basa sul fatto che il prodotto che due eventi
indipendenti si verificano è uguale alla loro intersezione; questo concetto è applicabile anche ad eventi
mutuamente esclusivi ma, la loro intersezione sarà pari a 0 così come il loro prodotto.
avvenuto un altro evento. Per cui per eventi condizionati vale che P ( BA )= P(P(A ∩B)B)
41. Inferenza statistica
L’inferenza statistica consente di utilizzare le informazioni di un campione per fare inferenze sulle
caratteristiche della popolazione da cui è stato estratto.
L’ipotesi nulla è l’ipotesi con la quale considero nulla la differenza tra il valore che osservo e quello che mi
aspetto (per cui tra il valore effettivo di un parametro e quello stimato); viceversa l’ipotesi H A considera
differenti i due valori. In generale:
H 0 : xteo −X sp=0
H A : x teo−X sp ≠ 0
Esistono diverse tipologie di test di ipotesi; innanzitutto bisogna individuare se ho a che fare con campioni
indipendenti o campioni appaiati. Per campioni indipendenti si intende due campioni differenti, per
esempio maschi e femminine; mentre campioni appaiati sono la stessa popolazione in studio ma presentata
con una condizione differente, per esempio dopo l’effetto di un farmaco che è stato somministrato.
Esistono test parametrici e test non parametrici. Test parametrici si fanno per variabili quantitative e un
esempio è il test di t-student; mentre test non parametrici si fanno per variabili qualitative e un esempio è il
chi quadrato.
Esistono anche test ad una coda, dove il valore critico lascia sulla coda una probabilità pari a p ed esistono
test a due code, dove i valori critici lascia sulle due cose una probabilità pari a p/2.
46. T-student
Il test del t-student è un test parametrico , per cui è un test che può essere fatto per variabili quantitative
ed è un test che permette il confronto tra due medie. Posso fare questo test sia su campioni dipendenti
Il test del chi quadrato è un test non parametrico usato per variabili qualitative su campioni indipendenti.
Per calcolarmi il test del chi quadrato, una volta noti i valori attesi bisogna ricavare il risultato dalla formula
( O−E ) 2
che confronterò con il valore soglia che trovo nella tabella: . Per campioni di popolazione e più
E
1
( O−E )2−
precisamente quando ci sono poche modalità applico la correzione di Yates 2.
E