Sei sulla pagina 1di 10

Statistica

1. Cosa è la statistica?

La statistica è una scienza funzionale ad altre che si occupa d i elaborare i metodi più efficaci per analizzare
dati di diversi fenomeni che possono riguardare la sfera economica, sociale ma anche biologica o
biomedica. In questi due ultimi casi parliamo di Biostatistica.

2. Cosa è l’unità di analisi?

L’unità di analisi o unità statistica è rappresentata dai soggetti/oggetti su cui sono rilevabili le
manifestazioni delle variabili.

3. Carattere di un’unità statistica.

Il carattere di un’unità statistica è una particolare caratteristica degli individui della popolazione stessa che
si presenta con forme differenti. Infatti deve presentare dei requisiti ovvero devono esistere più modalità,
più individui devono presentare la stessa modalità, almeno due individui devono presentare modalità
differenti e ogni individui deve presentare una sola modalità

4. Cosa è una variabile? Tipologie di variabili statistiche ed esempi: quantitative e qualitative

Una variabile è un qualunque fenomeno che assume modalità e valori differenti. Distinguiamo variabili
quantitative e variabili qualitative. Le variabili qualitative sono degli attributi e possono essere nominali,
ovvero senza che tra le modalità vi sia un ordine (relazione di tipo ¿ o< ¿), ne sono un esempio il genere,
che tra l’altro è anche una variabile dicotomica (vale a dire che ho solo 2 modalità) oppure i gruppi
sanguigni (A B AB 0); oppure possono essere ordinali, dove invece questa tipo di relazione maggiore/minore
esiste e ne sono esempio le classi dei cancerogeni, la classificazione di agenti biologici e via dicendo. Le
variabili quantitative sono dei numeri e possono essere discrete, se comprendo solo valori interi come il
numero di amminoacidi in una sequenza polipeptidica o il numero di basi nel DNA di un mammifero oppure
continue, ovvero dove sono inclusi anche valori frazionali come nel caso in cui considero il peso di un
organo oppure la concentrazione di mercurio in acqua.

5. Cosa è una matrice di dati?

La matrice di dati è una tabella che organizza l’informazione in una forma idonea all’analisi statistica; lungo
le righe sono rappresentati i casi, ovvero gli elementi della popolazione in studio, mentre lungo le colonne
sono riportate le variabili.

6. Distribuzioni di frequenze: assolute, relative e cumulative

Con frequenza assoluta si indica il numero di volte in cui un evento si verifica a prescindere dal numero
totale di prove o il numero di presenze di una modalità nel campione in studio a prescindere dal numero
totale del campione in studio . La frequenza relativa si calcola tramite il rapporto della frequenza assoluta
(numero di presenze) e il numero totale del campione in studio. La frequenza cumulativa si ricava dalla
somma tra le frequenze relative di quel valore specificata e di quelli precedenti.

7. Distribuzione per classi di valori: Regola di Sturges

Talvolta è necessario dividere i valori di una variabile in più classi in quanto sono molteplici. Per
raggruppare in classi di valori i vari dati della variabile in analisi bisogna avvalersi della regola di Sturges. Per
cui il numero di classi sarà dato da: c=1+3.3 logN , dove N è il numero di valori della variabile e per
N
ricavare l’ampiezza della variabile basta calcolare: α = . Talvolta l’ampiezza può dare dei valori ambigui
c
per esempio 3.4 per cui si può abbassare il numero di classi in cui ho suddiviso i valori della mia variabile in
modo da ottenere un valore maggiormente idoneo dell’ampiezza di queste classi.

8. Rappresentazioni grafiche: Diagramma a barre; Istogramma; Poligono di frequenza; Diagramma


lineare; Diagramma settori circolari

Le presentazioni grafiche hanno lo scopo di fornire immediatamente le caratteristiche essenziali del


fenomeno oggetto dell’indagine. Ciò si ottiene facendo corrispondere alcuni disegni alla distribuzione di
frequenze della variabile statistica precedentemente costruita.
Le più importanti rappresentazioni grafiche in biologia sono il diagramma a barre, l’ istogramma, il poligono
di frequenza, il diagramma lineare, il diagramma a settori circolari o a torta.
Diagramma a barre. Il diagramma a barre è una maniera di presentare dati qualitativi nominali (ma non
solo). Sulla scala delle ascisse i diversi valori si susseguono in maniera arbitraria nel caso di mutabili
puramente nominali o con un certo ordinamento nel caso di mutabili ordinali o di variabili quantitative. In
ordinate si riportano le frequenze (assolute o relative) di presentazione. I dati appaiono, allora, come una
successione di rettangoli di larghezza arbitraria e di altezza proporzionale alla frequenza.
Il modo di presentare con i grafici le variabili numeriche è più vasto. In ordinate si riportano sempre le
frequenze (assolute o relative) di presentazione delle grandezze In ascisse si riportano i valori ottenuti Se i
valori sono riportati con continuità si ottiene un istogramma variabili quantitative continue.
Istogramma. L’ istogramma è la rappresentazione grafica di una funzione nota solo per un certo numero di
valori della variabile: risulta costituita da più rettangoli adiacenti, ognuno dei quali ha per base un certo
intervallo della variabile e un'altezza data da: f/a cioè la densità di frequenza, ovvero il rapporto tra la
frequenza e l’ampiezza della classe considerata.
Poligono di frequenza. Si usa in sostituzione dell’istogramma.
Diagramma lineare. Il diagramma lineare mostra la tendenza di un fenomeno evidenziandone l’entità della
variazione nel tempo.
Diagramma a settori circolari. Esso si rappresenta come parte (settore) dell’area di un cerchio la frequenza
associata a ciascuna modalità della distribuzione. Adatto ad ogni tipo di carattere, ma da utilizzare quando il
numero di modalità è limitato. L’ampiezza dell’angolo si ricava dalla relazione α :360 ° :f : N .

9. Indici di tendenza centrale

Gli indici di tendenza centrale, detti anche indici di posizione sono degli indici che vanno a delineare dove si
concentra la mia osservazione; infatti più che valutare la dispersione va a valutare la distribuzione. Tra i più
noti indici di tendenza centrale vi sono la media, la mediana e la moda.

10. Media

La media campionaria è data dal rapporto della sommatoria delle osservazioni del mio campione diviso la
1
loro numerosità:
N
∑ x i. È detta media aritmetica e rappresenta la modalità rappresentativa in quanto a
più valori ne sostituisce 1. A questa si aggiunge anche la media aritmetica ponderata, utile quando si ha a
che fare con delle medie in cui ogni osservazione e moltiplicata per la propria numerosità il tutto diviso per
1
N:
N
∑ x i n i. La media rappresenta il baricentro delle mie osservazioni; è sempre compresa tra il valore
più piccolo e quello più grande della mia osservazione e la somma degli scarti della media è sempre nulla. È
rilevabile in variabili quantitative

11. Mediana

La mediana è definita come la modalità che occupa la posizione centrale delle mie osservazioni. Talvolta è
definita come il 50 percentile delle mie osservazioni. Si tratta di un valore robusto perché risente poco dei
valori estremi a differenza della media. È rilevabile in variabili quantitative e qualitative ordinali.

12. Moda

La moda è rilevabile per qualsiasi tipo di variabile ed è la modalità (o le modalità) maggiormente


rappresentata nella mia osservazione. Per cui è la modalitòà a cui è associata la massima frequenza e può
essere unimodale, bimodale o plurimodali a seconda di quante modalità, avendo la stessa frequenza, sono
le più frequenti nella mia osservazione.

13. Distribuzioni simmetriche

Si ha una distribuzione simmetrica quando media, moda e mediana sono uguali fra di loro. Quando media e
mediana sono uguali ma la moda è diversa si può parlare di distribuzioni simmetriche bimodali

14. Distribuzioni asimmetriche

Si ha una distribuzione simmetrica quando media, moda e mediana sono tra di loro diverse.

15. Indici di variabilità

Gli indici di variabilità sono indici che definiscono la dispersione di una variabile e possono essere usati sia
per variabili quantitative che per variabile qualitative. In caso di variabili quantitative avrò maggiori
dispersione più mi discosto dal valore medio della mia variabile mentre per quanto concerne le variabili
qualitative avrò maggiore dispersione o eterogeneità quando le frequenze di ogni modalità della mia
variabile tendono ad uniformarsi. Per variabili quantitative sono indici di dispersione: il range, la varianza e
il coefficiente di Variazione. Per variabili qualitative sono indici di dispersione: l’indice di entropia e l’indice
di eterogeneità.

16. Range

Il range è un indice di variabilità o di dispersione, usato per variabili quantitative. In generale questi indici
mi rilevano la dispersione di una variabile. Il range si po’ calcolare o secondo la formula: x max −⁡x min oppure
si può segnalare con: (x min ; x max ), per cui considera solo i valori estremi della mia variabile.

17. Varianza

La varianza è un indice di variabilità definito come il rapporto tra la sommatoria del quadrato degli scarti di
ciascun valore dalla media diviso il numero di osservazioni. Gli scarti sono la differenza tra il valore
1
considerato e l media:
N
∑ ( xi ¿−m)2 ¿. ∑ (x i¿ −m)2 ¿ corrisponde alla devianza. La varianza è anche
indicata con il simbolo σ 2

18. Deviazione standard


La deviazione standard è data dalla radice quadrata della varianza: √ Var=
√ 1
N
∑ (x i ¿−m)2=σ ¿

19. Coefficiente di Variazione

Il coefficiente di variazione è un indici di variabilità che serve per mettere in relazione la deviazione
σ
standard e la media ed è un valore in percentuale. Si ricava dalla formula: CV = ×100 . Se il valore si
m
avvicina al 100% ho maggiore eterogeneità; se il valore si avvicina allo 0% ho maggiore omogeneità.

20. Criterio di normalità

In biostatistica il criterio di 'normalità' accettato è quello di assumere come limiti il 2.5° ed il 97.5°
percentile della distribuzione dei dati di una popolazione 'sana'. Quindi Normale = frequente e anormale =
raro.

21. Indice di Entropia

L’indice di Entropia è un indice di variabilità usato per variabili qualitative definito come: H=−∑ flnf ,
maggiore è il valore ottenuto maggiore è l’eterogeneità della variabile.

22. Indice di eterogeneità

H
L’indice di Entropia è un indice di variabilità usato per variabili qualitative definito come: E= , può
H max
assumere valori da 0 ad 1 e più si avvicina all’1, maggiore la eterogeneità, viceversa il contrario.

23. Concetto di causalità

Il concetto di causalità è un concetto prettamente teoretico, che non può essere verificato empiricamente.
Si ha la causalità quando due variabili variano e siamo in grado di distinguere chi causa la variazione
dell’altra per cui le caratteristiche di un rapporto causale tra variabili devono essere; l’asimmetria, vale dire
che il variare di una variabile precede il variare dell’altra e il legame diretto, per cui il variare di una variabile
(dipendente) non è meramente associato ma dovuto al variare dell’altra variabile (indipendente):

24. Concetto di falsificazionabilità

Se non posso verificare positivamente una relazione causale posso però come suggerisce Popper verificarla
negativamente, vale a dire falsificazionare. Per cui se ho dei valori posso dire in base ad un modello
teoretico se posso rifiutare la mia ipotesi che si basa su tale modello o meno.

25. Disegno non sperimentale

Nel caso del disegno non sperimentale o osservazionale il ricercatore ha a disposizione solo: i dati osservati
e le relazioni osservate tra le variabili. L’unico modo di procedere sarà quello di formulare una teoria quale
ipotesi e confrontare quanto i risultati previsti da tale teoria sono in accordo con i dati osservati.

26. Disegno sperimentale


Il ricercatore crea una situazione artificiale, o di laboratorio, nella quale tutte le altre possibili cause di
variazione sulla variabile dipendente sono mantenute costanti o tenute sotto controllo.
Solo alle variabili oggetto dell’esperimento, in tale sistema definito isolato, è consentito variare variabile
indipendente a variabile dipendente. Al ricercatore è possibile variare artificialmente la variabile
indipendente.

27. Covariazione

Sia ha covariazione tra due variabili quando mostrano una variazione concomitante, ovvero quando al
variare dell’una, varia l’altra, senza che una causa la variazione dell’altra (In quel caso si parlerebbe di
dipendenza.

28. Relazioni causali tra variabili: diretta, reciproca, spuria, indiretta e condizionata

Relazione causale diretta. Si tratta del tipo di relazione causale di primo e immediato interesse del
ricercatore. Due variabili sono legate da relazione causale diretta quando il variare dell’una, la “causa”,
produce un mutamento nella variabile “effetto”.
 Asimmetria (o direzionalità senza la quale avremmo una relazione reciproca).
 Concetto di “produzione” (senza il quale avremmo una covariazione e cioè una relazione spuria).
 Immediatezza del nesso (senza la quale avremmo una relazione indiretta).
Ad esempio una sostanza che ha la capacità di interagire con il DNA causa direttamente il danno
genotossico.
Relazione reciproca. Quando viene meno l’asimmetria del rapporto tra variabili, e queste si influenzano
reciprocamente; si parla anche di retroazione o causazione reciproca In questo caso viene meno la
distinzione fra variabile causa e variabile effetto. Un esempio può essere il feed-back nella regolazione dei
processi biologici.
Esempio: il feed-back nella regolazione dei processi biologici: ormoni tiroidei e TSH ipofisario. La quantità di
ormoni tiroidei T3 e T4 in circolo a bassi livelli stimola la produzione da parte dell’ipofisi di TSH (tyroid
stimulating hormone) che a sua volta stimola la tiroide a rilasciare T3 e T4 (feedback positivo). Quando
l’ipofisi attraverso il TSH determina un elevato livello di questi ormoni T3 e T4 viene inibita (feedback
negativo) la produzione da parte dell’ipofisi di TSH.

Relazione spuria. È il caso classico di covariazione in assenza di causazione. Esempio: i nidi di cicogna in
un’area e il numero di nascite. La collocazione urbano/rurale delle aree costituisce la terza variabile (Z):
nelle zone rurali le famiglie sono più prolifiche e ci sono anche più nidi di cicogne. Quindi: è presente una
causa comune alle due variabili covarianti e la causa di Y non proviene da X ma da una terza variabile a
questa correlata
Relazione indiretta. Quando il legame causale tra due variabili X e Y è mediato da una terza variabile Z.
Esempio: razza e quoziente intellettivo QI. La razza (X) agisce sul livello di istruzione (Z) il quale agisce su Y
(basso QI). La terza variabile viene chiamata variabile interveniente Il legame causale esiste ma non è
diretto ossia non è la razza, ossia la variabile genetica, a determinare il grado di intelligenza.
Relazione condizionata (interazione). È il caso in cui la relazione tra due variabili cambia a seconda del
valore assunto da una terza variabile.
Esempio: infezione da HPV e cervicocarcinoma. Assenza di relazione fra HPV (X) e cervicocarcinoma (Y) in
alcuni gruppi di donne; con l’introduzione di una terza variabile Z (polimorfismi genetici) emerge la
relazione. L’azione della variabile Z si esercita non su X o su Y, ma sul legame che lega X a Y (relazione
condizionata).

29. Dipendenza

Il concetto di dipendenza è applicabile a due variabili quando distinguiamo una variabili indipendente che
causa il variare di un'altra variabile detta dipendente; per cui è il concetto opposto a covarianza in quanto le
due variabili non coovariano ma una determina il variare dell’altra, che ne è l’effetto.

30. Tabella a doppia entrata

Una tabella a doppia entrata è una tabella usato con lo scopo di inserire analizzare due variabili che
covariano o che sono dipendenti l’una dall’altra; per cui nelle righe metterò una variabile, nelle colonne
un'altra e nelle celle considero le osservazioni che ottengo dalle combinazioni tra le diverse modalità delle
variabili

31. Covarianza

La covarianza è un indice che mi dice come due variabili covariano. La covarianza è definita come il valore
atteso del prodotto degli scarti dei valori di X e Y dalle rispettive medie. La covarianza sarà tanto più elevata
quanto più sarà stretta la covariazione fra X e Y. È definita, quindi, dalla seguente formula:

32. Coefficiente di correlazione lineare di Pearson e coefficiente di covariazione di Spearman

Il coefficiente di correlazione di Person di calcola quando ho a che fare con due variabili quantitative e ne
Cov (X ; Y )
voglio studiare la correlazione. Si ricava dalla formula ρ= . Può assumere valori tra -1 e +1.
σxσy
Quando si avvicina a -1 vi è una correlazione negativa se si avvicina a +1 vi è una correlazione positiva, se è
uguale a 0, non vi è correlazione. Questo valore è estremamente sensibile a valori estremi e non determina
una relazione causa-effetto. Per esempio, è stato fatto uno studio di tipo ecologico (dati aggregati) in cui è
stato calcolato che una correlatività pari a 0.82 tra il consumo di carne e il cancro allo stomaco. Ciò non vuol
dire che il consumo di carne sia un fattore di rischio del cancro ma significa solo che la mia variabile y sta
aumentando alla variabile x; se voglio determinare l’esistenza di un’ associazione tra le due variabili mi
devo affidare a studi di tipo analitico e mi devo ricavare valori come OD e il RR. Il coefficiente di Pearson
può essere usato solo per correlazioni lineari; per correlazioni alineari mi devo affidare al coefficiente di
correlazione di Spearman.

33. Regressione e metodo dei minimi quadrati

La regressione è lo studio dell’andamento di una variabile continua Y (detta variabile dipendente) in


funzione di un’ altra variabile continua X (detta variabile indipendente), ipotizzando che il legame tra le due
variabili sia lineare.
La rappresentazione grafica di tale legame è una retta sul piano cartesiano:
Y =a+bX
Quando ho a che fare con un insieme di punti, posso costruire una retta in modo da adattarla alle
osservazioni fatte attraverso il metodo dei minimi quadrati. Vado considerare gli scarti dalla retta ( ovvero
la distanza tra il valore empirico y e il valore teorico f(x). Avrei la perfetta retta di regressione se gli scarti
dessero valori tutti pari a 0, per cui la retta che si adatta meglio è quella che mi dà il valore inferiore a
questa media.

34. Concetto di Probabilità

Supponiamo di effettuare m osservazioni, in condizioni sostanzialmente identiche; supponiamo che un


evento A si verifichi n volte; il rapporto n/m, al crescere di m, tende ad un valore costante: tale valore
costante definisce la probabilità di verificarsi dell'evento A.
P( A)=n/m
La Probabilità di un evento A è la frequenza relativa con cui l’evento si verifica in una lunga serie di
esperimenti ripetuti in condizioni virtualmente identiche. Per cui, la probabilità fornisce una misura
quantitativa delle possibilità che un evento si verifichi.

35. Cosa è un evento

Un evento è l’elemento di base al quale può essere associata la probabilità. Per cui, è la descrizione di una
situazione, il risultato di un esperimento o di una osservazione. Un evento si verifica o non si verifica e
pertanto può essere considerato una variabile dicotomica.

36. Diagrammi di Venn: unione, intersezione e complemento

I diagrammi di Venn ci aiuto dal punto di vista grafico a rappresentare l’unione, intersezione di due eventi e
il complemento di un evento. L’unione di due eventi si ha quando si verifica o solo l’evento A o solo B o
entrambi; l’intersezione è quando si verifica sia l’evento A che l’evento B. Il complemento di un evento e il
“non evento”, ciò il verificarsi della situazione opposta.

37. Differenza tra eventi mutuamente esclusivi ed eventi indipendenti

Du eventi sono mutuamente esclusivi quando il verificarsi dell’uno condizione il verificarsi dell’altro: un
evento e il complemento dello stesso non eventi mutuamente esclusivi. Due eventi indipendenti sono due
eventi in cui il verificasi dell’uno non condiziona il verificarsi dell’alto.

38. Principi della somma della probabilità

Il principio della somma delle probabilità si basa sul concetto che l’unione tra l’evento A e il suo
complementare è pari ad 1. Per cui, la probabilità che si possano verificare o uno o l’altro evento è massima
così se dovessi sommare le due probabilità otterrei sempre 1 come valore; per cui:
P ( A ) ∪ P ( A ) =P ( A )+ P ( A ) . Essendo A e il suo complemento degli eventi mutuamente esclusivi possono
generalizzare questa regola per eventi mutuamente esclusivi. Qualora i due eventi fossero non
mutuamente esclusivi devo sottrarre al valore ottenuto l’intersezione ovvero l’intervallo in cui si verificano
entrambi gli eventi: P ( A ) ∪ P(B)=P ( A ) + P ( B )=P( A ∩ B).

39. Principio del prodotto delle singole probabilità

Il principio del prodotto delle singole probabilità si basa sul fatto che il prodotto che due eventi
indipendenti si verificano è uguale alla loro intersezione; questo concetto è applicabile anche ad eventi
mutuamente esclusivi ma, la loro intersezione sarà pari a 0 così come il loro prodotto.

40. Probabilità condizionata


La probabilità condizionata è definita come la probabilità che è un evento si verifichi una volta che è

avvenuto un altro evento. Per cui per eventi condizionati vale che P ( BA )= P(P(A ∩B)B)
41. Inferenza statistica

L’inferenza statistica consente di utilizzare le informazioni di un campione per fare inferenze sulle
caratteristiche della popolazione da cui è stato estratto.

42. Sistema di ipotesi: Ipotesi nulla ed Ipotesi alternativa

L’ipotesi nulla è l’ipotesi con la quale considero nulla la differenza tra il valore che osservo e quello che mi
aspetto (per cui tra il valore effettivo di un parametro e quello stimato); viceversa l’ipotesi H A considera
differenti i due valori. In generale:
H 0 : xteo −X sp=0
H A : x teo−X sp ≠ 0

43. Testi d’ipotesi: procedimento

Formulare il sistema di ipotesi: H 0 : xteo −X sp=0 e H A : x teo−X sp ≠ 0


Individuare la statistica test appropriata: t di Student; Chi quadrato e via dicendo.
Studiare la distribuzione. Studiare la distribuzione della statistica test T(X) nell’universo campionario sotto
l’ipotesi nulla, per valutare la probabilità di ottenere il risultato osservato se l’ipotesi nulla fosse vera.
Stabilire il livello di significatività. Stabilire il livello di significatività, cioè decidere il limite di probabilità
sotto il quale il risultato ottenuto sia da considerare virtualmente impossibile e quindi devo rifiutare l’H0
Come livello di significatività nella maggior parte dei casi si sceglie 0.05 (5%). Se vogliamo essere più
conservativi, talvolta scegliamo il valore 0.01 (1%).
Valore p. Quindi, dopo aver calcolato il valore della statistica test T(X), si esamina la probabilità di ottenere
quel risultato (p). Il valore p è confrontato con il livello predeterminato di significatività a per decidere se
l’ipotesi nulla deve essere rifiutata:
Se p è minore o uguale ad a rifiutiamo l’ipotesi nulla
Se p è maggiore di a non la rifiutiamo
Per stabilire la significatività di un test si utilizza la seguente regola Se p > 5 % la differenza non è
significativa (accetto H0 ) Se 1 % < p < 5 % la differenza è significativa (rifiuto H0). Se p < 1 % la differenza è
altamente significativa (rifiuto H0). Per cui la regione di rifiuto è quella che sta al di sotto del 5%.

44. Gradi di libertà

I gradi di libertà di una variabile aleatoria o di una statistica in genere esprimono il numero minimo di dati


sufficienti a valutare la quantità d'informazione contenuta nella statistica. 

45. Tipologie di test

Esistono diverse tipologie di test di ipotesi; innanzitutto bisogna individuare se ho a che fare con campioni
indipendenti o campioni appaiati. Per campioni indipendenti si intende due campioni differenti, per
esempio maschi e femminine; mentre campioni appaiati sono la stessa popolazione in studio ma presentata
con una condizione differente, per esempio dopo l’effetto di un farmaco che è stato somministrato.
Esistono test parametrici e test non parametrici. Test parametrici si fanno per variabili quantitative e un
esempio è il test di t-student; mentre test non parametrici si fanno per variabili qualitative e un esempio è il
chi quadrato.
Esistono anche test ad una coda, dove il valore critico lascia sulla coda una probabilità pari a p ed esistono
test a due code, dove i valori critici lascia sulle due cose una probabilità pari a p/2.

46. T-student

Il test del t-student è un test parametrico , per cui è un test che può essere fatto per variabili quantitative
ed è un test che permette il confronto tra due medie. Posso fare questo test sia su campioni dipendenti

dove mi ricavo il valore dalla formula:


d×μ
dove d =
∑ ( x dopo−x prima) e Sd è la deviazione
Sd / √ n n
standard di d . Qualora dovessi considerare campioni indipendenti allora considero il sistema di ipotesi:
H 0 :m1−m2=0
H A :m 1−m 2 ≠ 0
m1 −m 2
cambia la formula: .
√¿ ¿¿ ¿

47. Chi quadrato

Il test del chi quadrato è un test non parametrico usato per variabili qualitative su campioni indipendenti.
Per calcolarmi il test del chi quadrato, una volta noti i valori attesi bisogna ricavare il risultato dalla formula
( O−E ) 2
che confronterò con il valore soglia che trovo nella tabella: . Per campioni di popolazione e più
E
1
( O−E )2−
precisamente quando ci sono poche modalità applico la correzione di Yates 2.
E

48. Significatività statistica

In statistica la significatività è la possibilità rilevante che compaia un determinato valore. Dagli studi dei


test statistici si nota come solitamente si pone a 0.05 la significatività di un evento, o talvolta a 0.01. In un
commento apparso questa settimana su Nature , a firma di tre statistici, Valentin Amrhein, Sander
Groenlandia, Blake McShane e sottoscritto da 800 firmatari, si richiede agli scienziati di abbandonare la
significatività statistica, accusandola di permettere conclusioni troppo perentorie, lasciando poco spazio
alle doverose sfumature.
Un’analisi sugli effetti non intenzionali dei farmaci antinfiammatori, ha mostrato risultati “statisticamente
non significativi,” portando i ricercatori a concludere che l’esposizione ai farmaci era per questo non
associata alla fibrillazione atriale. Questi risultati sono risultati però in contrasto con quelli di un studio
precedente , che evidenziava differenze statisticamente significative. In realtà – spiegano gli autori – i
ricercatori che descrivono i loro risultati “statisticamente non significativi” hanno rilevato un rapporto di
rischio di 1,2 (cioè un rischio maggiore del 20% nei pazienti esposti rispetto a quelli non esposti), con un
intervallo di confidenza del 95% che comprendeva sia una diminuzione del rischio insignificante del 3%, sia
un aumento considerevole del rischio del 48%. Anche i ricercatori che avevano eseguito lo studio
precedente avevano trovato lo stesso rapporto di rischio di 1,2. La differenza è che questo precedente
studio era semplicemente più preciso, con un intervallo che va dal 9% al 33% di rischio maggiore.
È “ridicolo” – concludono gli autori – concludere che i risultati “statisticamente non significativi” non
mostrino nessuna associazione, quando la stima dell’intervallo includeva aumenti seri di rischio. Ed è
ugualmente assurdo affermare – continuano – che questi risultati siano in contrasto con i risultati
precedenti che mostrano un identico effetto osservato. “Affidarsi ciecamente alle soglie di significatività
statistica può fuorviare le scelte cliniche”.

Potrebbero piacerti anche