Sei sulla pagina 1di 33

Corso di Laurea in Scienze Biologiche

Anno accademico 2021/2022


CI Igiene e Statistica

Modulo di Statistica

Prof.ssa Martina Barchitta

24 marzo 2022
Distribuzione di frequenza
Distribuzioni simmetriche

moda
mediana
media

(a) (b)

Distribuzione simmetrica: Distribuzione bimodale


media, moda e mediana simmetrica:
coincidono media e mediana coincidono
Due distribuzioni con medie, mediane e mode uguali
Riportando in un sistema di assi cartesiani i risultati di misurazioni di caratteri
biologici (es. numero di eritrociti/mm3, età al primo parto, durata della
gestazione ecc.) effettuati su una serie di individui diversi, si ottiene spesso
una curva particolare, simile a quella (a). Questo tipo di curva, che ha un solo
'picco' (classe di massima frequenza o moda: curva unimodale), viene detta
«gaussiana» o «normale»; essa è simmetrica, nel senso che si può
dividere in due parti, specularmente uguali, tracciando una linea verticale in
corrispondenza del valore di massima frequenza.

(a) distribuzione simmetrica: media, moda e mediana sono uguali


(b) distribuzione bimodale simmetrica; media e mediana sono uguali le mode
non sono uguali
Possibili distribuzioni asimmetriche dei
valori dei dati

moda
mediana
media

(c) (d)

Nelle distribuzioni deformate, media, moda e mediana non


coincidono e la media è l'indice che viene più distorto dai dati
estremi
Confronto tra indici di posizione
(di tendenza centrale)
e indici di dispersione (o di variabilità)

Le misure di tendenza centrale forniscono informazioni sulle


caratteristiche (variabili) dell’individuo medio, o tipico, cioè ci
dicono dove si concentrano le osservazioni

Le misure di dispersione mostrano invece quanto sono diversi


tra loro gli individui, ossia quanto ampiamente le osservazioni
sono disperse intorno al centro della distribuzione
Indicatori della variabilità
La variabilità è l’attitudine di un carattere a presentarsi con
modalità diverse (definizione di variabile)
Per caratteri qualitativi: più la distribuzione di frequenze delle
modalità tende ad uniformarsi, maggiore è la variabilità
(mutabilità, eterogeneità)

Max eterogeneità Min eterogeneità


Livello di Livello di
% %
istruzione istruzione
Basso 33,3 Basso
Medio 33,3 Medio 100
Alto 33,3 Alto
Indicatori della variabilità
Per caratteri quantitativi: maggiore è la dispersione
delle modalità attorno alla media, maggiore è la
variabilità

1 3 5 7 9 Maggiore variabilità

3 4 5 6 7 Minor variabilità
Indici di variabilità o dispersione
Gli indici di variabilità misurano la dispersione di una variabilità
statistica X

Gli indici di variabilità sono:


- costanti non negative
- assumono valore zero se tutti i valori di X sono uguali fra di loro
- aumentano al crescere della disomogeneità di tali valori

Considereremo i seguenti indici di variabilità:


❑ Il campo di variazione o intervallo di variazione o range
❑ La varianza
❑ La deviazione standard
Il campo di variazione o range

Il campo di variazione (o range) è definito come la differenza fra


il valore massimo e quello minimo delle modalità di X, cioè:
r (X) = max (X) – min (X)

oppure
specificando il valore del dato più basso (min (X)) e quello del
dato più alto (max (X))

Tale indice fornisce una prima informazione sulla variabile


statistica X, ma come la media è molto sensibile ai valori estremi
Il campo di variazione o range
Esempio:
Lunghezze dei frammenti di restrizione (kb) di una sequenza
di DNA:
2.15, 2.25, 2.30, 2.60, 2.68, 2.75, 2.82, 2.85, 3.00, 3.38,
3.50, 4.02, 4.05

Range:
4.05 – 2.15 = 1.90
oppure
2.15; 4.05
Il campo di variazione o range
Il range impiega soltanto le due informazioni estreme trascurando tutta
l’informazione che può essere ottenuta dalle rimanenti osservazioni

Esempio:
2.15, 2.25, 2.30, 2.60, 2.68, 2.75, 2.82, 2.85, 3.00, 3.38, 3.50, 4.02, 4.05

2.15, 3.02, 3.30, 3.60, 3.68, 3.75, 3.82, 3.85, 3.85, 3.88, 3.90, 4.02, 4.05

Range:
4.05 – 2.15 = 1.90
Campo di variazione interquartile
Il range interquartile è definito dall’intervallo compreso tra il 25° ed il
75° percentile di una distribuzione, e comprende pertanto il 50% delle
osservazioni centrali

Esempio:
2.15, 2.25, 2.30, 2.60, 2.68, 2.75, 2.82, 2.85, 3.00, 3.38, 3.50, 4.02, 4.05

25° P 50° P 75° P

Range interquartile:
3.38 – 2.60 = 0.78
Misure di variabilità

➢ Varianza: quoziente tra la somma dei quadrati degli


scarti di ciascun valore dalla media, diviso il numero
delle osservazioni (N)

scarto: differenza tra una misura e la media

la quantità al numeratore del quoziente che esprime la


varianza è definita devianza
Varianza
La varianza misura l’entità della variabilità o dispersione dalla media
ed è costituita dalla media aritmetica del quadrato degli scarti della
media cioè:

1 N
Var(X) =  xi − M ( X ) 
2

N i =1
M X − M X 
( ) 2

La varianza viene anche indicata con σ 2


La quantità ∑[xi – M ( X )]2 si indica come DEVIANZA
Varianza
1 N
Var(X) =  xi − M ( X )
2

N i =1
Il denominatore è N: numero di osservazioni

Dividendo la devianza per N-1 si ottiene una stima più


corretta della varianza della popolazione
Deviazione standard

La deviazione standard viene definita come la radice


quadrata della varianza

DS ( X ) =  = Var ( X )
Molto spesso la deviazione standard si denota con la
lettera greca σ
Esempio

Molto spesso, i dati biologici vengono riassunti attraverso il più comune


indice di tendenza centrale: la media. In questo caso, per descrivere
compiutamente la popolazione, è sempre necessario dichiarare anche, come
indice di variazione, il valore della deviazione standard

Supponiamo di misurare lo stesso carattere (ad esempio la lunghezza in cm)


in due campioni di pesci ornamentali contenuti in due diverse vasche, e di
ottenere i seguenti dati:

Campione A: 2, 3, 4, 5, 6, 7, 8, 9, 10

Campione B: 5, 6, 6, 6, 6, 6, 6, 6, 7

Calcolare la media: i due campioni sono simili fra loro?


Esempio

Media Campione A: 2+3+4+5+6+7+8+9+10 / 9 = 6

Media Campione B: 5+6+6+6+6+6+6+6+7 / 9 = 6

i due campioni sono molto simili fra loro

Calcolare la deviazione standard


Esempio
σ Campione A: √(2-6)2 + (3-6)2 + (4-6)2 + (5-6)2 + (6-6)2 + (7-6)2 + (8-6)2 + (9-
6)2 + (10-6)2 / 9 = 2.6

σ Campione B: √(5-6)2 + (6-6)2 + (6-6)2 + (6-6)2 + (6-6)2 + (6-6)2 + (6-6)2 + (6-6)2 +


(7-6)2 / 9 = 0.5

Campione A : 6 ± 2.6,
Campione B : 6 ± 0.5

il campione B è molto omogeneo, contrariamente al campione A


Coefficiente di variazione
La dispersione relativa delle distribuzioni può essere
confrontata anche facendo ricorso al coefficiente di
variazione:


CV = 100
M
Esprime in termini percentuali la deviazione standard
rispetto alla media

Il coefficiente di variazione è una quantità adimensionale


Esempio
X Presenze Frequenze
1 13 0.062
2 49 0.233
3 96 0.457
4 28 0.134
5 16 0.076
6 8 0.038
Totale 210 1.000

Per questa variabile statistica si ha:


M(X) = (1x13) + (2x49) + (3x96) + (4x28) + (5x16) + (6x8) / 210 = 3.03
Esempio
X Presenze Frequenze
1 13 0.062
2 49 0.233
3 96 0.457
4 28 0.134
5 16 0.076
6 8 0.038
Totale 210 1.000

Per questa variabile statistica si ha:


M(X) =3.03 σ (X) =1.12
1.12
Segue pertanto : CV = 100 = 37%
3.03
Sorgenti di variazione

La deviazione standard viene utilizzata per misurare


la dispersione

E’ importante allora individuare le varie sorgenti di


dispersione nelle osservazioni su popolazioni di dati
biologici
Sorgenti di variazione
Sono tre le principali sorgenti di variazione:

1. Esclusivamente biologica
(età, sesso, etnia, individuo, etc.)

2.Temporale
(clima, stato di attività, etc.)

3. Errori di misura
(strumenti di misura, condizioni di laboratorio,
stabilità di reagenti per l’analisi)
Sorgenti di variazione
Si pone il problema di separare l’errore derivante da cause
biologiche dagli errori di misura

La tecnica che si adotta in questi casi è quella di

replicare più volte l’esperimento


Variabilità biologica,
deviazione standard e normalità

Fonti di variazione sono presenti in ogni misurazione di


un carattere biologico

Tale variabilità non è tuttavia del tutto imprevedibile:


infatti, molti fenomeni naturali seguono un modello
teorico definito «curva di distribuzione normale» o
«gaussiana»
L’uso della deviazione standard come misura di dispersione si
evince dalle seguenti relazioni proprie di distribuzioni unimodali
ed approssimativamente simmetriche:

❑ l’intervallo M −  , M +  
comprende circa i 2/3 delle osservazioni

❑ l’intervallo M − 2 , M + 2 
comprende circa il 95% delle osservazioni


❑ l’intervallo M − 3 , M + 3 
comprende approssimativamente tutte le osservazioni
(99,7%)
In biologia una delle domande più frequenti che sorgono
immediatamente quando si viene a conoscenza di un valore di una
misura biologica eseguita su un individuo è:

« si tratta di un valore normale »?

ESEMPI: Sono stati ottenuti i seguenti valori. Possono essere


considerati "normali"?
- 120 pulsazioni cardiache/minuto
- 150.000 linfociti per mm cubo nel sangue
L’intervallo o range di normalità

In biostatistica il criterio di 'normalità' accettato è quello di


assumere come limiti il 2.5° ed il 97.5° percentile della
distribuzione dei dati di una popolazione 'sana'

Quindi

Normale = frequente e anormale = raro

Potrebbero piacerti anche