Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Riassume e visualizza i risultati ottenuti in un esperimento o raccolti sul campo, con lo scopo
di
acquisire una certa familiarità con i dati prima di passare alle analisi statistiche inferenziali
evidenziare nei dati tendenze inattese a priori che possono suggerire analisi non previste
inizialmente o anche nuovi esperimenti o campionamenti
identificare rapidamente eventuali errori nella trascrizione dei valori o nel loro inserimento al
calcolatore
identificare preliminarmente alcune caratteristiche dei dati che potrebbero precludere il successivo
utilizzo di alcune tecniche statistiche
comunicare ad altre persone brevemente, con logica ed ordine, le principali caratteristiche dei dati
raccolti
I valori che assume possono essere numerici oppure di semplice appartenenza ad una certa
categoria
2
Nucleotide diversity (%)
1.5
0.5
0
12 14 16 18 20 22 24
Level of hunting
Dati, frequenze e distribuzioni
22 nidi di merlo al momento dell’involo e di avere contato in ciascuno di essi il numero di piccoli
sopravvissuti
o unità campionaria = nido o la femmina
o variabile è quantitativa discreta.
dove xi, indica il valore assunto dalla variabile X nella i-esima osservazione, con l'indice i che
varia da 1 a n (n = 22 = dimensione del campione).
∑ n = ∑n = ∑n = ∑n
i =1
i
i=1
i
i
i i =n
distribuzione di frequenza: ossia alla distribuzione dei dati nelle diverse classi
o distribuzione di probabilità
o distribuzione di probabilità teorica
o numero di animali che hanno contratto una certa parassitosi in 100 nidi di vespa
frequenza percentuale
ni
fi = pi =
n
fi (%) = fi × 100
Definizione classi
o Regolette: radice di n; (1 + ln(n)/ln(2))
o Evitare la presenza di molte classi circa vuote
o Limiti di classe (>= e <)
o Buon senso
Distribuzioni di frequenza per le variabili di tipo qualitativo?
E’ facile intuire che esiste una associazione tra le due variabili: le femmine di dimensioni
maggiori depongono generalmente uova più grandi (a destra), e i maschi più brillanti generano
figli più attraenti per le femmine.
Associazione positiva, negativa e nulla
Inserisco una terza variabile
In 30 località europee viene rilevato il livello di precipitazioni annue (mm di pioggia) e il ph medio
delle piogge. Con il semplice utilizzo di simboli diversi (quadratini per le le località del Sud-Europa,
asterischi per quelle del Nord-Europa), è possibile visualizzare in una nube di punti tre variabili
(precipitazioni, ph e posizione geografica).
Diagramma a linee
.
- Chiarezza
- Completezza
- Onestà
Indici sintetici di una distribuzione
o misure di dispersione
sintetizzano il grado di variabilità dei dati
Se la dispersione è molto elevata, le singole osservazioni possono essere anche molto diverse,
e quindi singolarmente di scarso valore.
Si può dire quindi che all’aumentare della dispersione il numero di osservazioni necessarie per
trarre delle conclusioni generali a partire da un campione deve aumentare.
Quando la variabilità è molto bassa può anche non essere necessario effettuare molte
osservazioni, e forse nemmeno ricorrere alla statistica inferenziale.
Misure di tendenza centrale
La media
∑x1
i
x=
n
µ=
∑x i
La somma delle differenze dei singolo valori dalla media (detti scarti dalla media) è uguale a 0 e
quindi la media si può considerare il baricentro del campione dove si bilanciano gli scarti.
∑ (x i − x ) = ∑ xi − ∑ x = nx − nx = 0
Media a partire da una tabella di frequenza :
c
∑xn i i c
x= 1
oppure x = ∑ xi fi
n 1
Esempio
Aplotipo xi ni
A 51 5
B 54 11
C 55 15
D 57 29
E 62 22
F 63 4
∑xn i i
51 × 5 + 54 × 11 + 55 × 15 + 57 × 29 + 62 × 22 + 63 × 4 5738
1
x= = = = 57,44
n 86 86
E se la variabile continua?
Proprietà della media
⇒ risente molto dei valori estremi; se un singolo valore nel campione è per esempio molto più
grande di tutti gli altri, la media non identifica un valore tipico del campione
Dati: 3, 2, 3, 4, 6, 2, 44, 8, 5, 3, 4, 2.
La media di questi valori risulta essere 7,16, ma come è facile rendersi conto, questo valore
non identifica certamente un valore tipico del campione. Questio a causa di un valore estremo,
detto outlier.
Esempio: Nove cavie sono sottoposte ad un test cognitivo all’interno di un labirinto, e per ogni
animale si misura il tempo impiegato a percorrere un certo tracciato. I risultati ottenuti, in minuti,
sono i seguenti:
In questo caso due valori sono “fuori scala”, e la media calcolata escludendo questi valori
mancanti non rappresenterebbe correttamente l’esperimento.
La mediana
La mediana è quindi il valore che divide un campione di dati ordinati in due parti ugualmente
numerose. In altre parole, metà dei valori nel campione sono più piccoli della mediana, e metà
sono più grandi. E’ evidente quindi che la mediana è una misura della tendenza centrale.
Il calcolo della mediana non implica l’elaborazione dei dati numerici osservati
o L’informazione sul peso relativo dei singoli valori viene perduta.
Esempi precedenti
In entrambi i casi la mediana e facilmente calcolabile e indica bene (meglio della media) dove si
concentrano le osservazioni.
La mediana, però, soffre dello stesso inconveniente della media, ovvero può portare ad un
valore assolutamente non rappresentativo quando la distribuzione non è unimodale.
La moda
Dati: 0, 1, 5, 2, 2, 2, 3, 3, 3, 2, 4, 4, 1,2
xi ni
0 1
1 2
2 5
3 3
4 2
5 1
La stretta interpretazione della moda dovrebbe anche avere come conseguenza il fatto che
praticamente tutte le distribuzioni osservate sono unimodali
Proprietà della moda
La moda è una statistica molto semplice e intuitiva per riassumere una distribuzione di
frequenza attraverso il suo “picco” più elevato. Anche se, come la mediana, non considera il
peso delle singole osservazioni, ha alcune proprietà importanti:
• è possibile identificare la moda in qualsiasi tipo di variabile, quindi anche nelle variabili qualitative
non ordinabili
• indica sempre un valore realmente osservato nel campione
• non è influenzata dai valori estremi
• nel caso di distribuzioni di frequenza molto asimmetriche, la moda è forse il miglior indice per
descrivere la tendenza centrale di un campione
• è collegata direttamente al concetto di probabilità (che vedremo meglio nei prossimi capitoli): la
moda di una popolazione è il valore della variabile con la la maggior probabilità di essere
osservata
Questa distribuzione presenta una forte asimmetria a destra. La mediana ha valore 3 e la media
5.24, mentre la moda è uguale a 2.
Misure di dispersione
Basate sulle differenze tra le singole osservazioni e la media (scarti dalla media)
o Varianza
o Deviazione standard
o Coefficiente di variazione
o Tutti i valori concorrono al calcolo di queste tre misure di dispersione (inclusi gli outliers)
o L’utilizzo di questi indici non è adatto allo studio della dispersione di variabili qualitative,
Varianza campionaria:
2
2 ∑ (xi− x)
s = ,
n −1
La somma degli scarti quadratici al numeratore, chiamata devianza, può essere calcolata
anche con le formule semplificate:
Dev(X ) = ∑ x
2
−
(∑ x) i
2
i
n
Infatti:
2 2
( )2
= ∑ (xi2 + x 2 − 2xx i ) = ∑ x i2 + n
(
∑ xi ) −2 ∑x (
∑ xi )
∑ i
x − x
n2 n
i
∑ x i = ∑ xi2 − n
o Anche se fossero disponibili i dati riferiti a tutte le N unità campionarie della popolazione,
allora
σ2 =
∑ (x i− µ)
N
Ma:
o La varianza campionaria s2, calcolata utilizzando n al denominatore è una stima distorta
(una sottostima in questo caso) della varianza della popolazione σ2
La media di un campione è imprecisa (non è uguale a µ)
I valori tendono ad essere più vicini alla media campionaria di quanto non siano a µ
Più il campione è piccolo, meno riesce a cogliere tutta la variabilità dei dati nella
popolazione
Tale distorsione (bias) si può correggere utilizzando il fattore n-1 a denominatore.
Nel caso di dati raggruppati in c classi di frequenza
c
2
∑ ni (xi − x )
s2 = 1
,
n −1
Se poi i dati sono raccolti in classi corrispondenti ad un intervallo tra due valori, una stima di s2
si può ottenere utilizzando la stessa espressione sostituendo xi con i valori centrali degli
intervalli.
La deviazione standard
La deviazione standard, s, indicata anche con l’abbreviativo D.S. o DS, è data da:
2
s = DS = s
Coefficiente di variazione
E’ una sorta di deviazione standard rielaborata per evitare i cosiddetti “effetti di scala”.
Esempio:
Deviazione standard nella lunghezza del corpo dei maschi di Gambusia holbrooki (un piccolo
pesce d’acqua dolce) é uguale a 3.2 mm
Deviazione standard nella lunghezza dei maschi territoriali di Zosterisessor ophiocephalus (il
gò, un ghiozzo di laguna) sia pari 10.6 mm.
I maschi di Gambusia sono meno variabili dei maschi di gò, ossia i maschi di Gambusia si
assomigliano tra loro (per la lunghezza) più di quanto facciano quelli di gò?
Forse la maggiore dispersione indicata dalla deviazione standard è solo un effetto della diversa
dimensione media di queste due specie
o Per esempio, la differenza nella lunghezza del femore tra due persone è senza dubbio di
molte volte maggiore della differenza nella lunghezza della zampa di due maggiolini.
Quando cioè si vuole confrontare la dispersione tra variabili con medie molto diverse, si ricorre
al CV
s
CV = × 100
x
Il coefficiente di variazione è dimensionale
o Esempio: Siamo interessati a sapere se nel ghiro è più variabile la lunghezza della coda
oppure la durata del letargo (variabili con unità di misura diverse)
Nell’esempio dei pesci, assumendo una lunghezza media di 29 mm per i maschi di gambusia e
di 181 mm per i maschi di gò:
CV(Gambusia) = 11%
CV(gò) = 6 %,
Un risultato di questo tipo suggerisce una conclusione molto diversa da quella basata sulla
deviazione standard: la variabilità nelle dimensioni corporee è quasi doppia nei maschi di Gambusia
rispetto a quelli di gò.
Il range
o Imparentati con la mediana, solo che invece di separare l’insieme dei dati ordinati in due
gruppi lo separano il quattro
o Ogni gruppo contiene il 25% delle osservazioni: il primo quartile, Q1, è il valore che
separa il primo 25% delle osservazioni ordinate dal restante 75%, il secondo è la mediana,
e il terzo quartile, Q3, è il valore che separa il primo 75% delle osservazioni dal restante
25%.
La distanza interquartile è data dalla differenza Q3-Q1, e identifica quindi l’intervallo centrale
della distribuzione di frequenza all’interno del quale cade il 50% delle osservazioni.
E’ una misura della dispersione dei dati che non risente di eventuali valori estremi molto diversi
dalla gran parte degli altri, e può essere calcolata anche quando i valori estremi sono “fuori
scala”.
L’identificazione dei quartili non è banale quando il numero di osservazioni non è elevato
o Cerco la mediana delle due metà dei dati
Risultati per dati prima autoamputazione: Mediana: 2.90; primo quartile: 2.34; terzo
quartile: 3.045; distanza interquartile: 0.705
Diagramma Box-and-Whiskers (scatola e baffi)
o Mediana, primo e terzo quartile, range (+ a volte valori estremi, cioè valori a una
distanza dalla scatola superiore a 1.5 volte la distanza interquartile)
ESEMPI
La corretta e fedele rappresentazione della distribuzione dei dati è ottenuta quando l’altezza di
ogni rettangolo corrisponde non alla frequenza ma alla densità media dei valori all’interno della
classe corrispondente. E’ invece l’area dei rettangoli a contenere l’informazione relativa alla
frequenza.
Questa distinzione è teoricamente importante, anche se non sempre rilevante da un punto di
vista pratico.
Qual’è la tabella più appropriata per rappresentare i dati?
Che varaibile è rappresentata nei due istogrammi? Che variabile distingue i due istogrammi?
Che grafico è rappresentato? Cosa suggeriscono i grafici?
Che tipo di grafico? Che tipo di associazione?
Numero di ondulazioni per secondo in serpenti che planano