Sei sulla pagina 1di 40

Università degli Studi di Roma «Tor Vergata»

Facoltà di Medicina e Chirurgia


Laurea Magistrale in Scienze e Tecniche dello Sport

Insegnamento STATISTICA
Professore BRUNO RUSCELLO, PhD
Argomento Concetti statistici di base:
Misure di tendenza centrale e dispersione
Bruno RUSCELLO

Misure di tendenza centrale e dispersione


Alcune delle formule statistiche e matematiche più semplici sono i calcoli della tendenza centrale e della dispersione dei
dati raccolti che forniscono una serie di indici di sintesi in grado di rappresentare efficacemente una moltitudine di dati.

Gli indici più usati per esprimere la misura della tendenza centrale sono:
• La Media
• La Mediana
• La Moda

Ovviamente tali indici tendono a rappresentare un valore ipotetico intorno a cui si addensano i valori registrati, ma non
danno una idea della variabilità (dispersione) interna al gruppo di misure prese in considerazione.

Gli indici più usati per esprimere la misura della dispersione sono:
• La Varianza
• La Deviazione Standard

Misure di tendenza centrale e dispersione


2 di 39
Bruno RUSCELLO

Misure di tendenza centrale – limiti operativi


Un piccolo esempio…

Prendiamo le misure di altezza degli studenti di due classi di un liceo e calcoliamo la media (aritmetica semplice),
applicando la formula :
N CLASSE 1A (cm) CLASSE 1 B (cm)
1 174 160

2 174 160

3 175 165

4 175 165
175 170
Dove: 5
175 175
M = media 6

 = sommatoria 7 175 180

X = misura 8 175 185

N = numero delle misure 9 175 185

10 176 190

11 176 190

Misure di tendenza centrale e dispersione MEDIA 175 175


3 di 39
Bruno RUSCELLO

La Media aritmetica semplice


È un quindi un Indice di posizione che restituisce l’ordine di grandezza del fenomeno e nella maggior parte dei casi
tende a cadere centralmente all’interno dell’insieme ordinato di dati.

Siano x1, x2, …, xn i dati di una statistica.

Prende il nome di media semplice la media aritmetica:

Misure di tendenza centrale e dispersione


4 di 39
Bruno RUSCELLO

La Media aritmetica semplice… secondo Trilussa


Sai che d'è la statistica? È 'na cosa
che serve pe' fa' un conto in generale
de la gente che nasce, che sta male,
che more, che va in carcere e che spósa.

Ma pe' me la statistica curiosa


è dove c'entra la percentuale,
pe' via che, lì, la media è sempre eguale
puro co' la persona bisognosa.

Me spiego: da li conti che se fanno


seconno le statistiche d'adesso
risurta che te tocca un pollo all'anno:

e, se nun entra nelle spese tue,


t'entra ne la statistica lo stesso
perch'è c'è un antro che ne magna due.
Misure di tendenza centrale e dispersione
5 di 39
Bruno RUSCELLO

La Media aritmetica ponderata


La media aritmetica ponderata si applica alle distribuzioni di frequenza, quando alle diverse
intensità osservate sono associate le rispettive frequenze.

A ogni valore xi, si associa un peso fi in genere rappresentato dalla frequenza o


dall’importanza di quel valore nella distribuzione.

Prende il nome di media ponderata:

Misure di tendenza centrale e dispersione


6 di 39
Bruno RUSCELLO

La Media aritmetica ponderata


Per capire come si arriva alla media ponderata (ovvero “pesata” con le frequenze) partiamo da una serie di dati grezzi,
ad esempio le età di un gruppo di 10 studenti: 21 24 21 25 23 23 25 23 21 24

Per calcolare la media, applicando la formula della media aritmetica semplice, dovremmo procedere sommando le età e
dividendo il risultato per il numero di osservazioni, ovvero:

L’età media è di 23 anni.

Misure di tendenza centrale e dispersione


7 di 39
Bruno RUSCELLO

La Media aritmetica ponderata


Per semplificare l’operazione, potremmo raggruppare le età in ordine crescente, ottenendo la seguente
serie:

21, 21, 21, 23, 23, 23, 24, 24, 25, 25


e per calcolare la media considereremo le singole età moltiplicate per il numero di volte che compaiono, nel
seguente modo:

Misure di tendenza centrale e dispersione


8 di 39
Bruno RUSCELLO

La Media aritmetica ponderata


Di fatto, l’operazione di raggruppamento la utilizziamo per In termini formali la media aritmetica ponderata
costruire la distribuzione di frequenze dell’età: sarà data da:

Esempio: Età di un campione di studenti:

Al numeratore troviamo la sommatoria per i che va


da 1 a c delle intensità xi assunte dalla variabile per
le rispettive frequenze fi , al denominatore troviamo
la somma delle frequenze che è pari al
totale delle frequenze osservate n.

Misure di tendenza centrale e dispersione


9 di 39
Bruno RUSCELLO

La Media aritmetica ponderata


Un ulteriore modo per calcolare la media prevede di utilizzare le frequenze relative al posto delle frequenze semplici.
In questo caso la formula sarà:

e, nel nostro esempio, l’età media sarà data da:

Misure di tendenza centrale e dispersione


10 di 39
Bruno RUSCELLO

La Mediana

Misure di tendenza centrale e dispersione


11 di 39
Bruno RUSCELLO

La Mediana
N CLASSE 1A (cm) CLASSE 1 B (cm)
1 174 160

2 174 160

3 175 165

4 175 165

5 175 170

6 175 175
7 175 180
Il valore mediano è quindi 175 cm in
8 175 185
entrambe le classi.
9 175 185

10 176 190

11 176 190
N.B. Se N è dispari, la mediana corrisponde ad un numero reale, come
MEDIA 175 175
nel caso riportato. Se N è pari, la mediana rappresenta il valore medio
fra le due posizioni centrali.
Misure di tendenza centrale e dispersione
12 di 39
Bruno RUSCELLO

La Mediana
N.B. Se N è dispari, la mediana corrisponde ad un numero reale, come
N CLASSE 1 B (cm)
160
nel caso riportato precedentemente.
1

2 160
Se N è pari, la mediana rappresenta il valore medio fra le due
165
3 posizioni centrali.
4 165

5 170
6 175
7 180

8 185

9 185

10 190

Misure di tendenza centrale e dispersione


13 di 39
Bruno RUSCELLO

La moda o norma
La moda o norma di una distribuzione di frequenza è la modalità di massima
frequenza, ovvero è il valore che compare più frequentemente nella distribuzione e
viene indicato con v0.
La distribuzione si dice unimodale se ammette un solo valore modale, bimodale se
ne ammette due, trimodale se ne ha tre, etc.

Misure di tendenza centrale e dispersione


14 di 39
Bruno RUSCELLO

La moda o norma
N CLASSE 1A (cm)
1 174

2 174

3 175
4 175
5 175
6 175 Moda = 175
7 175 Distribuzione Unimodale
8 175
9 175
10 176

11 176

MEDIA 175
MEDIANA 175

Misure di tendenza centrale e dispersione


15 di 39
Bruno RUSCELLO

Esercitazione in Excel per Windows

Calcolare la media, la mediana e la moda con Excel per Windows

Misure di tendenza centrale e dispersione


16 di 39
Bruno RUSCELLO

Misure di Dispersione
Come abbiamo già notato precedentemente (diapositiva n. 3 - Misure di tendenza centrale – limiti operativi),
un indice efficace per stabilire somiglianze o differenze fra gruppi di misure deve poterci dare informazioni
anche su come i valori variano intorno ai valori centrali.

I valori infatti possono essere più o meno dispersi attorno alla media, e tale dispersione, come abbiamo visto,
è un aspetto che non possiamo ignorare quando andiamo ad interpretare i risultati.

Misure di tendenza centrale e dispersione


17 di 39
Bruno RUSCELLO

Misure di Dispersione

Gli indici di dispersione più utilizzati sono:

1. Devianza
2. Varianza
3. Scarto Quadratico Medio (o Deviazione Standard)
4. Coefficiente di Variazione

Misure di tendenza centrale e dispersione


18 di 39
Bruno RUSCELLO

La Devianza
È il primo indice di dispersione definito a partire dal concetto di scarto.
Viene considerato la base delle misure di dispersione per le variabili quantitative

Misure di tendenza centrale e dispersione


19 di 39
Bruno RUSCELLO

Proprietà della Devianza

Calcolare la devianza in base alla definizione può essere piuttosto gravoso

Si osservi che la differenza al secondo membro è sempre positiva

Misure di tendenza centrale e dispersione


20 di 39
Bruno RUSCELLO

Calcolo della Devianza


esempio 1

Misure di tendenza centrale e dispersione


21 di 39
Bruno RUSCELLO

Calcolo della Devianza


esempio 1

Misure di tendenza centrale e dispersione


22 di 39
Bruno RUSCELLO

Calcolo della Devianza


esempio 2

Misure di tendenza centrale e dispersione


23 di 39
Bruno RUSCELLO

La Varianza
La varianza permette di comparare la devianza osservata in diversi gruppi, normalizzandola al
numero delle osservazioni.

N.B. Esiste una Varianza nella Popolazione 2 (sigma quadro) ed una Varianza nel Campione o
Campionaria s2. Come si potrà notare cambia il denominatore (N o n-1)
Misure di tendenza centrale e dispersione
24 di 39
Bruno RUSCELLO

La Varianza - calcolo
N CLASSE 1 B (cm) Scarto (x - X) Scarto Quadratico (x -X)2
1 160 160-175 = -15 (160-175)2 = 225
2 160 160-175 = -15 (165-175)2 = 225
3 165 165-175 = -10 (165-175)2 = 100
4 165 165-175 = -10 (165-175)2 = 100
5 170 170-175 = -5 (170-175)2 = 25
6 175 175-175 = 0 (175-175)2 = 0
7 180 180-175 = 5 (180-175)2 = 25
8 185 185-175 = 10 (185-175)2 = 100
9 185 185-175 = 10 (185-175)2 = 100
10 190 190-175 = 15 (190-175)2 = 225
11 190 190-175 = 15 (190-175)2 = 225

Media 175  = 0  = 1350 Devianza

Misure di tendenza centrale e dispersione


25 di 39
Bruno RUSCELLO

La Varianza e la Media
La Varianza si ottiene elevando gli scarti dalla media al quadrato, per cui è incommensurabile con la Media,
che invece è una misura a potenza uno.

In altri termini se volessimo confrontarle sarebbe un po’ come cercare di confrontare l’area di un quadrato (in
questo caso la Varianza) con il lato di un altro quadrato (in questo caso la Media).

Per riportare le due misure alla stessa potenza, viene estratta la radice quadrata della Varianza, in modo da
ottenere la Deviazione Standard, o Scarto Quadratico Medio, che si indica con s nel campione e  nella
popolazione.

Si noti che la Deviazione Standard utilizza in questo modo la stessa unità di misura utilizzata per descriver la
media (Kg, m, min, ecc.)

Misure di tendenza centrale e dispersione


26 di 39
Bruno RUSCELLO

La Deviazione Standard
La Deviazione Standard è la misura principe della dispersione dei valori attorno alla media ed è un altro degli indici
statistici alla base delle tecniche di analisi più avanzate.

Come per la Varianza, si calcola una Deviazione Standard nella Popolazione ed una Deviazione Standard Campionaria.
Di solito viene riportata insieme alla media per descrivere un insieme di dati nella notazione seguente:

 ±  nella popolazione

M ± s nel campione

Misure di tendenza centrale e dispersione


27 di 39
Bruno RUSCELLO

La Deviazione Standard - Calcolo


N CLASSE 1 B (cm) Scarto (x - X) Scarto Quadratico (x -X)2
1 160 160-175 = -15 (160-175)2 = 225
2 160 160-175 = -15 (165-175)2 = 225
3 165 165-175 = -10 (165-175)2 = 100 La Deviazione Standard è la Radice Quadrata
4 165 165-175 = -10 (165-175)2 = 100 della Varianza
5 170 170-175 = -5 (170-175)2 = 25
6 175 175-175 = 0 (175-175)2 = 0
7 180 180-175 = 5 (180-175)2 = 25
8 185 185-175 = 10 (185-175)2 = 100
9 185 185-175 = 10 (185-175)2 = 100
10 190 190-175 = 15 (190-175)2 = 225
11 190 190-175 = 15 (190-175)2 = 225

Media 175  = 0  = 1350 Devianza

Misure di tendenza centrale e dispersione


28 di 39
Bruno RUSCELLO

La Deviazione Standard
La Media e la Deviazione Standard insieme costituiscono
una descrizione soddisfacente di un gruppo di misure, a
patto che la Deviazione Standard non diventi troppo
grande rispetto alla Media, che quindi perderebbe la
capacità di essere rappresentativa dell’intero gruppo di
dati raccolti.

Come si evince dalla figura di una distribuzione «normale»


o gaussiana, il 68% circa di un gruppo di risultati, ricade
nell’intervallo Media ± 1 Deviazione Standard, il 95% circa
nell’intervallo Media ± 2 Deviazione Standard ed il 99%
circa nell’intervallo Media ± 3 Deviazione Standard.

Distribuzione «Normale» di una popolazione


Misure di tendenza centrale e dispersione
29 di 39
Bruno RUSCELLO

Il Range delle Misure


Talvolta, l’intervallo delle misure (la più alta e la più bassa) può essere riportato perché particolarmente
rappresentativo, specie quando si utilizza la mediana anziché la media. La mediana e la media possono essere
usate insieme.

N CLASSE 1 B (cm)
1 160
2 160
3 165
4 165
5 170
6 175
7 180
8 185
9 185
10 190
11 190 RANGE = (Valore Massimo – Valore Minimo) = (190-160) = 30 cm.

Misure di tendenza centrale e dispersione


30 di 39
Bruno RUSCELLO

Intervalli di Confidenza
Gli intervalli di confidenza (IC) rappresentano una tecnica molto efficace utilizzata per interpretare i valori della media,
della mediana e delle correlazioni.

Vengono utilizzati anche per testare delle ipotesi (p.es. differenze o associazioni fra gruppi).

Un intervallo di confidenza fornisce il limite superiore ed il limite inferiore attesi in una statistica ad un determinato
livello di probabilità, solitamente 95% o 99%.

Nota bene: la dimensione o la lunghezza di un intervallo di confidenza è influenzata dalla


• dimensione del campione (sample size)
• dalla omogeneità dei valori all’interno del campione (varianza/deviazione standard)
• dal livello di confidenza selezionato dal ricercatore (95%, 99%, 99,9%, ecc.).

Misure di tendenza centrale e dispersione


31 di 39
Bruno RUSCELLO

Intervalli di Confidenza
Gli intervalli di confidenza (IC) sono basati sul fatto che ogni statistica possiede intrinseci errori di campionamento.

Questi errori sono legati a quanto la statistica sia rappresentativa del target della popolazione.

Quando calcoliamo la media per un campione ad esempio, facciamo una stima della media vera di un target di
popolazione.

Un intervallo di confidenza fornisce una gamma di valori anziché un singolo valore numerico, in cui è probabile che si
trovi il valore medio.

Misure di tendenza centrale e dispersione


32 di 39
Bruno RUSCELLO

Intervalli di Confidenza
Per calcolare un intervallo di confidenza di una statistica come la media dovremo prendere le seguenti informazioni:

CI = statistica presa in esame (media) ± (errore standard x valore dello specifico livello di confidenza)

Per esempio calcoliamo l’IC per la media di un campione con le seguenti caratteristiche:

Numerosità campionaria (n) = 30


Media (M) = 40
Deviazione Standard (ds) = 8

Misure di tendenza centrale e dispersione


33 di 39
Bruno RUSCELLO

Intervalli di Confidenza

Misure di tendenza centrale e dispersione


34 di 39
Bruno RUSCELLO

Intervalli di Confidenza
Un altro elemento necessario per il calcolo dell’I.C. è dato dal valore per il livello di confidenza
richiesto (95% o 99%).

Semplicemente troviamo questo valore da una tabella che descrive la CURVA STANDARD NORMALE
per il livello di confidenza richiesto, che tenga presente 2 o 3 deviazioni standard dalla media.

Nel nostro caso prenderemo un valore di 1,96 (95%, p<0,05) o di 2,576 (99%, p>0,01).

Misure di tendenza centrale e dispersione


35 di 39
Bruno RUSCELLO

Intervalli di Confidenza
Laddove, come molto frequentemente avviene negli studi condotti in ambito delle scienze motorie, il campione di studio è
piuttosto piccolo (n>30) è opportuno considerare una tabella che faccia riferimento alla dimensione del campione
(vedi tabella di distribuzione di t nella diapositiva seguente), non potendo essere certi della normalità della distribuzione
considerata.

In questo caso dovremo ricorrere al concetto di Gradi di Libertà (o Degree of Freedom o DF).
In generale definiamo il numero di gradi di libertà nell'ambito di un calcolo statistico come il numero di misure indipendenti
meno il numero di parametri calcolati da queste misure.

In pratica, nella statistica basata sullo studio di campioni, si procede allo studio del campione adottando DF= n – 1.

Misure di tendenza centrale e dispersione


36 di 39
Bruno RUSCELLO

Valori Critici di t
Intervalli di Confidenza
2 code 0.10 0.050 0.10 0.050 0.10 0.050 0.10 0.050 0.10 0.050
DF DF DF DF DF
1 6.3138 12.707 21 1.7207 2.0796 41 1.6829 2.0196 61 1.6702 1.9996 81 1.6639 1.9897
2 2.9200 4.3026 22 1.7172 2.0739 42 1.6820 2.0181 62 1.6698 1.9990 82 1.6636 1.9893
3 2.3534 3.1824 23 1.7139 2.0686 43 1.6811 2.0167 63 1.6694 1.9983 83 1.6634 1.9889
4 2.1319 2.7764 24 1.7109 2.0639 44 1.6802 2.0154 64 1.6690 1.9977 84 1.6632 1.9886
5 2.0150 2.5706 25 1.7081 2.0596 45 1.6794 2.0141 65 1.6686 1.9971 85 1.6630 1.9883
6 1.9432 2.4469 26 1.7056 2.0555 46 1.6787 2.0129 66 1.6683 1.9966 86 1.6628 1.9879
7 1.8946 2.3646 27 1.7033 2.0518 47 1.6779 2.0117 67 1.6679 1.9960 87 1.6626 1.9876
8 1.8595 2.3060 28 1.7011 2.0484 48 1.6772 2.0106 68 1.6676 1.9955 88 1.6623 1.9873
9 1.8331 2.2621 29 1.6991 2.0452 49 1.6766 2.0096 69 1.6673 1.9950 89 1.6622 1.9870
10 1.8124 2.2282 30 1.6973 2.0423 50 1.6759 2.0086 70 1.6669 1.9944 90 1.6620 1.9867
11 1.7959 2.2010 31 1.6955 2.0395 51 1.6753 2.0076 71 1.6666 1.9939 91 1.6618 1.9864
12 1.7823 2.1788 32 1.6939 2.0369 52 1.6747 2.0066 72 1.6663 1.9935 92 1.6616 1.9861
13 1.7709 2.1604 33 1.6924 2.0345 53 1.6741 2.0057 73 1.6660 1.9930 93 1.6614 1.9858
14 1.7613 2.1448 34 1.6909 2.0322 54 1.6736 2.0049 74 1.6657 1.9925 94 1.6612 1.9855
15 1.7530 2.1314 35 1.6896 2.0301 55 1.6730 2.0041 75 1.6654 1.9921 95 1.6610 1.9852
16 1.7459 2.1199 36 1.6883 2.0281 56 1.6725 2.0032 76 1.6652 1.9917 96 1.6609 1.9850
17 1.7396 2.1098 37 1.6871 2.0262 57 1.6720 2.0025 77 1.6649 1.9913 97 1.6607 1.9847
18 1.7341 2.1009 38 1.6859 2.0244 58 1.6715 2.0017 78 1.6646 1.9909 98 1.6606 1.9845
19 1.7291 2.0930 39 1.6849 2.0227 59 1.6711 2.0010 79 1.6644 1.9904 99 1.6604 1.9842
20 1.7247 2.0860 40 1.6839 2.0211 60 1.6706 2.0003 80 1.6641 1.9901 100 1.6602 1.9840
Misure di tendenza centrale e dispersione
37 di 39
Bruno RUSCELLO

Intervalli di Confidenza
Applicando la formula descritta otterremo quindi:

IC 95% (per la media) = 40 ± (1,46 x 2,045) = 40 ± 2,99 I.C. = [37,01 – 42,99]


media errore valore tabellare
campionaria standard DF 29 con P= 0,05

Quindi possiamo dire che relativamente alla media M calcolata nel campione, la vera media nella popolazione di
riferimento () sarà compresa nell’intervallo 37,01 (limite inferiore) e 42,99 (limite superiore), con una probabilità del
95% (p≤ 0,05).

Misure di tendenza centrale e dispersione


38 di 39
Bruno RUSCELLO

Intervalli di Confidenza
Applicando la stessa formula descritta per ottenere un I.C. della media al 99% , dovremmo sostituire il valore tabellare
2,045 (95%), con quanto riportato in tabella per 29 DF con p=0,05, vale a dire 2,756

IC 95% (per la media) = 40 ± (1,46 x 2,756) = 40 ± 4,02 I.C. = [35,98 – 44,02]


media errore valore tabellare
campionaria standard DF 29 con P= 0,05

Quindi possiamo dire che relativamente alla media M calcolata nel campione, la vera media nella popolazione di
riferimento () sarà compresa nell’intervallo 35,98 (limite inferiore) e 44,02 (limite superiore), con una probabilità del
99% (p≤ 0,01).

Misure di tendenza centrale e dispersione


39 di 39
Bruno RUSCELLO

Fine Lezione 2

Misure di tendenza centrale e dispersione


40 di 39