Sei sulla pagina 1di 12

Statistica Medica

La Statistica pu essere definita, almeno provvisoriamente, come quellinsieme di metodi utilizzati per
lanalisi dei cosiddetti fenomeni collettivi, quei fenomeni, cio, che si manifestano in modo variabile sui
diversi componenti di un gruppo. Pi in generale la statistica si occupa del trattamento di insiemi di dati
che possono derivare, oltre che da indagini su gruppi di individui, anche dallosservazione di un fenomeno
su uno stesso individuo in occasioni o in tempi diversi.

Allinterno della scienza statistica si possono individuare due argomenti principali che raggruppano
specifiche metodologie, ovvero:

a. la statistica descrittiva, nella quale gli strumenti analitici hanno il compito di organizzare,
elaborare e presentare i dati;
b. la statistica inferenziale, nella quale le metodologie servono a trarre conclusioni pertinenti
riguardanti la popolazione a partire dai risultati forniti da un campione rappresentativo di essa.

Occupiamoci ora della definizione dei termini statistico di uso pi comune con lo scopo di precisare il
senso in cui vengono utilizzati in questo contesto.

Con il termine collettivit statistica si indica un gruppo di soggetti qualsiasi i cui componenti siano
esattamente individuabili. Una collettivit statistica, quindi, ben definita quando disponibile un
elenco delle unit che la compongono, oppure quando sono chiaramente specificate le caratteristiche
che i soggetti devono posseder per far parte della collettivit stessa. Cosi, per esempio, una collettivit
di neonati pu essere definita indicando il luogo e la data di nascita, specificando se si intende
considerare i soli figli legittimi o anche quelli naturali, i soli nati vivi o anche i nati morti e cosi via.

Le collettivit vengono indicate indifferentemente anche i termini, equivalenti in statistica, collettivo,


universo, popolazione, cosicch si pu parlare, per esempio, di collettivo di piante, di popolazioni, di
animali o di universi di oggetti qualsiasi.

Si definisce universo o popolazione (indicati con il simbolo U) la massa di possibili individui od


osservazioni, mentre il campione formato dalle osservazioni effettivamente utilizzate, purch tratte
dalla massa secondo criteri opportuni.

Le indagini parziali che considerano solo un numero limitato degli individui che compongono lintera
popolazione sono dette indagini campionarie e gli individui effettivamente esaminati costituiscono un
campione della popolazione oggetto di studio.

Ogni singolo soggetto in esame, componente di una collettivit, anche detto unit statistiche o unit
di rilevazione e costituiscono gli individui su cui viene rilevata la caratteristica oggetto di studio. Si
osservi che la singola unit statistica pu essere anche costituita da un gruppo di pi soggetti se lo
scopo dellindagine lo studio di una qualche caratteristica complessiva del gruppo stesso.
Se, per esempio, loggetto dellindagine il reddito delle famiglie italiane, lunit statistica la famiglia;
se il numero di dipendenti di un certo gruppo di aziende, lunit di rilevazione lazienda; se la
numerosit dei bramchi di una certa specie, lunit statistica il branco e cosi via.

Ogni singolo soggetto in esame prende il nome di unit statistica, il rilievo che si esegue da luogo
allosservazione e linsieme delle osservazioni costituisce il dato statistico.

Il carattere, o la variabile, quella particolare caratteristica (et, stato civile, fatturato, resa
produttiva e cosi via) dei componenti della collettivit che costituisce loggetto dellindagine statistica.
Le diverse manifestazioni che la variabile assume sui singoli individui sono dette invece modalit o
attributi o pi genericamente determinazioni, cosicch, per esempio, le modalit o modi di essere che la
variabile stato civile pu assumere su un gruppo di persone di sesso maschile sono celibe, coniugato,
separato, divorziato, vedovo.

Nellanalisi statistica di un qualsiasi fenomeno su una collettivit tutto quello che interessa conoscere
il numero di individui che manifestano una particolare modalit del carattere oggetto di studio per
ciascuna delle modalit possibili, mentre in genere irrilevante sapere su quale individuo stata
rilevata una determinata modalit. Tutto quello che interessa, in altri termini, la classificazione dei
componenti della collettivit sulla base delle diverse modalit della variabile.

Per esempio, tutte le informazioni statisticamente rilevanti sul carattere tipo di edizione per la
popolazione delle opere pubblicate in Italia nellanno 2005 sono quelle contenute nella successiva
tabella, dalla quale risulta che sul totale di 59.743 opere pubblicate durante lanno, 37.694 sono quelle
pubblicate in prima edizione, 3.453 in unedizione successiva e 18.596 sono le ristampe.

Opere pubblicate per tipo di edizioni nellanno 2005

TIPO EDIZIONE NUMERO DI OPERE


Prime edizioni 37.694
Edizioni successive 3.453
Ristampe 18.596
Totale 59.743

Le informazioni su un fenomeno in una collettivit vengono abitualmente organizzate in tabelle di questo


tipo in cui sono elencate le diverse modalit del carattere esaminato e le frequenze con cui ogni
modalit si presenta nella popolazione.

Le informazioni in queste tabelle costituiscono la cosiddetta distribuzione di frequenza della variabile


esaminata. Per quanto abbiamo detto in precedenza evidente che conoscere la distribuzione di
frequenza di un carattere in una certa collettivit equivale a definirlo completamente da un punto di
vista statistico.

Lindagine pu avere per oggetto lo studio di un solo carattere oppure, per i motivo che saranno chiariti
in seguito, di pi caratteri diversi rilevati su ciascun individuo della popolazione. In questo secondo caso
la descrizione dei fenomeni considerati congiuntamente si ottiene associando ad ogni combinazione
delle modalit dei diversi caratteri la frequenza con cui quella combinazione si presenta sugli individui
della collettivit. Nel primo caso si parla di variabili statistiche semplici e di relative distribuzioni
univariate e nel secondo caso di variabili statistiche multiple e di distribuzioni multivariate.

VARIABILI STATISTICHE

Prima di esaminare in dettaglio i principali strumenti analitici opportuno approfondire la conoscenza


delloggetto sul quale vengono utilizzate queste metodologie: il dato statistico.

Quando si copie una rilevazione di dati, che in seguito saranno elaborati mediante tecniche descrittive,
in realt si rilevano i valori o le modalit con quali si presentano determinate variabili. Sesso, et,
altezza, colore degli occhi, ed altre ancora non sono che variabili le cui determinazioni possono essere
oggetto di una rilevazione statistica.
Ognuna di queste presenta particolari caratteristiche che permettono di classificarla in una ben
precisa categoria. Saper riconoscere e classificare le informazioni raccolte molto importante, poich
la scelta del metodo di analisi appropriato dipende direttamente dal tipo di variabile sulla quale la
metodologia deve essere utilizzata.

In funzione delle proprie caratteristiche, le variabili possono essere suddivise in:

1. Variabili qualitative;
2. Variabili quantitative.

Variabili qualitative

Le variabili qualitative sono le caratteristiche che possono essere espresse mediante attributi (per
esempio: colore dei capelli, stato civile, sesso, ecc); le variabili quantitative sono quelle variabili le cui
modalit, che in questo caso sono dette pi propriamente intensit, derivano da operazioni di
misurazione o di conteggio e sono, quindi, espresse mediante valori numerici (et, altezza, peso, ecc).

Allinterno di queste due categorie possibile individuare altri sottogruppi entro cui classificare i tipi
di grandezze.

Le variabili qualitative possono essere di tipo:

a. Nominale (o sconnesso);
b. Ordinale (o ordinato o ordinabile o sconnesse).

Nelle variabili qualitative nominali, lattributo che indica la caratteristica ha il solo scopo di
rappresentare la modalit con la quale si presenta il dato. Per la variabile colore degli occhi alcuni tra
i possibili attributi, per esempio, potrebbero essere celeste, marrone, nero.

In questa classe si indicano con il termine variabili dicotomiche quelle grandezze che ammettono solo
due risposte possibili (per esempio: sesso maschio/femmina), mentre sono dette variabili
policotomiche quelle con pi risposte ammissibili (per esempio: stato civile celibe/coniugato/separato,
ecc).

Nelle variabili qualitative ordinali, lattributo ha ancora lo scopo di rappresentare la modalit con la
quale si presenta il dato, ma queste modalit sono organizzate in una scala di valori logici.
Per esempio, la scolarit una variabile che appartiene a questa classe poich le due determinazioni
sono degli attributi, ma il loro ordine esprime una scala di importanza del titolo di studio posseduto
(elementare, media, superiore, laurea). Oppure elencare le modalit in modo ordinato, come per esempio
la tabella seguente che riporta la distribuzione degli occupati in Italia nel 2001 a seconda del grado di
istruzione.

Distribuzione degli occupati in Italia per grado di istruzione


(fonte ISTAT, 14 Censimento generale della popolazione e delle abitazioni)

GRADO DI ISTRUZIONE NUMERO DI INDIVIDUI


Laurea 2.407.992
Diploma universitario o terziario di tipo universitario 397.401
Diploma di scuola secondaria superiore 8.284.656
Licenza di scuola media inferiore o di avviamento professionale 7.406.981
Licenza di scuola elementare 2.259.960
Nessun titolo di studio 236.742
Altri esempi di caratteri ordinabili sono il ceto sociale, lanno del corso di studi, la qualifica funzionale
degli impiegati, il parametro di stipendio, il grado nella gerarchia militare, la dimensione delle imprese
(piccola, media, grande), il livello di disaggregazione territoriale (comune, provincia, regione, nazione).

Se un carattere sconnesso, come nel caso della tabella sotto, lordinamento delle sue modalit non pu
che essere arbitrario.

ATTIVIT ECONOMICA NUMERO DI INDOVIDUI


Agricoltura 1.153.678
Industria 7.028.981
Commercio 3.986.538
Trasporti e comunicazioni 979.029
Credito e assicurazioni, servizi alle imprese, noleggio 2.052.681
Altre attivit 5.792.825
Totale 20.993.732

Un altro esempio potrebbe essere la sensazione di dolore avvertita durante lesecuzione di un esame,
variabile che potrebbe essere catalogata come ordinale mediante le seguenti codifiche: occasionale,
moderato, medio, intenso.

Variabili quantitative

Le variabili quantitative, invece, sono quelle variabili le cui modalit, che in questo caso sono dette pi
propriamente intensit, derivano da operazioni di misurazione o di conteggio e sono, quindi, espresse
mediante valori numerici. Possono essere suddivise in:

a. discrete;
b. continue.

Alla base della differenza vi il tipo di numero che viene utilizzato per rappresentare la
determinazione della variabile.

Nelle variabili quantitative discrete, si tratta di numeri non necessariamente interi, collocabili in una
scala di tipo ordinale, ma capaci di assumere solo certi valori puntuali. Pi in generale, sono dette
discrete quelle variabili che, in un intervallo limitato, possono assumere solo un numero finito di valori
diversi. Alcuni esempi molto semplici sono: il numero dei membri delle famiglie, la frequenza cardiaca, il
numero di gravidanze ed altre ancora.

Le variabili quantitative continue, invece, sono quelle che possono assumere tutti gli infiniti valori
allinterno o meno di un determinato intervallo. Appartengono a questa classe grandezze quali laltezza
(per esempio: 174,5 cm, 148,32 cm, ecc), il peso (per esempio: 58,7 kg, 63,25 kg, ecc) e qualsiasi altro
dato misurabile e rappresentabile attraverso un numero reale, ovvero le classiche informazioni
ricavabili da una misurazione.

Esistono caratteri le cui modalit, pur essendo espresse di solito mediante valori numerici, non sono in
realt di tipo quantitativo. Lanno di nascita, lanno del corso di studi, la categoria degli esercizi
alberghieri, la classe di stipendio, per esempio, sono variabili qualitative, dato che non derivano da una
misurazione o da un conteggio.
Nei casi dubbi si pu tenere presente che per i caratteri quantitativi deve avere senso, per esempio,
calcolarne la media ed evidente che la media degli anni di nascita di un gruppo di individui, cosi come
quella delle altre variabili appena elencate, del tutto priva di significato.

DISTRIBUZIONI DI FREQUENZA

Come si visto in precedenza, lorganizzazione dei dati rilevati su una collettivit si ottiene mediante
unoperazione di classificazione, che consiste nel suddividere gli individui esaminati in gruppi omogenei i
cui componenti presentano tutti una stessa determinazione del carattere. Il risultato di questa
sistemazione delle informazioni d luogo ad una tabella statistica, in cui la prima colonna, a seconda
della natura della variabile rilevata, contiene le modalit o le intensit osservate e la seconda le
frequenze corrispondenti, cio il numero degli individui che presentano quella particolare modalit o
intensit.

Questa organizzazione dei dati del tutto ovvia quando le variabili esaminate sono di tipo qualitativo o
quantitativo discreto. In questo caso la rilevazione stessa pu essere effettuata in forma tabellare
mediante un prospetto in cui sono elencate le possibili modalit o intensit del carattere, a fianco delle
quali viene posta unindicazione ogni volta che su un individuo si rileva quella particolare modalit.

Se la variabile invece di tipo continuo ed il carattere viene misurato con un elevato livello di
precisione, le intensit rilevate sugli individui della collettivit possono risultare anche tutte diverse
fra di loro, cosicch, in questi casi, non possibile utilizzare una tabella con valori predeterminati e la
rilevazione viene di solito effettuata annota do le intensit mano a mano che vengono misurate sui
diversi individui.

Nella tabella seguente, per esempio, sono elencati secondo lordine di rilevazione i valori della
superficie coltivabile misurata in ettari su un gruppo di 25 aziende agricole.

16,8 0,8 1,2 17,3 2,4 3,0 24,3 20,2 25,0 4,2
5,1 6,1 31,2 27,8 7,5 33,3 8,9 38,5 10,1 45,9
60,4 81,9 14,7 12,4 10,8

Una prima sistemazione delle informazioni consiste, in generale, nellordinare i valori rilevati in modo
non decrescente. Questa operazione non comporta alcuna perdita di informazione, dato che in
statistica, come si detto, non interessa sapere quali individui presentano una determinata intensit n
lordine della rilevazione. Questa operazione rende meno confuso linsieme dei dati e consente, tra
laltro, di evidenziare la pi piccola e la pi grande fra le intensit rilevate, che costituiscono gli estremi
del cosiddetto campo di variazione, cio dellintervallo entro cui sono comprese tutte le intensit della
variabile nella collettivit esaminata.

La serie dei valori ordinati, soprattutto per collettivit numerose, pu risultare per troppo dispersa
cosicch, per evidenziare le caratteristiche pi rilevanti della struttura distributiva del fenomeno nel
suo complesso, pi essere utile sintetizzare in qualche modo i dati originali, dividendo il campo di
variazione della variabile in intervalli o classi di valori ed associando ad ogni classe il numero di unit
statistiche che presentano unintensit compresa fra i suoi estremi.

Una possibile presentazione sintetica dei dati precedenti riportata nella tabella seguente, da cui
risulta che 5 aziende hanno una superficie coltivabile fino a 5 ettari, 4 aziende hanno una superficie
compresa fra 5 e 10 ettari e cos via. evidente che questa distribuzione non contiene pi tutte le
informazioni originarie, dato che dalla tabella non risulta, per esempio, quale sia lesatta superficie
coltivabile delle 5 aziende pi piccole, ma solo ognuna di queste ha una superficie non superiore a 5
ettari.

SUPERFICIE FREQUENZA
05 5
5 - 10 4
10 - 20 6
20 - 50 8
50 - 100 2
Totale 25

utile a questo punto introdurre unopportuna simbologia che consenta di trattare gli argomenti
successivi in modo generale senza fare riferimento necessariamente ad una qualche situazione
particolare.

In seguito indicheremo con X una qualsiasi variabile oggetto di studio, con x una sua generica modalit
o intensit e con n il numero totale delle osservazioni. Indicheremo inoltre con k il numero di modalit o
intensit diverse fra di loro, dove ovviamente k n. Il generico termine della sequenza e la frequenza
corrispondente verranno indicati rispettivamente mediante i simboli x i e ni, dove i = 1, 2, ., k ed ni 1.
Si osservi che ovviamente deve risultare.

k
ni n
i1

Se il carattere di tipo quantitativo supporremmo che le x i siano poste in ordine non decrescente.

Se la distribuzione data mediante classi di valori indicheremo con x 0 -|x1, , xi-1 -|xi, , xk-1 -| xk le
classi chiuse a destra ed ancora con n1,, ni, , nk le frequenze corrispondenti, dove lindice i si
riferisce, quindi, alli esimo intervallo.

X FREQUENZE
x1 n1
X2 n4
. .
xi ni
. .
xk nk
Totale n
FREQUENZE ASSOLUTE, PERCENTUALI E RELATIVE

Nelle distribuzioni esaminate finora, in corrispondenza delle varie modalit o intensit della variabile,
sono riportati i valori ni che sono anche detti frequenze assolute per distinguerle da frequenze di altro
tipo che sono ricavate dalle precedenti e che costituiscono la prima e pi usuale elaborazione dei dati.

Quelle di uso pi comune sono le cosiddette frequenze percentuali che corrispondono ai rapporti fra le
frequenze assolute ed il numero totale delle unit esaminate moltiplicati per cento, cosicch la
percentuale corrispondente ad ogni ni :

ni
100
n

ovvio che la somma delle frequenze percentuali uguale a 100.

Informazioni identiche a quelle fornite dalle frequenze percentuali possono essere espresse anche
mediante le cosiddette frequenze relative,

ni
fi
n
che sono date, come si vede, dai rapporti fra le frequenze assolute ed il loro totale, ed esprimono,
anzich le percentuali, le quote di unit statistiche che presentano una determinata modalit o
intensit. In questo caso ovviamente risulta che la somma di tutte le frequenze relative deve essere
pari a 1.

La frequenza cumulata (o frequenza cumulata assoluta), associata ad una modalit o a una classe di
modalit, pari alla somma della sua frequenza assoluta e di quelle delle modalit che la precedono.

Naturalmente, affinch il calcolo della frequenza cumulata abbia un senso, necessario che allinterno
della distribuzione sia possibile definire qualche tipo di ordinamento. Dato un carattere di cui si siano
osservate M modalit, lespressione matematica della frequenza cumulata (assoluta) della k esima
modalit, supponendo le modalit disposte in ordine crescente, :

k
Nk ni
i1

dove ni la frequenza assoluta della i esima modalit e =


=1 il numero totale di unita
statistiche. Si osservi che nella sommatoria lindice varia sullinsieme delle modalit e non delle unit
statistiche.

Si definisce frequenza cumulata relativa associata ad una modalit o a una classe di modalit, come il
rapporto tra la sua frequenza cumulata (assoluta) e la somma di tutte le frequenze assolute presenti
nel campione. O equivalentemente la frequenza cumulata relativa si pi definire come la somma della sua
frequenza relativa e di quelle delle modalit che la precedono.

In formule:

Nk k
Fk fi
N i1

dove fi la frequenza relativa della i esima modalit.


Si definisce la frequenza cumulata percentuale (a volte indicata con frequenza relativa %) associata
ad una modalit o a una classe di modalit, come la sua frequenza cumulata relativa moltiplicata per 100.
O equivalentemente la frequenza cumulata percentuale si pu definire come la somma della sua
frequenza percentuale e di quelle delle modalit che la precedono. In formule:

Ni k
Pk 100 100 Fk pi
N i1

dove pi la frequenza percentuale della i esima modalit.

Esempio: in un sondaggio fatto allinterno di una facolt composta da 250 studenti (la popolazione
statistica), si intende rilevare il carattere Gradimento dei professori, secondo le cinque modalit
molto deluso, insoddisfatto, parzialmente soddisfatto, soddisfatto, entusiasta. Risulta che 10
studenti si dicono entusiasti delloperato dei professori, 51 si dicono soddisfatti, 63 mediamente
soddisfatti, 90 insoddisfatti, 36 molto delusi.

La distribuzione di frequenza viene rappresentata con una tabella come la seguente.

Gradimento Frequenz Frequenze Frequenz Frequenze Frequenze Frequenze


dei e relative e cumulate cumulate relative cumulate
professori assolute percentu assolute percentuali
ali
Molto 36 36/250=0,14 14,4 36 0,144 14,4
deluso 4
Insoddisfat 90 90/250=0,3 36 36+90=12 0,144+0,360=0,5 14,4+36=50,4
to 60 6 04
Parzialment 63 63/250=0,2 25,2 126+63=18 0,504+0,252=0,7 50,4+25,2=75
e 52 9 56 ,6
soddisfatto
Soddisfatto 51 51/250=0,20 20,4 189+51=24 0,756+0,204=0,9 75,6+20,4=96
4 0 60
Entusiasta 10 10/250=0,04 4 240+10=2 0,960+0,040=1,0 96+4=100
0 50 00
Totali 250 250/250=1 100

VALORI CARATTERISTICI DELLE DISTRIBUZIONI

In statistica descrittiva, data ina distribuzione di un carattere quantitativo o qualitativo ordinabile


(ovvero le cui modalit possono essere ordinate in base a qualche criterio), si definisce la mediana (o
valore mediano) come il valore/modalit (o linsieme di valori/modalit) assunto dalle unit statistiche
che si trovano nel mezzo della distribuzione.

Se si procede al riordinamento delle unit in base ai valori crescenti del carattere da esse detenuto, in
sostanza la mediana bipartisce la distribuzione in due sotto distribuzioni: la prima a sinistra della
mediana (costituita dalla met delle unit la cui modalit minore o uguale alla mediana) e la seconda a
destra della mediana (costituita dalla met delle unit la cui modalit maggiore o uguale alla mediana).
Tecnicamente si afferma che la mediana il valore/modalit per il quale la frequenza relativa cumulata
vale (o supera) 0,5, cio il 50 percentile.
Usualmente si indica la mediana con Me.

Per calcolare la mediana di n dati:

1. Si ordinano gli n dati in ordine crescente (o decrescente).


2. Se il numero di dati dispari, la mediana corrisponde al valore centrale, ovvero al valore che
occupa la posizione (n+1)/2.
3. Se il numero n di dati pari, la mediana stimata utilizzando i due valori che occupano la
posizione (n/2) e ((n/2)+1). Generalmente si sceglie la loro media aritmetica se il carattere
quantitativo.

Se le modalit sono raggruppate in classi (soddisfatto, insoddisfatto, ecc) non si definisce un calore
univoco, ma una classe mediana X i Xi-1. La determinazione di tale classe avviene considerando le
frequenze cumulate; indicando con Fi la generica frequenza cumulata relativa dellosservazione i esima
sar:
Xi-1 > 0,5 e Xi < 0,5. Pur essendo corretto considerare un qualsiasi elemento dellintervallo X i Xi-1 un
valore mediano si soliti procedere, al fine di avere un misura unica del valore, a unapprossimazione
della mediana con la seguente formula:

0.5 Fi1

Me Xi Xi1 Xi Fi Fi1

La moda o determinazione normale o modale si riferisce alla modalit o intensit del carattere a cui
associata la frequenza pi alta.

Altra importante caratteristica di una variabile quantitativa costituita dal suo valore medio. Questo
valore serve ad indicare in modo sintetico lordine di grandezza del fenomeno nel gruppo considerato e
pu essere utilizzato per confrontare in modo sommario le intensit di una stessa variabile rilevata su
collettivit diverse.

La media aritmetica di una variabile X viene indicata di solito col simbolo x o m. Data la serie delle n
intensit di una variabile X, la media aritmetica uguale alla somma di tutte le intensit divisa per n. La
somma delle intensit rilevate detta ammontare del carattere.

Unimportante propriet della media aritmetica quella di essere quel particolare valore che, sostituito
a ciascuna delle intensit effettivamente rilevate, lascia inalterato lammontare del carattere ed
proprio questa la caratteristica a cui ci si riferisce intuitivamente quando su un insieme di dati si
calcola la media aritmetica.

Per media aritmetica ponderata si intende una media dove ogni singola intensit contribuisce alla
determinazione dellammontare complessivo in maniera proporzionale ad un qualche peso associato
allintensit stessa.

Supponiamo per esempio di aver acquistato due quantit diverse q 1 e q2 pagando rispettivamente i
prezzi unitari p1 e p2; lammontare complessivo della spesa dato evidentemente dalla somma dei prezzi
per le rispettive quantit p1q1 + p2q2, cosicch il prezzo medio pm corrisponde al rapporto fra questo
ammontare e la quantit totale q 1+q2. Si ha in altri termini:

p1 q1 p2 q2
pm
q1 q2
ed il valore cos ottenuto soddisfa la propriet della media aritmetica (lascia inalterato lammontare
complessivo della spesa), dato che:


p1q1 p2q2 pm q1 q2
Altro esempio la media ponderata usata per ottenere la media dei voti di un gruppo di esami. Se
allesame X (8 CFU) si consegue il voto 27, allesame Y (12 CFU) si consegue una votazione pari a 21 e
allesame Z (4 CFU) si consegue una votazione pari a 28, la media ponderata sar pari a:
(27 8) + (21 12) + (28 4)/(8 + 12 + 4) = 24,16

Se si utilizzano le frequenze relative fi, la media aritmetica pu essere definita anche mediante
lespressione:

k
m xifi i 1,2,...,k n
i

Se i dati disponibili sono raggruppati in k classi, per il calcolo della media aritmetica si fa lipotesi che i
valori allinterno della i esima classe siano tutti uguali al valore centrale, che dato dalla semisomma
dei suoi estremi e che indicheremo con il simbolo . La media, quindi, sj calcola mediante la formula
k
m xifi dove al posto dei valori xi si utilizzano i valori centrali delle singole classi ed ovviamente il
i
risultato ottenuto in questo modo solo unapprossimazione della media vera calcolata sui dati originali.

Distribuzione di 25 aziende agricole secondo la superficie coltivabile

X Quote (f. relative) Valore centrale


05 0,20 2,5
5 - 10 0,16 7,5
10 - 20 0,24 15
20 - 50 0,32 35
50 - 100 0,08 75
Totale 1,00

In questo caso la media, che si ottiene dalla somma dei prodotti delle frequenze relative per i valori
centrali, uguale a 22,5 ettari.

VARIANZA, DEVIANZA, VARIAZIONE STANDARD

Laspetto che caratterizza un qualsiasi fenomeno collettivo la variabilit delle determinazioni che il
fenomeno assume sui diversi componenti di un gruppo, ed proprio questa pluralit di modalit o
intensit che rende necessaria lutilizzazione dei metodi statistici per una sua adeguata descrizione. Lo
studio dei fenomeni statistici singolarmente considerati, cosi come quello delle relazioni fra fenomeni
diversi, , quindi, unanalisi della loro variabilit.

Con riferimento alla distribuzione di frequenza di un carattere qualitativo o quantitativo discreto, si


dice che la collettivit omogenea rispetto a quel carattere quando la maggior parte degli individui
presenta una stessa modalit o una stessa intensit.
La situazione limite di massima omogeneit o di assenza di variabilit si avrebbe quando tutti gli
individui presentassero una stessa determinazione del carattere alla quale sarebbe associata, quindi,
una frequenza relativa pari a 1, mentre tutte le altre frequenze sarebbero nulle. In casi come questi
evidente che per la descrizione del fenomeno i metodi statistici risulterebbero del tutto superflui.

Nelle situazioni concrete le distribuzioni sono sempre caratterizzate da un grado pi o meno elevato di
variabilit che pu essere valutato mediante opportuni indici che permettono di confrontare la
variabilit di fenomeni diversi rilevati su una medesima collettivit o di uno stesso fenomeno rilevato in
luoghi o in tempi diversi con lo scopo, per esempio, di studiare la sua evoluzione nel tempo o le sue
caratteristiche in situazioni diverse.

Indici di dispersione

Per misurare la variabilit dei caratteri di tipo quantitativo in genere di fa riferimento alla grandezza
delle differenze fra le diverse osservazioni e, quindi, alla dispersione dei dati allinterno del campo di
variazione della variabile.

Per esempio, data la sequenza di valori 1 2 3 4 6 8 15 18 20 23 evidente che la


variabilit tanto pi bassa quanto pi le osservazioni sono concentrate intorno ad un unico valore e,
quindi, quanto pi piccole sono le differenze fra le diverse intensit, cosicch la situazione limite di
assenza di variabilit si ha quando queste differenze sono tutte uguali a zero.

Limportanza della variabilit delle osservazioni in una collettivit pu essere illustrata, per esempio,
con riferimento alla distribuzione del reddito di un gruppo di individui: a parit di reddito complessivo,
un basso livello di variabilit corrisponde ad una situazione in cui i redditi individuali sono molto diversi
fra di loro, mentre una variabilit elevata corrisponde alla situazione in cui pochi individui detengono
una quota rilevante del reddito totale.

Fra gli indici di variabilit, i cosiddetti indici di dispersione si basano, in generale, sulle differenze tra
le singole intensit rilevate ed un qualche indice della tendenza centrale della distribuzione. Lordine di
grandezza di queste differenze, sintetizzato mediante un opportuno valore medio, evidentemente in
grado di fornire una valutazione complessiva della variabilit del carattere.

Uno degli indici di variabilit pi utilizzati in statistica la varianza che corrisponde alla media
aritmetica dei quadrati degli scarti dalla media aritmetica diviso n-1. Il numeratore (1 )2 prende il
nome di devianza.

La varianza di una variabile quantitativa X, usualmente indicata con s 2, sx2 o V(X), data da:

X X
2 2
1 ... Xn X
2
n 1

Esempio: dati linsieme dei numeri X = {2,5,8,7,3}, prima si calcola la media x, che pari a
(2+5+8+7+3)/5 = 25/5 = 5; infine, [(2 - 5)2 + (5 - 5)2 + (8 - 5)2 + (7 - 5)2 + (3 - 5)2]/4 = 26/4 = 6,5.

Data lunita di misura utilizzata per rilevare la variabile di interesse, si osserva che la varianza
sempre espressa nellunit di misura al quadrato, cosicch, per esempio, in una distribuzione di stature
misurate in centimetri, la varianza risulter espressa in centimetri quadrati. Per questo motivo spesso
si utilizza, al posto della varianza, la sua radice quadrata. Per questo motivo spesso si utilizza, al posto
della varianza, la sua radice quadrata.
Questo indice, detto scarto quadratico medio o scostamento quadratico medio (s.q.m.) o deviazione
standard ( 2 ), fornisce le stesse informazioni della varianza, dato che conoscere la varianza di una
distribuzione equivale a conoscerne lo scarto quadratico medio e viceversa.

In alcune situazioni si pu avere interesse a confrontare la variabilit di fenomeni diversi come, per
esempio, la variabilit dei pesi corporei e delle stature di un gruppo di individui oppure di fenomeni
espressi in unit di misure diverse come, per esempio, nel caso in cui si voglia valutare la variabilit di
distribuzioni di redditi espressi in valute diverse (lire ed euro, oppure dollari ed euro e cosi via). In
queste situazioni necessario utilizzare un qualche i dice di variabilit che sia un numero puro (ovvero
non riferito ad alcuna unit di misura). Lindice pi utilizzato a questo scopo il cosiddetto coefficiente
di variazione (c.v.) che dato dal rapporto tra deviazione standard e la media e che, quindi, una
grandezza adimensionale, espresso cio mediante un numero svincolato dalla unit di misura del
fenomeno.

Dati, per esempio, i valori riportati nella tabella successiva che si riferiscono a risultato ottenuti dai
primi 10 atleti classificati in tre diverse prove di decathlon nelle Olimpiadi del 1988 (i tempi sono
misurati in seco di e le distanze in metri), supponiamo che si sia interessati a determinare la specialit
sportiva nella quale si rileva la maggiore variabilit dei risultati.

Salto in alto 2,27 1,97 1,97 2,03 1,97 2,12 2,06 2,00 2,03 1,97
400 metri 48,90 47,71 48,06 49,06 47,44 48,34 49,34 48,21 49,51 48,60
Giavellotto 61,32 61,76 64,16 64,04 57,18 52,18 61,60 63,00 66,46 59,48

Indicata con X la variabile salto in alto, con Y la variabile 400 metri e con Z la variabile lancio del
giavellotto i coefficienti di variazione risultano pari a: