Sei sulla pagina 1di 52

1

Appunti di Statistica
La statistica una disciplina scientifica che trae i suoi risultati dalla raccolta, elaborazione e analisi dei dati
sperimentali e osservazionali. Studia i fenomeni collettivi e di massa con il metodo della ricerca empirica. La
statistica non aggiunge ulteriori elementi di informazione rispetto ai dati raccolti, ma permette di
condensare le informazioni che possono riguardare sia il mondo naturale che quello sociale. Essa ha anche
una funzione predittiva, perch in base allanalisi del passato si pu estendere il risultato ottenuto al futuro.

Le variabili statistiche.
Possono essere:
Quantitative, se vengono espresse da un numero (et, numero di figli, reddito, etc.).
Qualitative, se non possono essere espresse da un numero (sesso, stato civile, etc).

Per gestire i dati statistici si creano delle tabelle che contengono i dati statistici (raccolti attraverso
questionari, interviste, rilevazioni, etc.), i quali indicano una qualsiasi informazione di cui si conosce il
numero di volte con cui si ripete lindagine. A seconda dei dati statistici raccolti possiamo avere:
Tabella semplice o di frequenza assoluta.
Tabella delle frequenze relative.
Tabella multipla e a doppia entrata.
Tabella per classi.

Tabella semplice o di frequenza assoluta.
Supponiamo di indagare un semplice fenomeno , ovvero laltezza dei ragazzi di una determinata scuola.
Avremo una tabella del genere:
Intensit frequenza definizioni
classi
o modalit
(K)
Frequenze
ni

Altezza Numero dei
ragazzi

138
(dato Xi )
1
(dato n1 )
Frequenza assoluta (del
dato Xi 1)
140
(dato Xi 2)
3
(dato n2)

145
(dato Xi 3)
5
(dato n3 )
Frequenza assoluta (del
dato Xi3 )
148
(Etc)
3
(Etc)

149 4
151 3
152 1
Totale Totale
1023 20
Oni

n
Totale (o sommatoria)
freq. assolute

2
Nella tabella i valori di destra rappresentano la frequenza assoluta di ciascun dato (ni), ovvero il numero di
volte che il dato di sinistra Xi stato osservato. Ad esempio nella tabella abbiamo che laltezza di 138 cm
stata osservata una sola volta (Xi), quindi la frequenza assoluta di quel dato = 1 . Il dato 145 cm (dato Xi 3)
ha una frequenza assoluta = 5 , ovvero avremo un ni = 5 .

Il totale (n) esprime la sommatoria delle frequenze per ogni dato (Xi) e pu essere espressa
matematicamente con la seguente formula:
Oni = n1 + n2 + n3 +etc ovvero 1 + 3 + 5 + 3 + etc.. = 20

Ma nelluso della tabella dati anche utile conoscere la sommatoria della modalit o delle osservazioni:
Oxi = X1 + X2 + X3 +etc ovvero 1 + 3 + 5 + 3 + etc.. = 1023


In alcuni casi utile calcolare la frequenza relativa , valore che indica il rapporto tra la freq.assoluta
di un dato ed il totale delle freq.assolute osservate, ovvero i casi osservati. Questo rapporto viene
misurato con un numero decimale compreso tra 0 e 1, o in percentuale. Possiamo tradurre questo
rapporto matematicamente con la formula:
fi = ni / n

considerando la tabella desempio, avremo le seguenti frequenze relative :

classi
o modalit
(K)
Frequenze
ni
Frequenze relative
fi
Altezza Numero dei
ragazzi

138

1

0.05
(1/20)
140

3

0.15 (15%)
(3/20 * 100)
145

5

0.25
(5/20)
148

3


149 4
151 3
152 1
Totale Totale
1023 20
Oxi Oni

La somma delle frequenze relative sempre uguale a 1 (Ofi = O ni / n =1) . Moltiplicando il valore di

3
una frequenza relativa otteniamo il suo valore percentuale che al massimo assume valore 100. Inoltre
eventuali problemi di arrotondamento vanno superati aggiungendo o sottraendo, ad esempio, 0.1 .
Se vogliamo ottenere le frequenze relative cumulative ( o potremmo anche scrivere frequenze
relative sommate) dobbiamo semplicemente sommare i valori di frequenza assoluta che ci interessano. Ad
esempio:
K (modalit) ni (frequenze) fi (freq.relat) F1, F2, frequenze relative cumulate (Fi)
18 (et) 1 0.1 F1= ni1/n il 10% ha 18 anni di et ma
25 2 0.2 F2= F1+ ni2/n il 30% ha tra 18 e 25 anni e
28 3 0.3 F3= F1+F2 + ni3/n il 60% ha tra i 18 ed i 28 anni, inoltre
30 4 0.4 F4= F1+F2+F3+ ni4/n il 100% ha tra i 18 e 30 anni
Totale 10 (n) ( somma = 1)
Prima di continuare va ricordato che:
Si definisce INTENSITA di un carattere il numero che esprime il suo ammontare, misura o
grandezza. Es. nella tabella sopra vediamo lintensit 28, ovvero ci che indica la grandezza che in
questo caso si riferisce allet, quindi al numero di anni del campione analizzato.
Si definisce FREQUENZA il numero delle unit che presentano la stessa modalit, cio il numero
delle volte che quella intensit si ripete. Es. nella tabella vediamo che per lintensit 28 (et rilevata
nella popolazione esaminata) abbiamo una frequenza di 3, ovvero nel campione si ripete per 3
volte la stessa modalit, cio per 3 volte troviamo persone che hanno 28 anni di et.

Tabella riassuntiva




4
Ovviamente se vogliamo comprendere i dati che si rilevano a fini statistici, essi devono essere sistemati in
tabelle (come visto fino ad ora) dando vita alla DISTRIBUZIONE STATISTICA. Queste distribuzioni possono
assumere diversi caratteri a seconda di ci che esprimono, come la quantit o la qualit di un dato rilevato.

Potremo avere una DISTRIBUZIONE STATISTICA SEMPLICE se riferita ad un unico carattere
(modalit). In questo caso potremo avere una distribuzione:
Per unit , ovvero una semplice elencazione degli attributi con la quale si presenta ciascun
carattere.
Di quantit (o intensit) , ovvero lammontare, la misura o la grandezza di un carattere.
Di frequenze , ovvero il numero di volte in cui una modalit si presenta (o di ripete).

Esempio
Se ad esempio ci viene fornita una serie di dati rilevanti il sesso presente allinterno della nostra classe
alluniversit, potremmo avere i seguenti dati:
Peppe (M) Anna (F) Carolina (F) Francesca (F) Marzia (F) Antonio (M) Donatella (F) Giuseppe (M) Luca (M)
Giovanna (F) Roberta (F) Paolo (M) Alessio (M) Federica (F) Michelle (F) Ilaria (F)
ora dobbiamo creare una tabella che ci aiuti a capire il dato statistico, e quindi (esercizio come sul libro
pag.29) dobbiamo costruire la distribuzione di frequenze per la distribuzione per unit dei dati sopra
riportati.

K (modalit)
SESSO
ni (frequenze) fi (freq.relat)
frequenze relative percentuali
Maschi 6 0.375 il 37,5% di sesso maschile
Femmine 10 0.625 il 62,5% di sesso femminilee
Totale 16 (n) ( somma = 1)
Abbiamo quindi ordinato i nostri dati. Ovviamente se il carattere il tempo, la distribuzione viene chiamata
serie storica o serie temporale, ma esistono altri tipi di serie come le serie geografiche o territoriali.
Nelle serie temporali vanno distinti i fenomeni di flusso, che si riferiscono ad un intervallo di tempo, dai
fenomeni di stato, che indicano la rilevazione in uno specifico momento.

Riprendiamo lesempio della nostra classe universitaria e supponiamo di aver rilevato che Peppe (39) Anna
(20) Carolina (20) Francesca (20) Marzia (20) Antonio (25) Donatella (20) Giuseppe (25) Luca (25) Giovanna
(20) Roberta (20) Paolo (28) Alessio (28) Federica (25) Michelle (20) Ilaria (25). Costruiamo le distribuzioni.

K (modalit) ni (frequenze) fi (freq.relat) Ci (cumulata) frequenze relative cumulate (Fi)
20 (et) 8 0.5 8 F1= ni1/n il 50% ha 20 anni di et ma
25 5 0.31 13 F2= F1+ ni2/n l 81% ha tra 20 e 25 anni
28 2 0.12 15 F3= F1+F2 + ni3/n il 93% ha tra i 20 ed
i 28 anni
39 1 0.06 16 F4= F1+F2+F3+ ni4/n il 100% ha tra i 20
ed i 39 anni
Totale 16 (n) ( somma = 1)




5
Distribuzione in classi.
Se i dati rilevati presentano numerose modalit, conveniente accorpare i dati in CLASSI. Sempre
ritornando alla nostra classe universitaria, possiamo generare delle classi di et in cui includere diversi
valori. Ad esempio possiamo creare una classe che includa tutti gli studenti che hanno dai 20 ai 25 anni. Ma
prima bisogna notare che tra le varie modalit avremo sicuramente un valore minimo e un valore massimo,
i quali saranno ovviamente contraddistinti dalle diciture Xmin e Xmax, e la cui differenza indica lampiezza
della classe stessa (hi = Xi Xi-1). Per calcolare lampiezza totale delle classi, al fine di ordinare i dati, ci
rifaremo alle formule di Stugers pi avanti, includendo quindi i valori massimi e minimi tra le classi in modo
da capire che ampiezza dare alla singola classe.
N.b.: importante la simbologia. |-| indica che sono inclusi i due termini della classe, cio Xmin e Xmax,
con |- si indica che incluso il termine a sinistra cio Xmin, e con -| si include solo il termine massimo di
quella classe cio Xmax. Nella tabella sotto, infatti, la prima modalit include gli studenti che vanno dai 18
ai 20 anni det inclusi. La seconda, invece, include i valori compresi tra 20 e 25, ma escludendo il valore
20 anni e includendo il valore 25 anni det.

K (modalit) ni (frequenze) fi (freq.relat)

18|-|20 (et) 12 0.36
20 -|25 10 0.30
25 -|28 6 0.18
28 -|39 5 0.15
Totale 33 (n) ( 1 con arrot)

Ma come facciamo a stabilire, dopo aver raccolto i dati, come distribuire le classi e lampiezza di ogni
singola classe ?
Riprendiamo lesempio della nostra classe universitaria e supponiamo di aver rilevato che vi sono diversi
studenti compresi tra i 18 ed 29 anni det. Prima ordiniamo i valori come distribuzione semplice. Quindi
verifichiamo i valori Xmin e Xmax, le frequenze semplici.

K (modalit) ni (frequenze)

18 Xmin 2
19 2
20 4
21 3
22 5
23 2
24 3
25 4
26 3
27 2
28 3
29 Xmax 1
Totale 34 (n)

Ora applichiamo la formula di Sturges, la quale ci dir il numero minimo di classi da applicare :
S = 1 + ( 10/3 log n )
ovvero S = 1 + 3.3333 * log di 34 = 1+ 3.3333 * 1.53 = 6.1 (arrotondiamo a 6)

6
Cio abbiamo calcolato il numero di classi in cui dividere i dati rilevati, quindi dovremo creare una nuova
tabella che abbia 6 classi che includano tutte le modalit che abbiamo. Ma con quale ampiezza ? Cio
quanti dei valori di modalit che abbiamo devono essere inclusi in ciascuna classe ?
Per sapere lampiezza applichiamo la seguente formula :
W = Xmax Xmin
S
dove S appunto il numero minimo di classi che abbiamo calcolato con la formula di Strurges. Quindi
avremo:
W = 29 18 = 1.80 arrotondiamo ovviamente a 2
6
La tabella ordinata per classi dovr essere composta da 6 classi con ampiezza di 2.
K (modalit) ni (frequenze)

18 |- 20 4
20 |-22 7
22 |- 24 7
24 |-26 7
26 |-28 5
28 |-30 4
Cmin e Cmax
Totale 34 (n)

Le medie
Il concetto di media esprime una sintesi dei vari elementi della distribuzione, e tende a fornire una visione
dinsieme che sintetizzi le intensit di tutti gli elementi che costituiscono il fenomeno.
Le medie hanno delle propriet:
Propriet della conservazione dellunit di misura.
Propriet della monotonia.
Propriet della consistenza.
Propriet dellinternalit. La media non pu essere esterna al campo di osservazione.

Classificazione delle medie.

Possiamo distinguere le medie in :
Medie razionali o algebriche (medie di potenza), le quali risultano dal concorso di tutti i valori.
Medie posizionali (Moda, Mediana, Quartili), le quali risultano da particolari elementi della
distribuzione.
Media ARITMETICA.
La media aritmetica quel valore che sostituito alla mia distribuzione lascia inalterato il mio ammontare.
Essa esprime sempre la propriet dellinternalit, ovvero risulta sempre compresa tra il valore pi piccolo
ed il pi grande della serie di valori in esame.
X = Oxi /n sommatoria di tutte le modalit diviso il totale delle osservazioni.
Questa anche detta Media aritmetica semplice.

7
Esempio. Nei 4 anni precedenti un artigiano ha guadagnato rispettivamente 15000 , 18000, 12000 e 20000
euro. Se calcoliamo la media aritmetica, ci viene restituito il valore che avrebbe potuto guadagnare ogni
anno se questo reddito fosse stato EQUIRIPARTITO.

X = Oxi /n = 15000+18000+12000+20000/ 4 = 16250
Cio questo artigiano avrebbe potuto ottenere lo stesso risultato, con meno oscillazioni, se avesse avuto un
guadagno annuale fisso di 16250. Oppure potremmo considerare questi valori come il guadagno annuo di
ciascun membro di una squadra e ricavarne la media per capire come ripartire equamente il denaro. Quindi
invece di dare stipendi tra 12000 e 20000 attuando una disparit di trattamento, come media potremmo
dare 16250 annui a tutti e 4 gli elementi.
In una distribuzione di frequenza la media aritmetica si calcola facendo la sommatoria delle singole
frequenze assolute moltiplicate per il valore della modalit, diviso il totale delle frequenze osservate:
X = Oxi * ni
n
Questa media viene anche definita Media aritmetica Ponderata.
Esempio. Durante uno dei nostri esami si rilevano i seguenti voti ricevuti, con le seguenti frequenze:
K (modalit) ni (frequenze) xi * ni
18 4 (18 * 4) 72
20 7 140
24 7 168
26 7 182
27 5 135
30 4 120

Totale 34 (n)
Oxi * ni =
817
Applicando la formula per la media aritmetica di una distribuzione di frequenza avremo :
X = Oxi * ni / n = 817/34 = 24.02 ovvero il voto medio aritmetico per distribuzione di 24.

Media aritmetica per distribuzione in classi.
Per calcolare questa media abbiamo prima bisogno di capire il valore medio di ogni singola classe. Per
calcolare il valore medio della classe, detto VALORE CENTRALE ( VCi ), utilizziamo la semplice formula:
Xi = ( ci-1 + ci ) ovvero = (Cmin + Cmax della classe considerata)
Quindi il valore centrale si ottiene sommando il limite inferiore e quello superiore e dividendo per due.
Tornando alla classe universitaria e allesame effettuato, se volessimo calcolare la media aritmetica per
questa distribuzione in classe avremo :
K (modalit) ni (frequenze)
VCi
xi * ni
18 |- 20 4 19 76 (Xi ora = VCi)
20 |-22 7 21 147
22 |- 24 7 23 161
26 |-30 5 28 140
Cmin e Cmax

8
Totale 23 (n) 524
Quindi avendo calcolato il VCi, potremo trattare i dati come un semplice calcolo di media ponderata:
X = Oxi * ni / n = 524 / 23 = 22.78

Abbiamo visto prima che la media aritmetica ha la propriet dellinternalit, ma essa ha anche la propriet
traslativa la quale dice che aggiungendo o togliendo una costante C, si ha una nuova media aritmetica Y
incrementata o ridotta del valore stesso della costante. Quindi :

Y = X + C
Se abbiamo X: 5 , 10, 15 la media sar 10 aggiungendo una costante C=4 avremo che Y= 9, 14, 19 e la
nuova media sar 14, ovvero la media aritmetica di X con la costante aggiunta ( 10+4).

Se invece di aggiungere o sottrarre la costante essa viene moltiplicata o divisa , verifichiamo la propriet
dellomogeneit della media aritmetica.
Y = X * C
Se abbiamo X: 5 , 10, 15 la media sar 10 moltiplicando per una costante C=5 avremo che Y= 25, 50, 75 e la
nuova media sar 50, ovvero la media aritmetica di X moltiplicato la costante aggiunta ( 10*5).
Abbiamo ancora la 1 propriet, la quale dice che la media di tutti gli scarti (positivi e negativi) uguale
a zero.
O (x1 - X ) = 0
Se abbiamo una media di 10 e la seguente tabella, avremo:
K (modalit) X x1 - X
X1= 18 24.16 -6.16 (18-24.16)
X2=20 -4.16
24 -0.16
26 1.84 (26-24.16)
27 2.84
30 5.84

O (x1 - X ) = 0
La 2 propriet dice che la somma dei quadrati degli scarti dei valori della distribuzione dalla media
aritmetica minore della somma dei quadrati degli scarti da qualsiasi numero.
O (x1 - X )
2
= min
K (modalit) X x1 - X
2 propriet
5 10 -5 25
10 0 0
15 5 25

O (x1 - X )
2
= 50
Se sostituiamo il valore 10 della media usata, si avranno altri valori sempre superiori.


9
La propriet associativa della media dice che la media aritmetica ponderata di un gruppo collettivo,
composto da due o pi gruppi, uguale alla media ponderata dei sottogruppi. Prendiamo ad esempio
maschi (m) e femmine (f). La formula sar:

X = Xf *nf + Xm * nm
nf + nm

Nella nostra classe, dopo un esame, abbiamo :
K (modalit) ni (maschi) ni (femmine)
18 1 -
20 1 -
22 1 -
25 - 2
28 - 1
30 0 1
Media aritmetica
Xm = 20 Xf = 27
Totale (n)
nm 3 nf 4

X = Xf *nf + Xm * nm = 27*4 + 20*3 = 168 = 24
nf + nm 7 7

Se abbiamo 2 gruppi distinti di osservazioni, ad esempio considerando i voti degli studenti e delle
studentesse allinterno della nostra classe, per poter verificare la media dei voti stessi dovremmo creare
una tabella a doppia entrata.
Esempio. Abbiamo la seguente tabella che esprime i voti presi ad un esame con le rispettive frequenze
divise appunto per sesso allinterno della classe.
K (modalit) ni (maschi) ni (femmine) Totale
18 10 5 15
23 15 10 25
25 20 25 45
28 5 15 20
30 8 10 18
Totale 58 65 123
Per la propriet associativa, possiamo calcolare la media aritmetica delle due variabili che esistono nella
tabella a doppia entrata, e ricavare quindi un valore unico che ci renda il dato medio tra le osservazioni dei
maschi e quelle delle femmine. Prima dobbiamo calcolare la media ponderata (perch vi una
distribuzione di frequenza) per i maschi, poi per le femmine, ed infine applichiamo la propriet
associativa.
K (modalit) nim (maschi) nif (fem.) Totale nim+ nif Xim * nim Xif * nif
18 10 5 15 180 90
23 15 10 25 345 230
25 20 25 45 500 625
28 5 15 20 140 420
30 8 10 18 240 300
Totale n= 58 n= 65
nm + nf = 123
1405 1665

10
Avendo sviluppato i prodotti tra le modalit e le frequenze, possiamo calcolare la media ponderata per le
due categorie.
Xm = Oxim * nim = 1405 = 24.22
n 58
con la stessa formula calcoliamo la media ponderata per le donne che, sostituendo i valori numerici, =
25.61 . Quindi applichiamo la propriet associativa:

X = Xm *nm + Xf * nf = 24.22*58 + 25.61*65 = 168 = 24.95
nm + nf 123 123
*** = se serve solo la media aritmetica totale esiste un trucco rapido. Vedere la sezione Devianza (B).

Analisi dei dati.
Osservando la tabella che abbiamo usato per gli esempi, possiamo analizzare la disposizione dei diversi
valori (frequenze) di riga e di colonna rispetto alle varie modalit (xi). In effetti possiamo considerare la
tabella come una matrice di punti in cui le colonne X e Y ci mostrano, incrociandosi, dei valori combinati per
la modalit richiesta. Cos potremo verificare che per la modalit del voto 18 avremo una frequenza 10 per i
maschi (n11 nij alla riga 1 colonna 1), ed una frequenza 5 per le femmine (n12 - nij alla riga 1 colonna 2).
Il totale di ogni riga ci rende, ovviamente, la frequenza marginale di riga (n.1 ed n.2), come per ogni
colonna avremo la frequenza marginale di colonna (n1. e n2.), le quali si incrociano nel totale n.
Matematicamente possiamo scrivere che :
O
r
ni j = n.j ovvero la sommatoria dei valori di colonna n.1, n.2, n.j .
O
c
ni j = ni. Ovvero la sommatoria dei valori di riga n11, n12, nj. ..
O
c
O
r
ni j = n




11
Media armonica.
Ad alcune operazioni non possono corrispondere delle medie aritmetiche significative e senza errori. E il
caso della velocit. Verifichiamo questo piccolo esempio:
Si considerino due tragitti effettuati alle rispettive velocit su una distanza di 200 Km.
K (velocit) Km/h h (ore)
100 2
200 1
Media aritmetica
Xm = 150

n= 2
Come vediamo, applicando la semplice media aritmetica si sovrastimerebbe il risultato. Nel caso in cui la
grandezza lineare possiamo usare la media aritmetica, ma quando vi sono grandezze non lineari come la
velocit, si deve usare la Media armonica semplice o ponderata.

=
=
n
i i
x
n
Mh
1
1
; semplice
Nellesempio del nostro duplice tragitto avremo che
Mh = 2 = 2 = 2/0.015 = 133.3 Kmh
1/100 + 1/200 0.01 + 0.005
Quindi il valore corretto 133 Kmh e non 150 come quanto dichiarato dalla media aritmetica, la quale in
questi casi sovrastima la misurazione.
La Media armonica ponderata viene usata, ovviamente, per una distribuzione.

=
=
n
i i
i
x
n
n
Mh
1
ponderata

Velocit Km/h Distanza Km
h (ore)
100 200 2
200 400 2

600
Nella tabella riportata vediamo che alla velocit di 100 e 200 Km/h percorriamo in 2 ore 1 volta 200 km e
unaltra volta 400 Km. Vediamo la media ponderata cosa ci rivela.

Mh = 600 = 600 = 600/4 = 150 Kmh
200/100 + 400/200 2 + 2
Per il calcolo della velocit media possiamo anche ricordare di applicare la formula in questo modo:

Mh = Spazio totale percorso / tempo totale impiegato
O pi facilmente ricordando le unit di misura, per cui :
Mh = Km/kmh ovvero nella nostra tabella le Xi saranno i valori di Km/h, mentre le ni saranno i Km
Facciamo un altro esempio.
Un ragazzo compra una macchina nuova e per provarla percorre 3 tratti di 40 km a differenti velocit,
secondo la tabella sotto. Calcolare la velocit media.

12
Velocit Km/h Distanza Km
Valori Xi Valori ni
30 40
35 40
70 40

120

Mh = 120 = 120 = 120/3,04 = 39,47 Km/h
40/30 + 40/35 + 40/70 1,33 + 1,14 + 0,57

Altro caso pu essere quando si hanno solo i valori di velocit. Osserviamo questo esercizio:
Un autista per andare da Napoli a Roma mantiene una velocit media di 120 Km/h, ma al ritorno mantiene
una velocit di 140 Km/h. Calcolare la velocit media per lintero percorso.
La tabella in questo caso sar
Velocit Km/h Tempo
Valori Xi Valori ni
120 1
140 1

n = 2
Ovvero lautista percorre 120 e 140 km in unora, quindi il nostro ni sar di 1 ora per ogni valore che
abbiamo. Applicando la formula della media armonica avremo :

=
=
n
i i
i
x
n
n
Mh
1


Mh = 2 = 2 = 2/0,0154 = 129,87 Km/h
1/120 + 1/140 0,0083 + 0,0071














13
Media geometrica.
Se la media aritmetica applicata a scale lineari, esistono altre medie applicate su scale non lineari, ovvero
logaritmiche, di reciproci, ecc. La media geometrica il valore medio pi importante dopo la media
aritmetica. La mg si applica con valori positivi non nulli (se uno dei valori 0, non si pu calcolare).
Viene usata per sintetizzare dati che ha senso moltiplicare fra loro o per riassumere distribuzioni che
hanno andamento geometrico . Essa si applica per determinare un tasso di incremento / decremento
medio come prezzi dei prodotti, andamento della popolazione, etc. La media geometrica viene quindi
utilizzata quando si vuole analizzare il variare di un fenomeno nel tempo , per esempio il tasso di
variazione dei prezzi o i tassi di rendimento di capitali.

n
n
i
i
x Mg

=
=
1
;
n
n
i
n
i
i
x Mg

=
=
1

n
x
Mg
n
i
i
=
=
1
log
log ;
n
x n
Mg
n
i
i i
=
=
1
log
log

Proviamo a comprendere come funziona con un esercizio :

Anno Incremento
annuo (%)
Incremento
annuo
(X
i
)
Cio il valore dato pi
lincremento
1998 2 0,02 1+0,02
1999 4 0,04 1,04
2000 5 0,05 1,05
2001 6 0,06 1,06
2002 4 0,04 1,04
n= 5 osservazioni


In questo esempio dobbiamo calcolare il tasso di incremento medio dellinteresse i .
Prima di tutto dobbiamo calcolare il nostro capitale nei diversi istanti di osservazione, cio anno dopo anno.
Quindi avremo che:

Il capitale K
tot
= (1+ 0,02) * (1+0,04) * (1+0,05) * (1+0,06) * (1+0,04)
Ovvero 1,02 + 1,04 + 1,05 + 1,06 + 1,04 = 1,227
Cio abbiamo calcolato il capitale totale con gli interessi maturati anno dopo anno. Ora per ci serve di
conoscere il tasso di interesse, ed essendo moltiplicazioni dobbiamo applicare i logaritmi.

Log (1+ i) = 1/5 ( log 1,02 + log 1,04 + log 1,05 + log 1,06 + log 1,04)

Dove osserviamo che 1/5 prende a riferimento il numero di osservazioni che abbiamo in tabella. Ora
eseguiamo i calcoli con i logaritmi.
Log (1+ i)
5
= 1/5 ( 0,0086 + 0,017 + 0,021 + 0,025 +0,017) = 1/5 * 0,088 = 0,017

Questo risultato per un logaritmo che va eliminato. Per poterlo fare usiamo la 2 funzione sulla nostra
calcolatrice scientifica ottenendo una potenza a base 10 con esponente uguale proprio al nostro valore
(1+i). Premiamo il tasto della 2 funzione e poi scriviamo 0.017 , e otteniamo 1,039 , ovvero il nostro valore
(1+i) = 1,039

14
Per eliminare l 1 usiamo le normali regole matematiche sottraendo a tutti i termini proprio 1 e ottenendo il
reale valore di i , cio del tasso di incremento :

1-1 +i = 1,039 -1 = 0,039 cio i = 0,039 possiamo arrotondare e dire che i = 0,04

Dallo svolgimento dellesercizio, e dalle formule, capiamo che possiamo semplificare di molto i calcoli
applicando la formula :

media geometrica semplice


media ponderata , con N = sommatoria delle n
i


Rivediamo ora lesercizio velocizzandolo con la formula vista sopra :

Anno Incremento
annuo (%)
Incremento
annuo
(X
i
)
Cio il valore dato pi
lincremento
1998 2 0,02 1+0,02
1999 4 0,04 1,04
2000 5 0,05 1,05
2001 6 0,06 1,06
2002 4 0,04 1,04
n= 5 osservazioni


M
g
=
5
(1+ 0,02) * (1+0,04) * (1+0,05) * (1+0,06) * (1+0,04) =
5
1,22789 = 1,04 (x arrotondamenti)

Come prima abbiamo (1+i) = 1,04 per cui = 1-1 +i = 1,04 -1 = 0,04 quindi i = 0,04
Proviamo con i dati dellesercizio di pagina 105.

Anno Incremento
annuo (%)
Incremento
annuo
(X
i
)
Cio il valore dato pi
lincremento
1 5 0,05 1+0,05
2 6 0,06 1,06
3 5,5 0,055 1,055
4 7 0,07 1,07
5 6,5 0,065 1,065
n= 5 osservazioni


Velocizziamo i calcoli con la formula semplificata:

15
M
g
=
5
(1,05) * (1,06) * (1,055) * (1,07) * (1,065) =
5
1,33807 = 1,059

Come prima abbiamo (1+i) = 1,059 per cui = 1-1 +i = 1,059 -1 = 0,059 quindi i = 0,059

Sul libro si segue il procedimento che abbiamo visto prima, cio con i logaritmi, procedimento che pi
lungo e rischia di apportare errori in fase di calcolo.
Ma cosa succede se abbiamo un importo reale su cui calcolare il tasso di interesse ? Semplicemente si avr
il passaggio in pi del calcolo del capitale al fine di arrivare a calcolare sempre il tasso di interesse medio.
Vediamo questo esempio:

Anno Importo di deposito
in banca a titolo di
investimento (A
n
)
Incremento
annuo (%)
Incremento totale
del capitale
(I
n
)
(X
i
)
Incremento =
I
n i
/ A
n i

1
500 A
n1

2
510 I
n1

1,02
2 510 2,5 522,75 1,025
3 522,75 5,5 551,50 1,055
4 551,50 6 584,59 1,06
5
584,59 A
n5

6,5
622,58 I
n5

1,065
n= 5
osservazioni




M
g
=
5
(1,02) * (1,025) * (1,055) * (1,06) * (1,065) =
5
1,2451 = 1,044 i = 0,044 = 4,4 %

Se proviamo ad usare laltra formula, anche se con pi passaggi, otterremo lo stesso risultato.

Come per le altre medie, anche nella media geometrica si ha la possibilit di dover usare la Media
geometrica ponderata, cio quando vi sono delle distribuzioni in frequenza. Abbiamo gi visto la
formula sopra, ma osserviamo come funziona il calcolo con alcuni esempi.


Partiamo con una piccola tabella. Prima di tutto osserviamo che i valori della nostra modalit sono una
progressione geometrica ( 8 diviso 2 4 , 4 diviso 2 2 , o 8 diviso 4 2).


Valori Xi Valori ni
8 2
4 3
2 2

7



M
g
=
7
8
2
* 4
3
* 2
2
=
7
16384 = 4

16
Da notare che la media si dice geometrica perch funziona come se fosse simile alla mediana. Notiamo,
infatti, che in una distribuzione dispari con progressione geometrica, il valore centrale proprio la media
geometrica. In questo caso appunto il 4 ( 8 4 2).












17
Media quadratica.
E un altro indice di posizione che si presta alle misure di superficie. In particolare
la si usa quando si vuole eliminare i segni in presenza di valori negativi e positivi.
Essa esprime la radice quadrata della sommatoria al quadrato delle varie
modalit, diviso il totale delle frequenze osservate.

Quindi pu essere facilmente riassunta con la seguente formula, la quale esprime la Media quadratica
semplice:
n
x
Mq
n
i
i
=
=
1
2
;
Ovviamente la media semplice va utilizzata per ni = 1 , cio senza una distribuzione in frequenza dei dati
rilevati. Qualora i nostri dati sono distribuiti in frequenze, ovviamente abbiamo bisogno di una media
quadratica ponderata:

n
n x
Mq
n
i
i i
=

=
1
2


Ma sufficiente notare che per ni = 1 , la media ponderata esprime direttamente la media quadratica
semplice, quindi per comodit sempre facile e immediato usare la formula della Media quadratica
ponderata.
Esempio:
Un proprietario terriero ha due terreni confinanti di 400 e 200 m
2
e vuole ridefinire il perimetro e la
superficie dividendoli a met. Come si nota ha 1 solo terreno con lato 20 metri, e solo 1 terreno con lato 14
metri, quindi non vi una distribuzione in frequenze perch il dato ridotto allunit.

Superfice (m
2
) Lato in m ni
400 20 1
196 14 1

n= 2
Applichiamo la formula ponderata direttamente:

Mq = 20
2
* 1 + 14
2
* 1 = 400 + 196 = 596 = 298 = 17,26 m
2 2 2
Come si nota, per n = 1 in effetti come se stessimo usando la media semplice, quindi possiamo sempre
utilizzare la formula della media ponderata senza porci il problema della distribuzione.
Osserviamo invece un caso con la presenza di una distribuzione di frequenze. Il nostro proprietario ha ora 4
superfici di terreno, di cui 2 con la stessa dimensione e quindi con lo stesso lato. E ovvio che non possiamo
applicare la media semplice ma dobbiamo usare la ponderata.
Superfice (m
2
) Lato in m ni
400 20 1
196 14 2
324 18 1

n= 4

18
Svolgiamo lesercizio e verifichiamo il risultato.

Mq = 20
2
* 1 + 14
2
* 2 + 18
2
* 1 = 400 + 392 + 324 = 1116 = 279 = 16,7 m
4 4 4
Da notare un importantissimo dato. Il totale delle nostre superfici e dei lati che ne esprimono i valori in
metri quadrati, se resi con una normale media aritmetica, ci farebbero perdere molta superficie.
Infatti la superficie globale che ha il proprietario di 1116 m
2
, e dividendone i lati in media aritmetica
avremmo un risultato di 16,5 m che riportando la dimensione in m
2
ci renderebbe 4 singole superfici di
solo 272,5 m
2
, ovvero un totale di soli 1089 m
2
, con una perdita di ben 27 m
2
. Invece, pur considerando
un piccolo scarto dovuto agli arrotondamenti matematici, la media quadratica ponderata ci ha restituito un
lato di 16,7 m che corrisponde a 4 superfici di 278,89 m
2
, con un totale di 1115,56 m
2
contro i 1116 che il
proprietario sa di avere prima del ridimensionamento. Quindi la media quadratica ci rende in modo pi
preciso il valore medio delle superfici. Ultima nota per semplificare il calcolo. Possiamo moltiplicare
direttamente, se abbiamo il dato come in questo esercizio, il valore della superficie in m
2
per la frequenza
assoluta, sommare il tutto e dividere per n, tutto sotto radice quadrata. Ovvero otterremmo direttamente il
1116/4 risparmiandoci un passaggio.

Media di potenza.
Questa una media che consente, variando un valore, di ottenere tutte le medie.
Formula generale delle medie di potenza:
h
n
i
h
i
h
n
x
M

=
=
1
;
h
n
i
i
h
i
h
n
n x
M

=
=
1


3
2
1
0
1
h
h
h
h
h
Media
Media
Media
Media
Media
cubica
quadratica
aritmetica
geometrica
armonica




















19
Medie di posizione
Moda.

E una media che ci indica la modalit che assume la maggiore frequenza. Se vi una solo modalit che
assume la massima frequenza, allora la moda unimodale. Al contrario se abbiamo due modalit con la
stessa frequenza, la moda sar bimodale (trimodale per 3 modalit, etc..).
Quindi, nel caso di modalit non in classi la moda sar il valore che assume la maggior frequenza assoluta:
K (modalit) ni (frequenze)
Moda
18 4
20 7 moda
22 6
26 5
Et in aula
Totale 23 (n)

Ma quando la modalit in classi dobbiamo calcolare la densit di frequenza, la quale uguale a:
di = ni/hi

ovvero la frequenza assoluta iesima diviso lampiezza della classe iesima che consideriamo.
K (modalit) ni (frequenze)
hi
di
18 |- 20 5 2 2,5
20 |-23 7 3 2,33
22 |- 25 6 3 2
26 |-30 5 4 1,25
et
Totale 23 (n) Moda = 18 |- 20
La moda sar il VCi della classe identificata. In questo caso sar 18+20 /2 = 19

Mediana.

E una media di posizione che suddivide la distribuzione, ordinata in senso non decrescente, in due parti,
lasciando un numero uguale di termini a destra e a sinistra del valore mediano.
Esistono diversi modi, matematici e anche visivo/geometrici, per calcolare la mediana di una distribuzione.
Matematicamente possiamo facilmente calcolarla con le seguenti formule:
Per una distribuzione dispari avremo Med = n + 1
2

Per una distribuzione pari avremo Med = (n/2) + (n/2 + 1)
2
Vediamo degli esempi per calcolare la mediana.

20
Nella nostra classe universitaria gli studenti hanno assunto giornalmente , nellultima settimana, i seguenti
caff :
10 11 15 20 31 35 39
Come vediamo n = 7 , quindi un numero dispari e possiamo applicare facilmente la formula vista sopra, la
quale ci dar : Med = n + 1 = 7 + 1 = 8 = 4 (Attenzione!!! Indica la posizione da considerare!!!)
2 2 2
La media di questa distribuzione 20.
Come si nota dalla sequenza dei dati, ho evidenziato gi precedentemente il numero 20, perch
geometricamente (per piccole distribuzioni) possibile subito capire il valore della mediana rifacendosi
alla sua definizione. Infatti a destra e sinistra del numero mediano devono restare lo stesso numero di
termini, in questo esempio 3 e 3. Lo stesso si pu fare in caso di numero pari. Vediamo se i caff presi sono
rilevati negli ultimi 10 giorni, quindi con n = 10 , ovvero pari.

10 11 15 20 31 35 39 45 51 60

Med = (n/2) + (n/2 + 1) = 10/2 + (10/2 + 1) = 5 + 6 = 5,5 (Attenzione!!! la posizione da considerare!!!)
2 2 2
La media di questa distribuzione 33 , ovvero la media aritmetica delle due posizioni che circondano il
valore indicato. Quindi la mediana la posizione 5,5 , quindi sommiamo 35 + 31 e dividiamo per 2.

Quando si deve calcolare una mediana per una distribuzione in frequenza, ovviamente non si
pu trarre efficacemente il numero di posizione attraverso la semplice formula vista. Questo perch non
potremmo scrivere tutti i valori e poi contare e trovare la posizione corrispondente. Quindi ci aiutiamo
attraverso il ricorso alle frequenze relative e alle frequenze relative cumulate. Vediamo come :
K (modalit) ni (frequenze)
fi
Fi Ci
18 5 0,217 0,217 5
20 7 0,304 0,521 12
22 6 0,260 0,781 18
26 5 0,217 1 23
voti Qui n/2 = 11,5
Totale 23 (n) Moda = 20 Trucco rapido
Il primo valore di frequenza relativa cumulata che supera 0,5 la mediana.
Un altro sistema, pi rapido, per identificare la mediana per una distribuzione in frequenza lutilizzo della
Frequenza Cumulata assoluta (Ci ). E infatti sufficiente dividere n per 2 per calcolare il valore mediano e
poi sommare le frequenze assolute ( ni ) e trovare il primo valore che corrisponde a n/2 . Quel valore ci
indica la mediana della modalit. Nellesempio sopra, vediamo che n/2 = a 11,5 ed il primo valore che
supera questo dato, tra le frequenze assolute cumulate il 12, il quale corrisponde proprio alla modalit 20
che abbiamo visto essere la mediana.








21
Un po pi complicato risulta il calcolo della mediana per distribuzioni in classi.
Prima di tutto dobbiamo agire come se non vi fossero le classi ed identificare subito la classe mediana, poi
utilizziamo la seguente formula:

Med = Lim
inf
+ (Lim
sup
- Lim
inf
) ( n/2 C
i-1
)
ni
Dove i Limiti inf e sup indicano appunto il valore minimo e massimo della classe in questione, ni la
frequenza assoluta della classe mediana identificata, e Ci-1 indica il valore di frequenza assoluta cumulato
precedente a quello indicato dal calcolo della mediana senza considerare le classi.

Vediamo lesempio :
Una volta calcolata la classe mediana con il trucco della Cumulata, applichiamo la formula per avere il
valore reale mediano, il quale dovr ovviamente trovarsi allinterno della classe stessa.
K (modalit) ni (frequenze) Ci
18 |- 20 5
5 C
i-1

20 |-23 7 12
22 |- 25 6 18
26 |-30 5 23
voti Qui n/2 = 11,5
Totale 23 (n) Trucco rapido


Med = Lim
inf
+ (Lim
sup
- Lim
inf
) ( n/2 C
i-1
) = 20+ 23-20*(11,55) = 20+3*6,5 = 20 + 19,5 = 20 + 2,78 = 22,78
ni 7 7 7

Ma esiste anche unaltra formula, che pu essere applicata quando conosciamo o vogliamo calcolare i
valori di frequenze relative e cumulate.
( )( )
( )
1
1 inf sup
inf 2
5 , 0


+ = =
r r
r
F F
F L L
L Q Med (questa la formula usata dal Prof.)

K (modalit) ni (frequenze)
fi
Fi Ci
18 |- 20 5 0,217 0,217 (F r-1 ) 5
20 |-23 7 0,304 0,521 (F r ) 12
22 |- 25 6 0,260 . 18
26 |-30 5 0,217 .. 23
voti Qui n/2 = 11,5
Totale 23 (n) Trucco rapido
Sostituendo i valori Fr e Fr-1 che troviamo nella tabella, otteniamo lo stesso risultato, ma con qualche
arrotondamento in meno. In effetti il risultato pu essere leggermente diverso.






22 Quartili.
I quartili identificano dei valori percentuali precisi della nostra distribuzione. In altri termini, la frequenza
cumulata fino ai tre quartili circa 25%, 50% e 75% rispettivamente.
Il secondo quartile anche detto mediana, e divide la popolazione in due parti ugualmente popolate, delle
quali il primo ed il terzo quartile sono le mediane. La differenza tra il terzo ed il primo quartile un indice di
dispersione, lo scarto interquartile; i quartili vengono inoltre utilizzati per rappresentare un Box-plot.

La formula per calcolare il primo quartile, corrispondente al 25% della nostra distribuzione.
( )( )
( )
1
1 inf sup
inf 1
25 , 0


+ =
r r
r
F F
F L L
L Q
Formula 1.1
La formula per calcolare il terzo quartile, corrispondente al 75% della nostra distribuzione semplicemente
la stessa ma va inserito il valore 0,75.

Formula 1.2

Per velocizzare i calcoli possiamo usare la formula gi vista per la mediana, considerando che la mediana
in effetti il secondo quartile, e che quindi la formula pu tranquillamente essere usata anche per calcolare
gli altri valori allinterno della nostra distribuzione.

In effetti in questa formula possiamo sostituire il valore di n ( n/2 o n/4 o di n) e adattare il valore della
frequenza assoluta cumulata

Q1 = Lim
inf
+ (Lim
sup
- Lim
inf
) ( n/4 C
i-1
) Q3 = Lim
inf
+ (Lim
sup
- Lim
inf
) ( 3/4n C
i-1
)
ni ni

Vediamo come calcolare i quartili attraverso un esempio completo.
K (modalit) ni (frequenze) Ci
10 |- 15 15 15 Classe del Q1 per n/4 = 13
15 |-20 12 27 Classe mediana per n/2 = 26
20 |-23 8 35
23 |-27 9 44 Classe del Q3 per di n = 39
27 |-30 3 47
30 |-37 3 52
Il primo valore uguale o immediatamente
Totale 52 (n) superiore al valore calcolato

In questo esercizio vediamo le classi di reddito (x 1000) dei dipendenti di unazienda. Dobbiamo
descrivere il fenomeno statistico, quindi calcolare media aritmetica, moda e mediana, e calcolare in pi i
quartili. Per effettuare rapidamente i calcoli, evitando di calcolare le frequenze relative, calcoliamo subito le
frequenze assolute cumulate, dalle quali otterremo le classi di riferimento per la mediana e per i quartili.
Per la mediana:
n/2 = 26 Questo ci da il valore di riferimento per individuare la classe mediana. Infatti il primo valore delle
frequenze cumulate assolute che uguale o superiore a 26 ci indica il dato che cerchiamo.

23
Per questo calcolo, quindi, il Limite inf. sar 15 , mentre il nostro Ci-1 sar uguale a 15, ovvero al valore
precedente a quello della classe in cui ricade la mediana stessa. Lampiezza h sar ovviamente 5, cifra che
esce dalla normale sottrazione dei valori massimi e minimi della classe indicata, ovvero 20-15, ed ni la
frequenza assoluta della classe identificata .
Med = 15

+ 5 (26 15) = 15 + 55 = 15+4,583 = 19,583
12 12

Per i quartili usiamo la stessa formula con la differenza che dobbiamo risettare le classi in cui ricadono
questi valori, in modo da ottenere i limiti inferiore della classe ed i valori di Ci-1 da usare.
Per il primo quartile Q1:
n/4 = 13 Questo ci da il valore di riferimento per individuare la classe mediana. Infatti il primo valore delle
frequenze cumulate assolute che uguale o superiore a 13 ci indica il dato che cerchiamo. Come per la
mediana, a questa classe individuata ci si riferisce per i Limiti e per il Ci-1. Quando, come in questo caso,
non esiste nella distribuzione un valore precedente di fi o di Ci, allora lo si considera = 0 .

Q1 = 10

+ 5 (13 0) = 10 + 65 = 10+4,33 = 14,33
15 15

Per il terzo quartile Q3:
di n = 39 Questo ci da il valore di riferimento per individuare la classe mediana. Infatti il primo valore
delle frequenze cumulate assolute che uguale o superiore a 39 ci indica il dato che cerchiamo. Come per
la mediana, a questa classe individuata ci si riferisce per i Limiti e per il Ci-1.

Q3 = 23

+ 4 (39 35) = 23 + 16 = 23+1,77 = 24,77
9 9
Per la moda:
Come sappiamo la moda la modalit che assume la maggior frequenza. Ma in questo caso abbiamo delle
classi, quindi necessitiamo di conoscere la densit delle classi per conoscere quale classe assume la maggior
frequenza. Come sappiamo la densit si calcola dividendo ni per lampiezza della sua classe.
K (modalit) ni (frequenze) di
10 |- 15 15 3 La densit di questa classe la maggiore.
15 |-20 12 2,4
20 |-23 8 2,66
23 |-27 9 2,25
27 |-30 3 1
30 |-37 3 1,4

Totale 52 (n)

La classe che assume la maggiore densit la prima, ovvero 18 |- 15, ma per determinare il valore preciso
della moda dobbiamo prendere il valore centrale della classe ( 10+15/2 = 12,5).
Mo = 12,5

Ora se avessimo, o volessimo calcolare, le frequenze relative e le frequenze relative cumulate, potremmo
usare le formule 1.1 e 1.2 viste sopra. Ma se non abbiamo necessit di calcolare le fi, ci conviene usare
lultimo metodo visto, il quale risulta rapido ed efficace.

24
Indici di variabilit assoluta
I valori medi visti fino ad ora sono utili per la descrizione sintetica di un fenomeno, ma non ci danno alcuna
informazione sulla distribuzione dei dati. Quindi per valutare in modo sintetico la distribuzione dei dati, si
utilizzano gli indici di variabilit (o dispersione) che possono essere sia relativi che assoluti :
Campo di variazione (range)
Scarto medio dalla media
Varianza e scarto quadratico medio
Coefficiente di variazione
La variabilit lattitudine di un fenomeno quantitativo ad assumere differenti modalit.

Il campo di variazione (indice di variabilit assoluta).

Esso il pi semplice degli indici di variazione e rappresenta la differenza tra il dato pi grande e quello pi
piccolo della nostra rilevazione. In effetti rappresenta lampiezza dellintervallo dei dati.

W (o Cv) = X
max
- X
min

Vediamo un esempio sempre con la nostra classe universitaria. Alle 3 prove intercorso di Statistica
abbiamo ottenuto i seguenti voti:

1 prova 2 prova 3 prova
Peppe 26
30 X
max

26
Anna 27 25
30 X
max


Irina
29 X
max
24 X
min
25 X
min


Roxana
25 X
min

28 26
W= 29-25 = 4 W= 30-24 = 6 W= 30-25 = 5
voti
X = 26,75 X = 26,75 X = 26,75


Come notiamo, gli studenti hanno avuto diverse performances ai test, ma la media aritmetica esprime lo
stesso valore, ovvero non abbiamo indicazioni pi accurate su ci che realmente avvenuto durante lanno
accademico. Dal campo di variazione otteniamo gi una prima risposta. Notiamo che il campo di variazione
tra le 3 prove differente ed esprime una maggiore concentrazione nel primo caso ed una maggiore
dispersione negli altri due casi (2 e 3 test). Purtroppo questo indice non robusto perch risente di
eventuali valori anomali.

Devianza o somma dei quadrati degli scarti della media.
( ) ( )

=
=
n
i
i
x x X dev
1
2
; per unit ( ) ( )

=
=
n
i
i i
n x x X dev
1
2
per distribuzioni in frequenza
La devianza semplice, o ponderata, esprime la distanza, lo scostamento, dal valore centrale della media, ed
un indice di dispersione. Esso anche il numeratore della pi usata Varianza.



25
Varianza e Scarto quadratico medio (deviazione standard).
Sono gli indici di variabilit pi utilizzati perch tengono conto di tutti i dati e misurano la dispersione dei
dati intorno alla media. Quanto pi i dati sono dispersi, tanto maggiori saranno questi indici. Nessuna di
queste misure pu essere negativa.
La Varianza , che indichiamo anche con S
2
,rappresenta la media aritmetica dei quadrati delle distanze dalla
media aritmetica.
S
2
=
( )
( )
n
x x
X Var
n
i
i
=

= =
1
2
2


per unit

( )
n
n x x
n
i
i i
=

=
1
2
2
; per distribuzioni in frequenza

Possiamo notare che il numeratore di questo indice di dispersione proprio la devianza.
Oltre alla formula euristica, esiste una formula alternativa e rapida :
2 2 2
x Mq = ovvero la media quadratica della distribuzione elevata al quadrato, meno la media aritmetica al quadrato.

1 prova 2 prova 3 prova
Peppe 26
30 X
max

26
Anna 27 25
30 X
max


Irina
29 X
max
24 X
min
25 X
min


Roxana
25 X
min

28 26
W= 29-25 = 4 W= 30-24 = 6 W= 30-25 = 5
voti
X = 26,75 X = 26,75 X = 26,75

Rivediamo il nostro caso, quindi la distribuzione e la dispersione dei voti tra i 4 studenti della nostra classe.
Abbiamo precedentemente visto che la media aritmetica uguale, ma che vi una dispersione differente
tra le 3 prove evidenziata gi dal Campo di Variazione (o Range). Ora esaminiamo questi dati calcolando la
Varianza.
Usiamo la formula regolare per unit, visto che non abbiamo una distribuzione in frequenze.

Var
(1 prova)
= (26-26.75)
2
+ (27-26.75)
2
+ (29-26.75)
2
+ (25-26.75)
2
= 0.56+0.06+5.06+3.06 = 8.75 = 2.18
4 4 4


Var
(2 prova)
= (30-26.75)
2
+ (25-26.75)
2
+ (24-26.75)
2
+ (28-26.75)
2
= 10.56+3.06+7.56+1.56 = 22.74 = 5.68
4 4 4

Var
(3 prova)
= (26-26.75)
2
+ (30-26.75)
2
+ (25-26.75)
2
+ (26-26.75)
2
= 0.56+10.56+3.06+0.56 = 14.74 = 3.68
4 4 4

Quindi vediamo come la varianza della prima prova pi bassa delle altre, ed indica una minore
dispersione. Infatti le 3 varianze saranno 1 prova = 2.18 / 2 prova = 5.68 / 3 prova = 3.68


26
Per verificare se il risultato corretto, possiamo esercitarci usando la formula semplificata (es. solo 1
valore). La media aritmetica al quadrato ovviamente 26.75
2
= 715.56
La media quadratica al quadrato = ovvero
quindi avremo
26
2
+ 27
2
+ 29
2
+ 25
2
= 676+729+841+625 = 2871 = 717.75
4 4 4

Ora abbiamo i due valori che ci danno la possibilit di usare la formula rapida.

Var
(1 prova)
=
2 2 2
x Mq = = 717.75-715.56 = 2.19 (il valore differisce leggermente x gli arrotondamenti decimali)
Ancora una volta viene confermato il dato di minore dispersione nel gruppo 1, rispetto alle altre due
rilevazioni.

Lo scarto quadratico medio, detto anche Deviazione Standard, indica la dispersione dei dati intorno al
valore atteso, ovvero ci dice quanto siamo lontani dalla media. In pratica esso la radice quadrata della
Varianza, per cui possiamo dire che :

S = S
2
=
( )
n
x x
n
i
i
=

=
1
2
; per unit
( )
n
n x x
i
n
i
i
=

=
1
2
per distribuzioni in frequenza
Vediamo la tabella del nostro esercizio come si modificata.
1 prova 2 prova 3 prova
Peppe 26
30 X
max

26
Anna 27 25
30 X
max


Irina
29 X
max
24 X
min
25 X
min


Roxana
25 X
min

28 26
Campo di
variazione

W= 29-25 = 4

W= 30-24 = 6

W= 30-25 = 5

Varianza S
2
= 2.18 S
2
=5.68 S
2
=3.68
Deviazione
standard

S = 1.47

S = 2.38

S = 1.91

voti
X = 26,75 X = 26,75 X = 26,75


Differenza interquartile.
E la differenza tra terzo e primo quartile, ma sempre un indice grossolano che per risente meno
dellinfluenza di valori anomali.
Q = Q
3
- Q
1





27
Devianza Within e devianza Between (scomposizione della devianza).
La devianza Between indica la devianza tra le medie dei gruppi, o semplicemente la devianza tra i gruppi,
ed uno degli indici che scompongono la devianza totale Dev
(x)
. Per comprendere come si scompone la
devianza e si ottiene, in questo caso, la Dev
(B)
ci conviene rifarci ad un nuovo esempio che ci assister
passo passo nella comprensione delle formule.

Vediamo sempre i voti ottenuti nella nostra classe tra maschi e femmine nellultimo anno.
Voti Maschi (X
1
) Femmine (X
2
) Totale
Marginali di riga (n
j.
)
18 3 1 nj 4 n1.
20 5 3 nj 8 n2.
24 8 8 16 n3.
30 3 9 12 n4.

n
.1
= 19 n
.2
= 21 n
tot
= 40

Marginale di Marginale di

Colonna (n
.j1
) Colonna (n
.j2
)



Per calcolare la devianza abbiamo prima bisogno delle medie aritmetiche parziali per gruppo (per colonna)
e poi di quella totale. Come sappiamo la media aritmetica :
X
tot
= Oxi * ni = 18*4 + 20*8 + 24*16 + 30*12 = 72 + 160 + 384 + 360 = 976 = 24,4
n 40 40 40

Nota. In questo caso abbiamo usato una soluzione veloce . Considerando che abbiamo una tabella a
doppia entrata, sostituiamo il nostro ni singolo con il marginale di riga ottenendo direttamente il
numeratore globale e quindi il risultato complessivo invece dei parziali. In questo caso abbiamo sviluppato
la formula in questo modo :

X
tot
= Oxi * nj dove Xi esprime i valori delle modalit, mentre nj esprime i marginali di riga n1. Etc
n

Ora calcoliamo le medie parziali per categoria. Per i maschi avremo :
X
m
= Ox
1
* ni
1
= 18*3 + 20*5 + 24*8 + 30*3 = 54 + 100 + 192 + 90 = 436 = 22,95
n 19 19 19
Per le femmine avremo :

X
m
= Ox
2
* ni
2
= 18*1 + 20*3 + 24*8 + 30*9 = 18 + 60 + 192 + 270 = 540 = 25,71
n 21 21 21

Ora calcoliamo, come esercitazione, la devianza totale Dev
(x)
=
Dev
(x)
= O(x
i
- x)
2
* n
j.
Dove Xi indica le modalit, X indica la media totale, e n
j.
Indica i marginali di riga.

28
Dev
(x)
= O(x
i
- x)
2
* n
j.
= (18-24,4)
2
* 4 + (20-24,4)
2
* 8 + (24-24,4)
2
* 16 + (30-24,4)
2
* 12 = 697,6

Ora vediamo come si calcola la Devianza between Dev
(B)
:

Dev
(B)
= O(x
j
- x)
2
* n.
j
dove Xj esprime la media parziale per ogni modalit, X la media totale , e n.
j

esprime i marginali di colonna. In una tabella a doppia (o anche pi entrate) entrata come la nostra, la
formula si applica facilmente in questo modo:
Dev
(B)
= O(x
j
- x)
2
* n.
j
= (X
1
-X)
2
* n.
j1
+ (X
2
-X)
2
* n.
j2


Ora applichiamo questa formula al nostro esercizio, ai nostri valori:
Dev
(B)
= = (X
1
-X)
2
* n.
j1
+ (X
2
-X)
2
* n.
j2
= (22,95-24,4)
2
* 19 + (25,71-24,4)
2
* 21 = 75,39

Devianza Within.
La devianza Within indica la devianza dei singoli gruppi, o semplicemente la devianza entro i gruppi, ed
uno degli indici che scompongono la devianza totale Dev
(x)
. La formula :

Dev
(W)
= OO (x
i
- x
j
)
2
*n
ij
dove Xi esprime le varie modalit, Xj esprime la media parziale del gruppo, e
n
ij
esprime i valori delle frequenze assolute del gruppo stesso.

Per meglio comprendere il senso della formula, possiamo scomporla per verificare che in effetti si tratta
delle singole devianze dei vari gruppi presenti in una tabella.
Voti (X
i
) Maschi (X
1
) Femmine (X
2
) Totale
Marginali di riga (n
j.
)
18 3 nj1 1 nj1 nj n1.
20 5 nj2 3 nj2 nj n2.
24 8 nj3 8 nj3 n3.
30 3 nj4 9 nj4 n4.

n
.1
= 19 n
.2
= 21 n
tot
= 40

Marginale di Marginale di

Colonna (n
.j1
) Colonna (n
.j2
)



Dev
(W)
= O(x
i
- x
1
)
2
* n
j(1)
+ O(x
i
x
2
)
2
* n
j(2)
+

Devianza colonna 1 + Devianza colonna 2 + Devianza altre colonne..

Da notare che i due termini della formula sono evidentemente le singole devianze delle due colonne,
ovvero la colonna dei Maschi, e la colonna delle Femmine. I valori nj1 e nj2 sono ovviamente riferiti alle
frequenze assolute della rispettiva colonna, X
i
sono le modalit e X
1
e X
2
sono le medie aritmetiche delle
rispettive colonne, le quali ci fanno chiaramente capire che si tratta di una devianza entro i gruppi, di ogni
singolo gruppo.

29
Relativamente al nostro esercizio, per meglio comprendere il meccanismo della Dev
(W)
, scomponiamo la
stessa tabella in 2 tabelle singole delle quali ci calcoliamo la normale devianza.

Voti (X
i
) Maschi (X
1
) Femmine (X
2
) Totale
Marginali di riga (n
j.
)
18 3 nj1 1 nj1 nj n1.
20 5 nj2 3 nj2 nj n2.
24 8 nj3 8 nj3 n3.
30 3 nj4 9 nj4 n4.

n
.1
= 19 n
.2
= 21 n
tot
= 40

Marginale di Marginale di

Colonna (n
.j1
) Colonna (n
.j2
)


x = 22,95



Dev
(x1)
= O(x
i
- x)
2
* n
j
= (18-22,95)
2
* 3 + (20-22,95)
2
* 5 + (24-22,95)
2
* 8 + (30-22,95)
2
* 3 = 274,9

Voti (X
i
) Maschi (X
1
) Femmine (X
2
) Totale
Marginali di riga (n
j.
)
18 3 nj1 1 nj1 nj n1.
20 5 nj2 3 nj2 nj n2.
24 8 nj3 8 nj3 n3.
30 3 nj4 9 nj4 n4.

n
.1
= 19 n
.2
= 21 n
tot
= 40

Marginale di Marginale di

Colonna (n
.j1
) Colonna (n
.j2
)


x = 22,95 x = 25,71


Dev
(x2)
= O(x
i
- x)
2
* n
j
= (18-25,71)
2
* 1 + (20-25,71)
2
* 3 + (24-25,71)
2
* 8 + (30-25,71)
2
* 9 = 345,76

La formula diventa :
Dev
(W)
= Dev
(x1)
+ Dev
(x2)
+ Dev
(xn)


Per cui nel nostro caso, nel nostro esercizio sar :
Dev
(W)
= 274,9 + 345,76 = 620,66

Ora dimostriamo come funzionerebbe applicando la formula unica (il risultato leggermente differente a causa
degli arrotondamenti).
Dev
(W)
= OO (x
i
- x
j
)
2
* n
ij
= (18-22,95)
2
* 3 + (20-22,95)
2
* 5 + (24-22,95)
2
* 8 + (30-22,95)
2
*3 +
(18-25,71)
2
* 1 + (20-25,71)
2
* 3 + (24-25,71)
2
* 8 + (30-25,71)
2
* 9 = 621,11

Si nota, quindi, che abbiamo semplicemente riunito le due singole devianze in una sola soluzione.

30
Ovviamente :
Dev
(x)
= Dev
(W) +
Dev
(B)
per cui Dev
(W)
= Dev
(x) -
Dev
(B)
e Dev
(B)
= Dev
(x) -
Dev
(W)

Indici di variabilit relativa
Gli indici di variabilit assoluta fino ad ora analizzati (campo di variazione, differenza interquartile, varianza,
devianza, deviazione standard)sono tutti espressi nella stessa unit di misura della modalit X che si
analizza, eccetto la varianza che usa il quadrato dellunit di misura. Questi indici, pur affidabili per
misurare la variabilit di una distribuzione, non possono essere utilizzati se dobbiamo effettuare un
confronto su due distribuzioni o medie con unit di misura differenti. Per superare il problema si ricorre agli
indici di variabilit relativa espressi dal Coefficiente di Variazione e dal Rapporto di
concentrazione. Questi indici sono numeri puri, indipendenti quindi dallunit di misura, e
permettono di confrontare pi distribuzioni.

Coefficiente di variazione.
Questo coefficiente misura la variazione media del fenomeno in rapporto alla media.

CV = S

ovvero la deviazione standard diviso la media aritmetica in valore assoluto.
|X|

Osserviamo le indicazioni che ci rende questo coefficiente attraverso un esempio.


Segretaria A Segretaria B
Tempo medio per finire il
lavoro
25 30
Deviazione standard S 6 4
Un datore di lavoro vuole verificare quale sia la segretaria che lavora meglio al fine di concedere degli
incentivi. Applicando il Cv verifichiamo la percentuale di performance delle due segretarie e decretiamo
qual la migliore.
CV = S

= 6/25 = 0,24 * 100 = 24% per la A , e 4/30 = 0,13 *100 = 13% per la B
|X|
A questo punto ovvio che nonostante il dato del tempo medio potesse suggerire la prima segretaria, la
vera persona affidabile nel lavoro la segretaria B, avendo ottenuto una performance di solo il 13% di
scostamento rispetto ai valori medi attesi.









31 Indici di mutabilit per caratteri qualitativi
La mutabilit lattitudine di un carattere qualitativo ad assumere differenti modalit. Per misurare questa
attitudine abbiamo degli indici che misurano lomogeneit del carattere, e ovviamente al contrario la sua
eterogeneit. Se ad esempio consideriamo il sesso di un team di calcio, essendo tutti dello stesso sesso,
avremo un carattere omogeneo. Ma allinterno del gruppo avremo ragazzi con colori di capelli o occhi
differenti, ovvero avremo una eterogeneit qualitativa per colore di occhi, capelli, altezza, etc.
Leterogeneit un concetto pi generale della mutabilit in quanto si applica anche a una distribuzione
con carattere quantitativo.

Indice di eterogeneit del Gini.
Questo indice si annulla (pari a 0) quando il collettivo omogeneo, e viceversa cresce quando cresce
leterogeneit, fino a diventare massimo quando le frequenze assolute si ripartiscono in modo uniforme tra
le modalit (K-1/K).
Indice del Gini

=
|

\
|
=
k
i
i
n
n
IE
1
2
1 ovvero IE = 1 - O f
i
2

Come detto prima, questo indice varia tra IE = 0 e IE
MAX
= dove k il numero delle modalit.

Ovviamente per confrontare diverse distribuzioni abbiamo bisogno di un indice normalizzato compreso
tra 0 e 1. Per questo motivo usiamo rapportare lindice proprio al suo massimo. Quindi avremo :

Indice del Gini normalizzato
k
k
IE
IE
k
1
=
Vediamo un esempio:
Modalit K :
Colore occhi
ni fi fi
2
Castani 40 0,4 0,16
Azzurri 40 0,4 0,16
Verdi 20 0,2 0,04
n = 100 Tot =0,36

IE = 1 - O f
i
2
= 1 0,36 = 0,64

Modalit K :
Colore capelli
ni fi fi
2
Castani 40 0,4 0,16
Biondi 10 0,1 0,01
Neri 30 0,3 0,09
Rossi 20 0,2 0,04
n = 100 Tot =0,3

32
IE = 1 - O f
i
2
= 1 0,3 = 0,7
Abbiamo calcolato singolarmente lindice di eterogeneit di questi due gruppi, e ad una lettura singola,
disgiunta, vi una chiara eterogeneit delle modalit. Facendo un primo confronto ci verrebbe da
osservare che il carattere Colore dei capelli pi eterogeneo. Ma per confrontare realmente le due tabelle
dobbiamo usare lindice normalizzato. Quindi avremo :

IE
n
occhi = 0,64 / 0,6666 = 0,96 e IE
n
capelli = 0,7 / 0,75 = 0,93

(0,6666 esce da K-1/k ovvero da 3-1/3 e lo stesso dicasi per laltra tabella con 4-1/4)
Dal primo superficiale confronto sembrava che fosse pi eterogenea la distribuzione dei capelli, mentre
normalizzando lindice abbiamo chiaramente il risultato ribaltato.































33 Rappresentazioni grafiche (per variabili qualitative e quantitative)
Per rappresentare i fenomeni statisti si utilizzano tabelle e anche grafici, i quali hanno la caratteristica
dellimmediata leggibilit, sono flessibili e presentano i risultati in maniera comprensibile anche ai non
specialisti del settore. Ovviamente il grafico presenta una maggiore semplificazione ed meno esaustivo
rispetto allanalisi tabellare, per cui le due componenti vanno utilizzate in maniera complementare.

Tipi di grafico per variabili qualitative
Ortogramma.

Detto anche Bar Chart , quindi grafico/diagramma a barre, permette di rappresentare mutabili statistiche
rettilinee e sconnesse e pu essere di tipo a nastro o a colonne.
Data una tabella di dati avremo il nostro diagramma a barre (a colonne, detto istogramma) cos eseguito:
Modalit (M)
Voti al test
ni
18 4
22 3
24 6
27 3
30 10
n = 26



Come vediamo con questo grafico laltezza delle colonne rappresenta la frequenza delle diverse modalit,
in questo caso i voti ottenuti durante il test scritto di statistica. Come si legge anche in tabella, possiamo
notare nel grafico che gli studenti che hanno ottenuto il 30 sono 10, ovvero per la modalit VOTO 30 ,
abbiamo una frequenza (ni) uguale a 10. Attraverso il grafico risulta quindi immediatamente comprensibile
la differenza che vi tra i vari studenti, dieci dei quali hanno avuto il risultato massimo. Questo grafico pu
essere ribaltato dando vita alla tipologia a nastro, ovvero le modalit vanno sulle ordinate e le frequenze
sullasse delle ascisse. Vediamo.

0
2
4
6
8
10
12
18 22 24 27 30
Voti al test di statistica (M)
ni
Ordinate
Ascisse

34


Gli orto grammi risultano particolarmente utili anche per confrontare due o pi distribuzioni. Basta
affiancare i nastri o le colonne per ottenere il confronto.

Diagrammi circolari.
Sono rappresentazioni grafiche di mutabili statistiche sconnesse e rettiliee attraverso spicchi che
compongono una circonferenza. Questi settori circolari hanno angoli uguali o proporzionali alle frequenze
assolute o relative e alle quantit. Quindi per poter tracciare questo tipo di grafico, bisogna ottenere
lampiezza in gradi dellangolo formato dallo spicchio che va tracciato nel grafico stesso. Vediamo.
Modalit (M)
Voti al test
ni
18 4
22 3
24 6
27 3
30 10
n = 26


Come si vede la rappresentazione di questo grafico detto anche a torta ugualmente semplice ed
intuitiva, ma per chi lo redige c laggravante di dover calcolare langolo dello spicchio in questo modo:

0 2 4 6 8 10 12
18
22
24
27
30
Voti al test di statistica
ni
Voti al test di statistica
18
22
24
27
30
Ascisse
Ordinate

35
Modalit (M)
Voti al test
ni fi
i
18 4 0,153 55,08
22 3 0,115 41,4
24 6 0,230 82,8
27 3 0,115 41,4
30 10 0,384 138,24
n = 26 Circa 1 Circa 360

Ovvero per calcolare langolo usiamo la seguente formula: i = 360 * fi
Ovviamente come le frequenze relative valgono al massimo 1, anche langolo totale del grafico a torta pu
valere al massimo 360.



Tipi di grafico per variabili quantitative
Listogramma, ma per distribuzione in classi, particolarmente usato per le variabili quantitative. Sulle
ascisse avremo lampiezza della classe considerata, e sullordinata avremo la frequenza assoluta in caso di
classi con la stessa ampiezza, o la densit di frequenza in caso di classi con ampiezze diverse. Vediamo gli
esempi :

Modalit (M)

ni
20 |- 40 10
40 |- 60 25
60 |- 80 45

Con classi di ampiezza uguale.

20 40 60 80



Con classi di ampiezza differente.
d
i =
n
i / hi

10 40 60 100



Modalit (M)

n
i
d
i

10 |- 40 10 0,33
40 |- 60 25 1,25
60 |- 100 45 1,125
n = 80
Vci

36
Il diagramma di dispersione si utilizza nel caso di distribuzioni doppie con due variabili quantitative
X e Y per unit, quindi per coppie di valori che vanno ad
essere rappresentate nel piano cartesiano dando luogo
ad una nube di punti. Con questa tecnica si possono
analizzare grandi quantit di dati e individuare relazioni,
variabilit, strutture geometriche e valori anomali
semplicemente osservando la forma della nube di punti.
Ad esempio nellimmagine a sinistra vediamo che la
distribuzione dei dati indica una chiara relazione lineare
tra le due variabili X e Y, messa in evidenza dalla linea
arancio messa a riferimento per evidenziare landamento
lineare della distribuzione.





Il BOX PLOT (diagramma a scatola e baffi).

Il box plot un particolare tipo di grafico che consente di presentare i dati individuando sia il valore
centrale, sia la dispersione del collettivo a livello statistico. Quindi il box plot consente la visualizzazione
dei valori caratteristici del gruppo di dati osservato, ovvero utilizzato per descrivere la distribuzione del
campione secondo gli indici di dispersione e posizione. Per la sua costruzione si utilizzano :
X
min
Q
1
M
ed
Q
3
X
max


Lim
inf
il 50 % della distribuzione Lim
sup



X
min
Q
1
M
ed
Q
3
X
max

Allinterno del rettangolo sono contenute il 50% delle osservazioni perch i suoi margini sono i quartili Q1 e
Q3, quindi il 25% ed il 75% della distribuzione stesso, per cui 75-25 = 50 % della distribuzione. La linea
interna alla scatola rappresenta la Mediana, ed i segmenti esterni contengono ancora una volta il 25 %
cadauno della distribuzione. Va per notato che questi baffi esterni non devono contenere dati anomali.
Per questo motiv o, per costruire il grafico, dobbiamo prima di tutto escludere questi eventuali valori
anomali nella distribuzione, i quali altererebbero la rappresentazione grafica. Calcoliamo quindi il limite
inferiore e quello superiore con le seguenti formule:

Lim
inf
= Q1 1,5 (Q3 Q1) che va al posto di Xmin se questo < del Lim
inf


Lim
sup
= Q3 + 1,5 (Q3 Q1) che va al posto di Xmax se questo > del Lim
sup


In poche parole, per eliminare i valori anomali dal grafico si utilizzano i limiti inferiore e superiore qualora
non coincidano o siano entro il range del calcolo effettuato.
Vediamo un semplicissimo esempio :

37
Abbiamo i seguenti dati di una distribuzione :
X
min
= 2 Q
1
= 6 M
ed
= 8 Q
3
= 12 X
max
= 33

Applichiamo le formule per calcolare il limite inferiore e quello superiore e valutare se vi sono valori
anomali da eliminare nella composizione del grafico.
Lim
inf
= Q1 1,5 (Q3 Q1) = 6 1,5 * (12 6) = 6 1,5 * 6 = 6 9 = -3
quindi Lim inf < di Xmin, per cui prendiamo Xmin

Lim
sup
= Q3 + 1,5 (Q3 Q1) = 12 + 1,5 * (12 6) = 12 + 1,5 * 6 = 12 + 9 = 21
quindi Lim sup < di Xmax, per cui prendiamo Lim sup





Indici di forma (asimmetria e curtosi)
Oltre a sintetizzare una distribuzione grazie a indici di posizione e di variabilit, possibile utilizzare anche
una terza propriet, ovvero la forma. Questa propriet ci dice come i dati sono distribuiti, quindi sono indici
descrittivi che mettono in evidenza ulteriori aspetti della variabilit di un fenomeno, ovvero lasimmetria o
la curtosi.
Una distribuzione simmetrica se le modalit sono equidistanti dalla mediana. Se la distribuzione
simmetrica, la mediana, la media e la moda coincidono, e la mediana viene definita centro di simmetria.

Modalit (M)

ni
1 8
2 12
3 10
4 12
5 8
Distribuzione simmetrica (8-8 , 12-12 con mediana 10)


Mediana

38
Una distribuzione asimmetrica se le modalit non sono equidistanti dalla mediana.
Siccome la mediana, che abbiamo detto essere il centro di simmetria, un valore interno alla moda e alla
media, possono esservi 2 tipi di asimmetria: positiva e negativa.

Asimmetria positiva:
Vi asimmetria positiva se Mod < Med < X



In questo caso vi un maggior addensamento dei dati osservati in corrispondenza dei valori bassi, quindi il
ramo destro della curva pi allungato del sinistro.

Asimmetria negativa:
Vi asimmetria negativa se X < Med < Mod



In questo caso vi un maggior addensamento dei dati osservati in corrispondenza dei valori alti, quindi il
ramo sinistro della curva pi allungato del destro.

Indici di asimmetria.

Esistono diverse misure dellasimmetria, tra cui abbiamo:

Indice di asimmetria : Med Q Q AS 2 3
1 1
+ =

39
Dove abbiamo asimmetria positiva per AS1 > 0 , e asimmetria negativa per AS1 < 0 , con la precisazione
che la prima condizione , cio AS1 = 0 solo necessaria ma non sufficiente per avere una condizione di
simmetria.
Questo indice pu essere anchesso relativizzato :

Indice di asimmetria relativo :
1 3
1
1
2 3
Q Q
Med Q Q
AS
N

+
= oppure AS
1
/ Q3 Q1
Questo un indice normalizzato che varia tra -1 e +1 e serve per avere un termine di paragone.
Ovviamente avremo una asimmetria negativa per valori da -1 a 0 , e una asimmetria positiva tra 0 e +1 .

Un altro indice significativo lo Skewness del Pearson :

0
M M
=

Che esprime il grado di simmetria di una distribuzione unimodale come differenza tra media aritmetica, in
questo caso vista come centro di gravit dei dati, e la moda tutto diviso per la deviazione standard.
Questo indice, in generale, esprime una asimmetria positiva se y > 0 (con X > Mod) e una asimmetria
negativa se y < 0 (con X < Mod). Purtroppo un indice non normalizzato ed applicabile solo a distribuzioni
unimodali, ed inoltre per y = 0 la distribuzione potrebbe comunque non essere simmetrica.

























40 Statistica bivariata (con 2 variabili)
In questo caso si esaminano 2 variabili per comprendere la dipendenza o lindipendenza tra le due, oppure
lindipendenza e linterdipendenza sempre tra queste due variabili. Ovviamente, come suggerisce il
termine, quando c dipendenza vi una variabile che subisce linfluenza dellaltra. E sufficiente pensare al
pagamento di un pedaggio autostradale che sempre relativo al chilometraggio percorso. Quindi la
variabile pagamento dipendente dalla variabile chilometri. Nellaltro caso avremo delle variabili
interdipendenti, ovvero quando una variabile influenza laltra. E sufficiente pensare ad unautovettura che
subisce una forte influenza sul prezzo dacquisto in base alla cilindrata del motore. Ovviamente unauto con
motore da 2000 cc sar pi costosa di una con motore di 1000 cc. In questo caso piuttosto evidente che la
variabile dipendente prezzo dipende dalla variabile indipendente cilindrata del motore. Per tanto in
questi casi avremo una variabile dipendente che connesa e dipende dalla variabile indipendente.

Connessione o associazione.
Avendo una distribuzione doppia potremmo essere interessati a verificare che grado di connessione vi tra
le due variabili. Per far ci necessitiamo degli indici di connessione, i quali assumono valore minimo in caso
di connessione nulla (solitamente zero), o valore massimo in caso di dipendenza perfetta.








Per comprendere se c dipendenza statistica della variabile Y nei confronti della X dobbiamo calcolare le
frequenze teoriche.
Questo perch se vi indipendenza statistica avremo che
n
n n
n
j i
ij


= ovvero n
ij
= n
*
ij
Ovviamente se non vi indipendenza, quindi vi dipendenza, avremo che n
ij
= n
*
ij
Dove n
*
ij
indica la frequenza teorica. Vediamo un esempio con la tabella che abbiamo sopra:
Per calcolare le frequenze teoriche moltiplichiamo ogni marginale di colonna per i marginali di riga e
dividiamo per n, ovvero per la somma delle frequenze, ottenendo una nuova tabella :





Per meglio comprendere sufficiente guardare le frecce nelle tabelle. La nera indica i termini che sono stati
moltiplicati nel primo gruppo, e la rossa indica i termini moltiplicati del secondo gruppo. Come si nota il
primo marginale di colonna stato moltiplicato per i due marginali di riga (frecce nere) e poi diviso per n.
Tabella a doppia
entrata
(Y) Valori
nij
(Y) Valori
nij
Marginale di riga
(nj.)
(X)
5 8
13

(X)

4

3

7

Marginale di
colonna (n.j)
9 11
N = 20
Spiegazione
n
*
ij
n
*
ij

Spiegazione
9 * 13 / 20 5,85 7,15 11 * 13 / 20
9 * 7 / 20 3,15 3,85 11 * 7 / 20


41
Dopo abbiamo proseguito moltiplicando laltro marginale di colonna sempre per i marginali di riga (frecce
rosse) e dividendo per n. Questa sequenza ci permette di calcolare la frequenza teorica dei termini in
tabella. Confrontando queste frequenze teoriche con le nostre frequenze assolute nij (cio i termini della
tabella) possiamo verificare se c o meno indipendenza statistica.
Come vediamo 5 = 5,85 e 4 = 3,15 e 8 = 7,15 e 3 = 3,85 quindi non c indipendenza statistica.
Per misurare la dipendenza statistica tra queste variabili abbiamo bisogno prima di ottenere i valori di
Contingenza, ovvero la differenza tra le frequenze osservate e quelle teoriche:

C
ij
= n
ij
- n
*
ij


Per cui continuiamo il nostro esempio con la tabella sopra, avendo :





Come si nota la somma delle contingenze di ciascuna riga e colonna sempre uguale a Zero.

Il Chi-quadro

Un importante indice assoluto di connessione il chi-quadro di Pearson, detto anche indice quadratico di
contigenza.

= oo (n
ij
- n
*
ij
)
2
se = 0 le variabili sono indipendenti
n
*
ij
(attenzione si intende la sommatoria di ogni contingenza fratto la propria frequenza teorica)


Questo indice si annulla nel caso di assenza di connessione, cio quando le variabili sono perfettamente
indipendenti, e diviene positivo nel caso in cui vi dipendenza tra le variabili, assumendo valori tanto pi
grandi quanto pi le frequenze osservate si discostano da quelle teoriche.
Continuiamo con la nostra tabella calcolando il quadrato delle contingenze, che sono poi parte del
numeratore del chi-quadro:




Ora dobbiamo calcolare le contingenze diviso le proprie frequenze teoriche e rifare la tabella:




Spiegazione
C
ij
C
ij

Spiegazione Somma delle
contingenze
5 5,85 -0,85 0,85 8 7,15 0
4 3,15 0,85 -0,85 3 3,85 0
Somma delle
contingenze
0 0
Spiegazione
(n
ij
- n
*
ij
)
2
(n
ij
- n
*
ij
)
2

Spiegazione
-0,85
2
0,72 0,72 0,85
2

0,85
2
0,72 0,72 -0,85
2

Spiegazione
(n
ij
- n
*
ij
)
2
(n
ij
- n
*
ij
)
2

Spiegazione
0,72 / 5,85 0,12 0,10 0,72 / 7,15
0,72 / 3,15

0,22 0,18 0,72 / 3,85

42
A questo punto, come si legge dalla formula, necessario sommare tutti i termini per avere il risultato, per
cui in questo esercizio avremo che:
= 0,12 + 0,22 + 0,10 + 0,18 = 0,62
Quindi in questo caso le due variabili sono interdipendenti perch il valore diverso da 0.
Il chi- quadro oscilla, come detto, tra 0 per variabili indipendenti fino ad un valore massimo che indica la
massima dipendenza delle variabili in campo. Questo valore massimo cos esprimibile :

max = n * min [ (r -1) (c -1) ]

dove r e c indicano il numero di righe e colonne presenti nella tabella.
Nel nostro caso avremo che :
max = 20 * min [ (2 -1) (2 -1) ] = 20 * min [ 1 1 ] = 20 * 1 = 20

Il chi-quadro influenzato, quindi, da n e se raddoppiamo la numerosit, il suo valore raddoppia. Per
ovviare a questo problema, Pearson ha proposto un ulteriore indice di associazione (o connessione)
chiamato Indice di contingenza quadratica media (fi al quadrato).



Questo indice oscilla tra 0 in caso di indipendenza, fino ad un massimo cos esprimibile :

max = min [ (r -1) (c -1) ]

Quindi il chi-quadro e lindice di contingenza quadratica media sono indici assoluti.

Per avere degli indici relativi dobbiamo rivolgerci a Cramer.
LIndice medio di contingenza di Cramer :



Che varia tra 0 e 1 , con zero per connessione nulla (indipendenza), e uno per una perfetta dipendenza.
Unaltra misura normalizzata il Coefficiente di associazione di Tschuprow :


n
2
2

=

43
Che varia tra 0 e 1 , con zero per connessione nulla (indipendenza), e uno solo in caso di perfetta
dipendenza bilaterale. Questo indice va calcolato solo se le righe e le colonne della nostra tabella sono di
numero differente, altrimenti esso viene a coincidere con il .
Infatti se r = c allora T = .

Rapporto di correlazione
Nel momento in cui abbiamo una tabella con una distribuzione doppia, come abbiamo visto possiamo
calcolare il rapporto che intercorre tra le due variabili presenti, ovvero X e Y. In precedenza abbiamo visto
come si calcola la connessione (o associazione) attraverso il (Chi quadro). Ma per possiamo anche
calcolare anche quanto Y dipenda in media da X , ovvero la correlazione che abbiamo tra le due variabili.
La differenza importante che il Rapporto di Correlazione pu essere calcolato solo per Y quantitative,
cio la variabile Y deve essere esclusivamente quantitativa.

X quantitativa o qualitativa

Y Tabella a doppia
Solo quantitativa entrata





Quindi calcoliamo la Devianza between di X e la Devianza totale (di Y) ed otteniamo questo indice che vale:
varia tra 0 e 1. Se lndice 0 allora vi indipendenza tra le variabili, mentre se vale 1 vi massima
dipendenza in media.

Per capire questo indice sufficiente pensare a due variabili collegate come Pedaggio autostradale e
chilometraggio percorso. E chiaro che il pedaggio autostradale (Y) dipende in media dai chilometri che un
automobilista percorre sullautostrada prima di uscire al casello.
Ora vediamo con un esempio come si calcola, e notiamo un punto molto importante, cio che la tabella
viene presentata con i dati solitamente ruotati rispetto a ci che ci serve per eseguire agevolmente i
calcoli.



44




Dopo una rilevazione si considera una distribuzione doppia tra reddito (Y) e titolo di studio (X) di 50
impiegati di unazienda. Verifichiamo se esiste una dipendenza in media tra il reddito ed il titolo di studio.

Prima di tutto notiamo che la tabella, come detto precedentemente, va ruotata per portare la variabile
dipendente e quantitativa Y sul lato sinistro della nostra distribuzione, portando la variabile qualitativa X in
alto come frequenza con la quale si presenta la nostra variabile Y.








Abbiamo correttamente posizionato le nostre variabili e le relative distribuzioni, quindi possiamo iniziare a
calcolare la correlazione ricavando gli indici necessari, ovvero Dev (B) e Dev(tot). Per calcolare questi indici
abbiamo prima bisogno delle medie aritmetiche parziali e di quella totale.
Medie parziali. Calcoliamo prima il Vci perch stiamo osservando delle classi.
Per i diplomati avremo :
X
D
= OVci * ni
d
= 13*4 + 21*6 + 31*5 + 43*0 = 52 + 126 + 155 + 43 = 23,5
ni
d
16 16
X
L
= OVci * ni
L
= 0 + 42 + 248 + 86 = 31,3
ni
L
12
X
A
= OVci * ni
A
= 208 + 84 + 62 = 16,1
ni
A
22

X
Tot
= X
D
* n
d
+ X
L
* n
L
+ X
A
* n
A
= 23,5*16 + 31,3*12 + 16,1*22 = 22,11
n 50

Ora che abbiamo i valori delle medie possiamo calcolare le devianze.
Dev
(B)
= O(x
j
- x)
2
* n.
j
= (X
D
-X)
2
* n.
jD
+ (X
L
-X)
2
* n.
jL
+ (X
A
-X)
2
* n.
jA


Dev
(B)
= (23,5-22,11)
2
*16 + (31,3-22,11)
2
*12 + (16,1-22,11)
2
*22
Titolo di
studio
10-16 17-25 26-36 37-49 Totale Reddito
Variabile X Y Y Y Y
Diploma 4 6 5 1 16
Laurea 0 2 8 2 12
Altro 16 4 2 0 22
Inversione
della tabella
Diploma Laurea Altro nj. Vci
10-16 4 0 16 20 13
17-25 6 2 4 12 21
26-36 5 8 2 15 31
37-49 1 2 0 3 43

ni
d
ni
L
ni
A


Totale 16 12 22 n=50 n.j

45
Dev
(B)
=30,91 + 1013,47 + 794,64 = 1839,02

Ora calcoliamo la Devianza totale.
Dev
(Y)
= O(x
i
- x)
2
* n
j
. = (13-22,11)
2
*20 + (21-22,11)
2
*12 + (31-22,11)
2
*15 + (43-22,11)
2
*3

Dev
(Y)
= 1659,84 + 14,78 + 1185,48 + 1309,17 = 4169,27
Ora abbiamo i dati che ci servono per calcolare lindice

= Dev
(B)
= 1839,02 = 0,44
Dev
(Y)
4169,27

Questo risultato indica una DIPENDENZA IN MEDIA tra le due variabili titolo di studio-reddito di valore
medio, essendo lindice variabile tra 0 e 1 dove 1 esprime la massima dipendenza.


Correlazione e Regressione
Due o pi variabili hanno un legame o una relazione se le variazioni delluna sono legate, in qualche modo,
alle variazioni dellaltra. Avremo, quindi una variabile di risposta (Y) che dipende pi o meno direttamente
dallaltra variabile(X), ovvero la variabile esplicativa o indipendente. Pensiamo ad esempio al caso del
pedaggio autostradale (Y) che dipende dal chilometraggio percorso in autostrada (X). Al variare dei
chilometri percorsi, ovvero della variabile indipendente, la variabile di risposta (detta anche dipendente) Y
varier anchessa pi o meno proporzionalmente. In questo comune caso, sappiamo che pi chilometri
percorreremo in autostrada, pi pagheremo di pedaggio uscendo dallautostrada. Attraverso lanalisi della
regressione lineare riusciamo a stabilire un modello matematico in grado di prevedere i valori e le modalit
della variabile dipendente. In effetti attraverso una retta, detta retta di regressione, cerchiamo di spiegare
la variazione tra le due variabili attraverso una relazione di tipo di lineare e possiamo identificare
linterdipendenza delle stesse attraverso il Coefficiente di correlazione lineare r , mentre per verificare la
forza di questa relazione dobbiamo usare un altro indice che si chiama Coefficiente di determinazione
lineare R
2
. Una volta ottenuti delle coppie di dati
statistici Xi e Yi , possiamo tracciare un grafico di
dispersione dal quale partiremo per capire se vi una
relazione lineare tra i dati e tracciare una retta ideale
che tenti di spiegare il pi possibile le variazioni tra le
due variabili, ovvero che meglio si adatta ai dati che
possediamo. Siccome tra i punti reali che abbiamo
nella nostra rilevazione statistica e il punto ideale che
calcoliamo con la retta vi una differenza, questa il
nostro errore e, un residuo. Ora attraverso il metodo
dei minimi quadrati riusciamo a trovare la retta che
meglio si adatta a tutti i punti presenti nella nostra
distribuzione.

46
Ovviamente abbiamo detto che Y funzione di X , quindi attraverso una serie di dimostrazioni matematiche
sulla retta ideale che giace sul piano cartesiano avremo che :

Y = b
0
+ b
1
* X
i


Dove bo l INTERCETTA , ovvero il punto in cui la retta intercetta lasse delle Y , e b1 il nostro
coefficiente angolare detto anche COEFFICIENTE DI REGRESSIONE, il quale indica la pendenza della retta.
Ovviamente se b
1
minore di 0 allora la retta
sar discordante e pender negativamente
verso lasse X, ovvero allaumentare della
variabile indipendente X, la variabile
dipendente (o di risposta) diminuisce.
Se b
1
maggiore di 0 allora la retta sar
normale, ovvero concordante, ad indicare che
allaumentare della X anche la variabile
dipendente Y aumenter.
Quindi avremo :
b
1
< 0 b
1
> 0
aumenta X dim Y aumenta X aumenta Y
discordante concordante

Come abbiamo visto dalla formula della retta di regressione, che ci consente di calcolare ogni singolo punto
della retta ideale, variando i valori Xi delle nostre osservazioni, abbiamo bisogno di calcolare prima i valori
del coefficiente angolare e dellintercetta per poter comporre la nostra retta lineare.

b
1
= ovvero la Codevianza di X
ovvero la Devianza di X

da notare che se ponessimo n sotto la codevianza e la devianza (cio sia al numeratore che al
denominatore) potremmo calcolare lo stesso coefficiente ma in termini di varianza. Infatti la Varianza non
altro che la devianza diviso n, e analogamente la covarianza non altro che la codevianza diviso n.
Per velocizzare i calcoli possiamo usare le due formule ridotte per calcolare sia la Cod (x) che la Dev (x) :

Cod(x) = e Dev(x) =

Ora ci serve di conoscere il punto in cui la retta intercetta lasse delle y, quindi :

b
0
=

ora abbiamo tutti gli elementi per calcolare i vari punti della nostra retta di regressione.
Vediamo alcuni esempi per meglio comprendere il meccanismo.

47
Un tecnico di collaudo rileva dei dati sul consumo in 5 marcia di una nuova vettura commerciale. Si calcoli
la retta di regressione, il coefficiente di correlazione lineare ed il coefficiente di determinazione lineare.








Ovviamente sappiamo che = b
0
+ b
1
* X
i
quindi dobbiamo iniziare a calcolare gli lintercetta ed il
coefficiente angolare. Per fare ci abbiamo bisogno di calcolare velocemente 3 parametri importanti,
ovvero le medie aritmetiche di Y, X e direttamente i valori di Xi * Yi per avere subito a disposizione la loro
sommatoria. Quindi la prima cosa da fare allargare la tabella data con una colonna in pi dove calcolare la
sommatoria delle osservazioni delle due variabili.








Ora calcoliamo le medie, notando che le osservazioni sono 5, cio n= 5 perch i differenti valori sono stati
osservati 5 volte sia per la X che per la Y, trattandosi di una tabella che considera le rilevazioni combinate
della variabile dipendente e di quella indipendente :
X = o Xi / n essendo una distribuzione semplice = 490/5 = 98
Y = o Yi / n una distribuzione semplice = 107,4/5 = 21,48
Ora dobbiamo calcolare la Cod(x) e la Dev(x) per poter ricavare b1, ovvero il coeff.angolare e capire se la
retta concordante o discordante.

Cod(x) = = 9954 5* 2105,04 = 9954 10525,2 = -571,2
Dev(x) = calcoliamo con i minimi quadrati = (60-98)
2
+ (80-98)
2
+ (100-98)
2
+ (120-98)
2
+ (130-98)
2
= 3280
Ora possiamo calcolare il nostro b1 :
b1 = Cod(x) / Dev(x) = -571,2/3280 = -0.17

Ora ci serve il punto in cui la retta interseca lasse delle y, quindi calcoliamo lIntercetta b0 :
b0 = = 21,48 - -0,17*98 = 21,48 + 16,66 = 38,14
ATTENZIONE!!!! Notare il problema dei segni. Essendo b1 negativo, il valore risultante positivo.
In questo momento abbiamo tutti i dati per poter calcolare i punti teorici della nostra retta di regressione,
ovvero = b
0
+ b
1
* X
i
sostituendo i valori di Xi al fine di ottenere i valori rispondenti alle 5
osservazioni. Costruiamo quindi una ulteriore tabella :
(Xi) Velocit (Yi) Consumo
60 28,8
80 24,2
100 20
120 18,2
130 16,2

(Xi) Velocit (Yi) Consumo
Xi * Yi
60 28,8 1728
80 24,2 1936
100 20 2000
120 18,2 2184
130 16,2 2106
Tot = 490 Tot = 107,4 Tot= 9954

48






Cosa abbiamo capito da questa analisi ? Il coefficiente angolare, o di regressione, ci indica la variazione
che subisce Y al variare di X, ovvero in questo caso notiamo che per ogni aumento di velocit di 1 Km/h, il
consumo in 5 marcia si riduce di 0,17 Km/l (nella tabella dei punti ideali qui sopra, se moltiplichiamo a,17 x
20, ovvero la differenza di velocit che abbiamo tra un dato e laltro, otteniamo proprio 3,4, ovvero la
differenza tra 27,94 e 24,54). Tra laltro un risultato coerente anche per logica, visto che tutti sanno che
unautovettura consuma meno quando viaggia con il massimo rapporto del cambio, lanciata
probabilmente su una strada rettilinea che ne consente un viaggio senza accelerazioni e decelerazioni
riducendo lo sforzo che il motore compie per generare e mantenere la velocit di crociera. Questo piccolo
esercizio, coerente con la realt delle cose, ci ha dato statisticamente conferma che unauto consuma meno
se aumenta la velocit costante in 5 marcia, ad esempio in autostrada.

Analisi dellinterdipendenza (coefficiente di correlazione lineare r)
Tornando ai nostri indici, abbiamo detto che possiamo calcolare il Coefficiente di correlazione
lineare che esprime il grado di concordanza e discordanza tra le due variabili, indicando quindi la
correlazione e linterdipendenza tra esse.
Questo indice varia tra 1 e + 1 , e come detto per il coefficiente angolare, se vi concordanza, ovvero
correlazione positiva, allora X e Y aumentano e variano nello stesso senso. Se vi discordanza allora X
aumenta e Y diminuisce, quindi variano in senso opposto. In caso di correlazione nulla allora vi condizione
di indifferenza della variabile Y, ovvero al variare di X, Y non varia.


( )
( ) ( ) Y Dev X Dev
Y X Cod
r
,
=

Per ottenere questo indice abbiamo bisogno anche della devianza della variabile Y. Tornando allesercizio di
prima passiamo a calcolare la Dev(y) e poi vediamo cosa ci indica il coefficiente di correlazione lineare.

Dev(y) = = 2408,76 5 * 461,4 = 101,76


Quindi avendo ora i dati necessari calcoliamo r (secondo la formula sopra) che sar = -0,98
Questo risultato ci dice che vi praticamente una perfetta concordanza e relazione lineare tra le due
variabili.


b
0
+ b
1
* X
i


38,14-0,17* 60 27,94
38,14-0,17* 80 24,54
38,14-0,17* 100 21,14
38,14-0,17* 120 17,74
38,14-0,17* 130 16,04


49
Grado di adattamento
Una volta calcolata la retta di regressione bisogna determinare il grado di adattamento, la forza, che esiste
tra i valori osservati Yi e i valori teorici . Ci perch se la dispersione elevata, non possiamo fare
previsioni attendibili in base alla retta di regressione. Infatti attraverso questo indice sappiamo che
percentuale di dati riusciamo a spiegare. Questo indice, come intuibile, si calcola attraverso la devianza,
una devianza totale che si scompone in due parti, ovvero nella Devianza di Regressione e nella Devianza
Residua.
La Devianza di Regressione la porzione di variabilit dei dati che io riesco a spiegare, infatti questa
devianza viene anche definita devianza spiegata, mentre la Devianza Residua la porzione di variabilit
che non riesco a spiegare con il modello teorico creato con la retta di regressione.
La Dev(y) sappiamo essere :

Dev(y) = o (Yi Y)
2

che pu essere scomposta in o (Yi )
2

+ o ( Y)
2


Ovvero nelle due devianze Dev (res) + Dev (reg)

La forza, quindi, della relazione tra la variabile indipendente X, e quella dipendente Y, data ovviamente
dal rapporto che nasce tra ci che riesco a spiegare (Devianza di regressione) e la devianza totale.

( )
( ) tot Dev
reg Dev
R =
2
da notare che la Dev(tot) coincide con la Dev(y)

Ma pu anche essere semplicemente (non per tutti i casi per) definito come:


2 2
r r r R = =

Con R
2
che varia tra 0 e 1. Avremo che se = 0 la variabile Y non pu essere spiegata dalla conoscenza della
X. Se invece = 1 potremo spiegare interamente la variabile dipendente Y grazie alla variabilit di quella
indipendente X. Ecco perch da questo indice traiamo la forza di questa relazione. Il limite minimo (0) ci
dice che non possiamo spiegare nulla, mentre il limite massimo (1) ci dice che la relazione pu essere
perfettamente spiegata.

Tornando allesempio di prima, avevamo calcolato i seguenti valori teorici e la Dev(y) = 101,76






Quindi dobbiamo calcolare la Dev(reg):
o ( Y)
2

= (28,8 21,48)
2
+ (24,2 21,48)
2
+ (20 21,48)
2
+ (18,2 21,48)
2
+ (16,2 21,48)
2

= 53,58 + 7,39 + 2,19 + 10,75 + 27,87 = 101,78
Per cui applicando la formula di R abbiamo:
b
0
+ b
1
* X
i


38,14-0,17* 60 27,94
38,14-0,17* 80 24,54
38,14-0,17* 100 21,14
38,14-0,17* 120 17,74
38,14-0,17* 130 16,04


50
( )
( ) tot Dev
reg Dev
R =
2
= 101,78 / 101,76 = 1
Ovvero abbiamo una perfetta corrispondenza della variabilit di Y in relazione alla variabile X. Questo ci
stato confermato, a meno di un piccolissimo scarto, anche dal coefficiente di correlazione lineare
precedentemente calcolato. In ogni caso lindice = 1 significa che riesco a spiegare il 100% della variabilit
di Y attraverso il modello lineare costruito sulla X.





































51
Indice
Pag. 1 - 4 - Le variabili statistiche.
Variabili quantitative e qualitative.
Tabella semplice o di frequenza assoluta.
Frequenza relativa.
Frequenze relative cumulative.
Tabella riassuntiva.
Distribuzione statistica semplice.

Pag. 5 - 6 - Distribuzione in Classi.
Formula di Sturges per la definizione delle classi nella sistemazione dei dati rilevati.
Ampiezza delle Classi.

Pag. 6 - 10 - Distribuzione in Classi. Le Medie.
Classificazione delle Medie.
Media aritmetica semplice e ponderata.
Media aritmetica per distribuzione in classi.
Propriet associativa della media aritmetica.
Tabelle a doppia entrata.
Marginali di riga (nj.) e marginali di colonna (n.j) .

Pag. 11 - 12 - Media armonica.
Media armonica semplice e ponderata.

Pag. 13 - 16 - Media geometrica.
Media geometrica semplice e ponderata.
Metodo di calcolo con radice elevata alla x e metodo con logaritmi.

Pag. 17 - 18 - Media quadratica e accenno alla Media di potenza.

Pag. 19 - 23 - Medie di posizione.
Moda.
Mediana semplice e per distribuzione in classi.
Quartili.

Pag. 24 - 23 - Indici di Variabilit assoluta.




52