Esplora E-book
Categorie
Esplora Audiolibri
Categorie
Esplora Riviste
Categorie
Esplora Documenti
Categorie
Unità Carattere
(Peso in kg)
Quindi questo è il caso di quando riscontriamo una frequenza unitaria ma visto che
l'indagine statistica è un'indagine collettiva è difficile che su 1000 persone un carattere non
si ripete ma chiaramente si ripete più di una volta e quindi la frequenza non è unitaria e
quindi abbiamo un altro tipo di tabella che prende il nome di distribuzione di frequenza per
variabili discrete che prende anche il nome di variabile statistica (che si riferisce solo ad un
carattere quantitativo perché se è un carattere qualitativo avrò una mutabile statistica).
X1 n1
X2 n2
X3 n3
... ...
... ...
... ...
Xn Nn (totale)
● Xi consiste nella i-esima modalità della X
● ni consiste nella i-esima frequenza assoluta (il numero di volte si manifesta una
modalità del collettivo)
● fi = ni /N consiste nella i-esima frequenza relativa (rapporto tra la frequenza
assoluta ni (n1,n2,n3 ecc) ed il totale delle frequenze (somma delle frequenze
assolute N) ed esprime la frazione dei casi sul totale che hanno una certa modalità
od intensità e deve essere sempre =1
● frequenza relativa percentuale moltiplicando per 100 la frequenza relativa quindi ci
da la percentuale dei casi sul totale (100%) che hanno una certa intensità o modalità
● frequenze cumulate si usano quando voglio sapere le frequenze di una certa
intensità o modalità da X1 ad Xi ( es 7 famiglie hanno da 1 a 3 componenti) la prima
coincide alla frequenza assoluta poi si inizia a sommare con le frequenze assolute
successive es 2...2+3=5...2+3+5=10 ecc
X1 n1 N1=n1
X2 n2 N2=n1+n2
X3 n3 N3=n1+n2+n3
... … ...
Xn Nn (totale) ...
X1 n1 f1=n1
X2 n2 f2=n2
X3 n3 f3=n3
... … ...
N
(la somma
finale deve
sempre essere
=1)
Maschi 23 23/60=0.39
Femmine 37 37/60=0.61
Totale 60 1
ESERCIZIO
Abbiamo chiesto a 10 famiglie da quanti individui (componenti) sono formate ottenendo
questi risultati: 1; 1; 2; 2; 2; 3; 3; 4; 4; 5.
Calcolare:
1) le frequenze assolute
2) le frequenze relative
3) le frequenze cumulate
4) le frequenze relative cumulate
5) le frequenze relative cumulate percentuali.
Per svolgere Questo esercizio dobbiamo costruire una tabella in cui mettere le intensità del
carattere Xi (numero dei componenti) con le rispettive frequenze Ni cioè quante famiglie
hanno un componente. Unità statistica sono le famiglie, le intensità sono il numero dei
componenti, il carattere è quantitativo discreto o discontinuo.
TOTALE 10 1
X0 ≤ X ≤ X1 n1 f1= n1 𝜶i=X1-X0
N
X1 ≤ X ≤ X2 n2 f2= n2 𝜶i=X2-X1
N
Esempio
Frequenza alle Esito agli esami Sesso Età in anni compiuti
esercitazioni
sì positivo M 19
no negativo F 20
sì positivo F 22
sì positivo M 19
no negativo M 20
no positivo F 19
Tabella di contingenza
La tabella multipla con frequenza unitaria si può trasformare in una tabella di contingenza
o tabella doppia. Sono le frequenze delle varie combinazioni di modalità. Gli studenti che
hanno superato letame con esito positivo sono 4 e rappresenta la frequenza marginale di
colonna. Gli studenti che hanno ha avuto frequenza alle esercitazioni sono 3 il rappresenta
la frequenza marginale di riga. Per avere il totale o faccio la somma tra le frequenze
marginali di colonna o tra le frequenze marginali di riga oppure tra tutti i componenti delle
caselle.
sì 1;1;1 0 3
no 1 1;1 3
totale 4 2 6
M 1;1 1 3
F 1;1 1 3
totale 4 2 6
Densità di frequenza
Una variabile statistica continua soprattutto quando la frequenza è elevata si deve trattare in
una tabella con le classi di intensità e possiamo definire l'ampiezza di ciascuna classe.
Possiamo quindi avere classi di intensità o classi di modalità. Un'altra elaborazione che si
può fare quando abbiamo la classe è calcolare la densità di frequenza ovvero il rapporto
tra la frequenza assoluta della classe e l'ampiezza della classe.
X0 ≤ X ≤ X1 n1 𝜶1=X1-X0 d1= n1
𝜶1
X1 ≤ X ≤ X2 n2 𝜶2=X2-X1 d2= n2
𝜶2
... ... ... ...
𝜶i
... ... ... ...
𝜶k
Esempio
Xi-Xi-1 ni 𝜶i=Xi+1-Xi di= ni
𝜶i
2|-4 18 2-4=2 18/2=9.00
Totale 55
Distribuzione unitaria doppia
u1 x1 y1
u2 x2 y2
ui xi yi
un xn yn
Esempio
Xi voto esame di statistica Yj voto esame di economia
18 22
19 21
20 18
21 19
22 19
25 25
28 27
Le unità statistiche sono 7 studenti, i caratteri sono il voto all'esame di statistica è il voto
all'esame di economia
….
….
Classe di reddito
Fino a 30 10 12 17 39
Da 31 a 50 14 19 18 51
Da 51 a 70 20 22 23 65
Oltre 70 11 21 19 51
Domande:
1)Quante persone hanno un reddito fino a €30000? 39
2)Quante persone hanno un reddito medio da 31 a €50000? 51
3)Quante persone hanno il titolo di studio licenza media? 55
4)Quante persone hanno il titolo di studio laurea? 77
5)Quante persone hanno il titolo di studio licenza media e hanno un reddito da 51 a €70000?
20
6)Quante persone hanno il titolo di studio laurea e hanno un reddito di oltre €70000? 19
Indice di sommazione
Quando faccio un'indagine statistica avrò tanti valori numerici e quindi c'è la necessità di
sintetizzare questi numeri di cui magari devo fare la somma che si indica con 𝝨 che sta
appunto ad indicare un'operazione di addizione e consente una notevole economia di spazio
nello scrivere le formule che comportano l'operazione di somma. Generalmente viene
premesso di una qualsiasi lettera dell'alfabeto che può essere a b x y z in genere con le
variabili però si usa la Xi e la Yi o Zi ma per convenzione quando si parla di sommatoria si
usa la lettera ai e la i è l’indice di sommazione ed in corrispondenza della lettera che
abbiamo scelto può assumere i successivi valori interi consecutivi che vanno dal primo
valore della tabella che è 1 all'ultimo valore della tabella che è l'ennesimo valore; quindi la
sommatoria di ai con i che abbiamo detto assume in corrispondenza della lettera scelta i
valori interi consecutivi che vanno dal primo all'ultimo valore e se ad esempio il primo valore
è uno e l'ultimo è 4 significa che sviluppando la somma avrò a1 + a2 + a3 + a4 . Per tener
conto del numero dei valori che deve assumere l'indice di sommazione si completa il
simbolo 𝝨 scrivendo al di sotto di esso l'indice i è il primo valore al di sopra del simbolo 𝝨
l'ultimo valore assunto dall'indice di sommazione cioè N:
𝑁
∑ ai
𝑖=1
per cui riguardo l’esempio di prima avremo:
4
∑ ai = a1 + a2 + a3 + a4
𝑖=1
e più in generale:
𝑁
∑ ai =a1 + a2 + a3 + …. + aN
𝑖=1
Esempio 1:
Se ai = i
4 4
∑ ai = ∑ i = 1 + 2 + 3 + 4= 10
𝑖=1 𝑖=1
Esempio 2:
Se ai = i²
4 4
∑ ai = ∑ i² = 1² + 2² + 3² + 4²= 30
𝑖=1 𝑖=1
Esempio 3:
Se ai = 1/i
4 4
∑ ai = ∑ 1/i = 1/1 + 1/2 + 1/3 + 1/4= 25/12
𝑖=1 𝑖=1
Proprietà dell’operatore sommatoria
-Prima proprietà:
Se ai e bi dipendono dall’indice i vale la seguente identità:
𝑁 𝑁 𝑁
∑ (ai+bi) = ∑ ai + ∑ bi
𝑖=1 𝑖=1 𝑖=1
𝑁
∑ (ai+bi) = (a1+b1) + (a2+b2) + .... + (aN+bN)
𝑖=1
𝑁 𝑁
(a1 + a2 + …. + aN) + (b1 + b2 + …. + bN) = ∑ ai + ∑ bi
𝑖=1 𝑖=1
ai; bi; ci
-Seconda proprietà:
Se una lettera K non dipende dall’indice di sommazione i essa viene addizionata N volte
nello sviluppo della sommatoria, quindi si ha:
𝑁
∑ K= K + K + …. + K= NK
𝑖=1
Ad esempio:
3
∑ K= K + K = 3K
𝑖=1
-Terza proprietà:
Dalla proprietà 1 e 2 deriva il caso particolare:
𝑁 𝑁
∑ ai + K= ∑ ai + Nk
𝑖=1 𝑖=1
𝑁
∑ (ai + K)= ai + K + a2 + K + … + aN + K
𝑖=1
𝑁 𝑁
∑ K= K ∑ ai
𝑖=1 𝑖=1
𝑁 𝑁
∑ K ai = K a1 + K a2 + …. + K aN = K ∑ ai
𝑖=1 𝑖=1
In altri termini la proprietà 4 si esprime dicendo che un fattore (ad esempio la lettera K) che
non dipende dall’indice di sommazione si può portare davanti al simbolo di sommatoria.
Rappresentazioni grafiche
Dopo aver fatto una rilevazione statistica e aver sistemato i nostri caratteri che sono valori
numerici generalmente ma possono essere anche di tipo qualitativo; bisogna rappresentare
in maniera efficiente i risultati dell'indagine con dei grafici che devono essere più semplici
possibile quindi di facile lettura e servono a rendere più evidenti e di facile lettura le
caratteristiche dei collettivi statistici. Un grafico si sceglie innanzitutto secondo cinque
principi ma soprattutto si sceglie dalla natura del carattere cioè se il carattere è qualitativo
oppure quantitativo discreto o continuo:
1) accuratezza: si riferisce la precisione di dettagli con cui è rappresentata la
distribuzione;
2) semplicità: si riferisce all'uso essenziale di elementi grafici senza aggiunta di
elementi superflui;
3) chiarezza: data dalla capacità di comunicare senza ambiguità e in modo immediato
gli aspetti fondamentali del fenomeno studiato;
4) aspetto estetico: deve essere il più possibile armonioso;
5) struttura: gli elementi grafici devono essere posti in maniera gerarchica in modo tale
che è un elemento sia messo tanto più in rilievo quanto più esso è rilevante.
La cosa fondamentale però è distinguere tra caratteri qualitativi e quantitativi perché ci sono
dei grafici che sono esclusivamente per caratteri qualitativi e altri che sono esclusivamente
per caratteri quantitativi discreti i grafici che sono esclusivamente per caratteri quantitativi
continui.
occupati 13090
disoccupati 588
totale 14403
Condizione Totale
occupati 20435
disoccupati 996
altri 596
Totale 23179
Viene usato per una sola serie di dati quindi si può rappresentare graficamente un solo
carattere alla volta quindi ad esempio maschi e femmine non va bene perché non si può
sovrapporre quindi bisognerà fare tre grafici a torta uno per i maschi uno per le femmine
infine uno totale maschi più femmine.
-diagrammi a figure o pittogrammi, la frequenza di ogni carattere qualitativo (si può usare
anche per i caratteri quantitativi) vieni rappresenta da una figura stilizzata, oppure da simboli
che ricordano facilmente l'oggetto.
Rappresentazioni grafiche per caratteri quantitativi discreti
Esempio 1
Anno Xi n. di famiglia Yi
1901 884
1911 1011
1921 1132
1931 1330
1936 1425
1951 1178
1961 2177
1971 2695
1981 3082
1991 3290
Esempio 2
Xi Ora Yi Verona (°C) Zi Bormio (°C)
3 2 7
6 5 8
9 8 12
12 12 15
15 14 18
16 15 19
18 13 15
21 11 12
24 7 9
Esempio
Carattere: densità della popolazione.
Densità della popolazione residente in Toscana per comune (abitanti per km²)
Si definisce ampiezza di una classe la differenza tra l'esterno superiore e l'estremo inferiore
dell'altezza: 𝜶i =Xi+1 - Xi
La densità di frequenza si definisce come il rapporto tra la frequenza assoluta di una
classe e la sua ampiezza: di= ni/Xi+1-Xi = ni/𝜶i
0-14 1396
15-34 2626
35-64 7687
65-95 6933
Totale 18642
Soluzione:
Distribuzione di frequenze secondo il carattere di età
Totale 18642
Medie analitiche
5+10+15+50=80 80/4=20
L'intensità da sostituire è il valore della media aritmetica della distribuzione.
In generale data una variabile X che valori X1+X2+........+Xn costituita ad esempio da una
successione di patrimoni individuali di N persone, si consideri di intensità globale cioè la
somma dei patrimoni, qual è l'intensità o patrimonio che può essere sostituita ai singoli valori
della X in modo che rimane invariata l'intensità globale:
A+A+.....A= X1+X2+ …...+Xn
𝑁 𝑁
nA ∑ Xi da cui la media aritmetica A= ∑ /n
𝑖=1 𝑖=1
In altre parole si fa prima la somma tra i valori che si hanno in partenza dopodiché si divide il
risultato per quanti valori sono ad esempio 1,2,3,4 sono 4 valori quindi si fa prima
1+2+3+4=10 e poi si fa 10/4=2.5 perche facendo 2.5+2.5+2.5+2.5=10.
Quindi il criterio della trasferibilità dice: scelta una funzione “f” la media si definisce
secondo Chisini come quel valore unico che è sostituito alle osservazioni di una
distribuzione non ne muta il valore della funzione (non muta il risultato di certe per azioni). A
seconda del criterio della trasferibilità considerato si distinguono differenti tipologie di media:
- media aritmetica (“f”=somma)
- media armonica (“f”=somma degli inversi)
- media geometrica (“f”=prodotto delle intensità)
Media armonica
Infatti se si assume come invariante distributivo la somma degli inversi delle intensità, la
media H sarà quel valore che sostituito a ciascuna intensità lascia invariata la somma dei
reciproci delle intensità:
1 1 1
𝑋1
+ 𝑋2 + ….. + 𝑋𝑛
1 1 1 1 1 1
𝐻
+ 𝐻
+ ….. + 𝐻
=
𝑋1
+ 𝑋2 + ….. + 𝑋𝑛
𝑁
𝑁 1 𝑁
𝐻
= ∑ 𝑋𝑖
da cui H= 𝑁
1
𝑖=1 ∑ 𝑋𝑖
𝑖=1
Media quadratica
Infatti se si assume come invariante distributivo la somma dei quadrati delle intensità, la
media Q Sarà quel valore che sostituito a ciascuno intensità lascia invariata la somma dei
quadrati delle intensità
𝑁
𝑁 ∑ 𝑋𝑖²
𝑖=1
NQ²= ∑ Xi² da cui Q=
𝑁
𝑖=1
Media aritmetica
E l’indice statistico più utilizzato per la facilità di calcolo e per le proprietà di cui gode. A
seconda della distribuzione:
- per distribuzioni semplici con frequenza unitaria si parlerà di media aritmetica
semplice. Ottenuta come somma dei valori assunti dalla distribuzione rapportata al
numero di osservazioni. Si utilizza nel caso in cui ci sia intensità o frequenza unitaria.
- per distribuzioni di frequenza della variabile X si parlerà di media aritmetica
ponderata. Ottenuta come somma dei valori della X ponderati (moltiplicati) per le
rispettive frequenze oppure con i pesi delle intensità è rapportata al numero delle
osservazioni. Abbiamo una tabella con la distribuzione di frequenze in cui ci sono i
valori della Xi e ci sono o le frequenze assolute o le frequenze relative oppure i pesi.
𝑁
2) ∑ (Xi-µ) =0 : la somma delle differenze tra ciascuna intensità e la media aritmetica è
𝑖=1
uguale a zero (baricentro);
𝑁
3) ∑ (Xi - µ)² =min : la somma delle differenze al quadrato tra ciascuna intensità e la
𝑖=1
media aritmetica è un minimo.
5
∑ (Xi-A)= (1,5-3) + (0,6-3) + (2,8-3) + (5,2-3) + (4,9-3) =0 → -4,1+4,1=0
𝑖=1
La somma dei quadrati scarti da un valore qualsiasi M diverso dalla media aritmetica A è:
esempio com M=2 e M=4
5
∑ (Xi-M)²= (1,5-2)² + (0,6-2)² + (2,8-2)² + (5,2-2)² + (4,9-2)²= 21.50
𝑖=1
5
∑ (Xi-M)²= (1,5-4)² + (0,6-4)² + (2,8-4)² + (5,2-4)² + (4,9-4)²= 21,49
𝑖=1
quindi si dimostra che il primo membro è minore della sommatoria di Xi- M (qualsiasi valore
M diverso dalla media aritmetica) :
𝑁 𝑁
∑ (Xi-µ)² < ∑ (xi-M)²
𝑖=1 𝑖=1
𝑁
∑ 𝑋𝑖 𝑛𝑖
𝑖=1
A= 𝑁
∑ 𝑁𝑖
𝑖=1
𝑁
A= ∑ Xi fi
𝑖=1
Esempio:
Distribuzione di famiglie classificate secondo il numero di componenti
Numero Frequenze Xi x Ni 𝑛𝑖 𝑛𝑖
componenti Xi assolute Ni fi= Xi x
𝑁 𝑁
2 3 6 0,1875 0,3750
3 12 36 0,7500 2,2500
5 1 5 0,0625 0,3125
𝑁
A= ∑ Xi fi = 2,93
𝑖=1
Esempio
Classe di altezze frequenza assoluta valore centrale prodotto
Xi-Xi+1 Ni della classe 𝑋𝑖 𝑋𝑖ni
151- 155 4 (151+155)/2= 153 4x153=612
totale 50 8310
8310
A= =166,2 cm
50
Media armonica
Essa si definisce come rapporto tra il numero delle osservazioni (frequenza) e la somma
degli inversi dei valori della distribuzione nella variabile X
𝑁
H= 𝑁
1
∑ 𝑋𝑖
𝑖=1
Esempio:
Data la seguente successione di intensità determinare la media armonica
12; 15; 19; 23; 28
5 5 5
H= 1 1 1 1 1 = 0,0833+0,0667+0,0526+0,0435+0,0357 = 0,2818 = 17,74
12
+ 15
+ 19
+ 23
+ 28
𝑁
∑ 𝑁𝑖
𝑖=1
H= 𝑁
1
∑ 𝑋𝑖
𝑛𝑖
𝑖=1
Xi ni 1 1
x ni
𝑋𝑖 𝑋𝑖
2 3 0,50 1,5
3 12 0,33 3,96
5 1 0,20 0,20
totale 16 5,66
16
H= =2,82
5,66
Media quadratica
Essa si definisce come la radice quadrata della somma dei quadrati dei valori della
distribuzione della variabile X la rapportata al numero di osservazione
𝑁
∑ 𝑋𝑖²
𝑖=1
Q=
𝑁
Esempio
Calcolare la media quadratica delle seguenti 4 intensità
2; 5; 7; 9
4+25+49+81
Q= =6,305
4
𝑁
∑ 𝑋𝑖² 𝑛𝑖
𝑖=1
Q= 𝑁
∑ 𝑁𝑖
𝑖=1
Esempio
Xi ni Xi² Xi² x ni
2 3 4 12
3 12 9 108
5 25 25 25
totale 16 145
145
Q= =3,01
16
𝑁
𝑠 ∑ 𝑋𝑖²
𝑖=1
𝑀𝑠 = 𝑛
Molte altre tipologie di media sono casi particolari della media generalizzata, per opportuni
valori di s.
Medie di posizione
-La moda
La moda Mo detta anche “norma”, è il valore (intensità o modalità) a cui corrisponde la
massima frequenza (interna alla distribuzione statistica) assoluta o relativa. Più
precisamente si chiama moda ogni valore interno all’intervallo (X1-Xn) tale che la sua
frequenza Ni verifichi la seguente disuguaglianza: Ni>Ni-1 Ni>Ni+1 cioè risulti maggiore
della precedente e della successiva.
Esempio
2; 2; 3; 3; 4; 4; 4; 7; 9
La moda di questo campione è 4 in quanto compare ben 3 volte quindi la frequenza è
maggiore del valore precedente 3 che compare solo 2 volte e del successivo 7 che compare
solo 1 volta.
La moda può essere calcolata per qualunque carattere statistico, sia esso qualitativo che
quantitativo.
Nessuno 65
Licenza elementare 67
Licenza media 69
Diploma professionale 56
Diploma superiore 53
Laurea triennale 45
Laurea magistrale 34
Specializzazione post-laurea 70
La moda è il titolo di studio licenza media
Esempio
Data la seguente successione di intensità:
14;17;22;24;12;15
E’ zero modale perché ogni intensità si ha solo una volta.
La moda, tra le misure di tendenza centrale è l’unica che non sempre esiste; nell’esempio
precedente la moda è zero infatti non esiste una intensità con frequenza massima per cui la
moda non esiste.
1 15
3 13
5 24
7 17
Se le classe non sono equi-ampie è bene dividere la frequenza assoluta di ogni classe per
l'ampiezza dell’intervallo ottenendo la cosiddetta “densità di frequenza”. La classe modale è
quella con la densità di frequenza più alta.
Densità di frequenza:
𝑛𝑖
di=
α𝑖
20-30 100 10 10
30-40 200 10 20
40-60 300 20 15
60-70 100 10 10
totale 700
La classe modale è quella della classe d’età 30-40 perchè è quella con la densità di
frequenza più alta.
-La mediana
Ordinato un insieme di valori in modo crescente o decrescente la mediana Me è il
valore che bipartisce la distribuzione.
Il calcolo della mediana si differenzia a seconda che esso riguardi una distribuzione unitaria
(successione di intensità) o una distribuzione di frequenza con Ni pari o dispari.
𝑁+1
N dispari: Pme=
2
𝑁 𝑁
N pari: Pme= e P’me= +1
2 2
Esempio 1
N dispari: N=5
5+1
Pme= = 3 Me=7
2
Esempio 2
N pari: N=6
6
Pme= =3
2
6 7+11
P’me= +1= 4 Me= =9
2 2
Esempio 3
Calcolare la media e la mediana di una seria di 6 dati
13.1; 13.9; 14.2; 14.5; 10.1; 10.8
6 6 13.1+13.9
Pme= =3 P’me= +1= 4 Me= =13,5
3 3 2
1 2
2 4
3 7
4 2
Totale 15
La moda è 3
La mediana in questo caso si calcola con le frequenze cumulate quindi:
2 4 6
3 7 13
4 2 15
Totale 15
𝑁+1 15+1
Pme= Pme= =8 Me=3
2 2
1 2 2
2 4 6
3 7 13
4 3 16
Totale 16
16 16
Pme= =8 P’me= +1=9
2 2
1; 1; 2; 2; 2; 2; 3; 3; 3; 3; 3; 3; 3; 4; 4; 4
-Quartili
La mediana corrisponde alla modalità assunta dall'unità statistica che bipartisce la
distribuzione ordinata delle osservazioni (modalità o intensità). Il 50% delle unità statistiche
si trova alla sinistra della mediana, mentre l'altro 50% alla sua destra.
Soluzione:
È necessario Innanzitutto ordinare in senso crescente le modalità assunte dal carattere nelle
diverse unità statistiche
3; 4; 5; 6; 7; 8; 9; 9; 10; 11; 12; 14; 15; 16; 16
15+1
Pme= =8 Me=9
2
1
Pq1= N. =3.75⇒ 4 Q1=6
4
3
Pq3=N. =11.25⇒ 12 Q3=14
4
Esempio 2
La seguente tabella riporta la distribuzione del carattere X numero di stanze di 129 abitazioni
di un quartiere. Calcolare 1° e 3° quartile
N.stanze Xi Abitazioni Ni Ci
1 10 10
2 35 45
3 40 85
4 21 106
5 10 116
6 6 122
7 4 126
8 2 128
9 1 129
129
1
Pq1=129. = 32.25⇒ 33 Q1=2
4
3
Pq3=129. =96.75⇒ 97 Q3=4
4
Variabilità
Nei tre casi la media è sempre 6 ma nel secondo caso non c’è variabilità (i termini sono tutti
uguali tra loro).
Nel primo la variabilità e bassa, nel terzo la variabilità è più alta. La diversa attitudine che
può assumere il carattere, viene misurata con un indice di variabilità.
Il campo di variazione è una misura molto grossolana che dipende soltanto dai valori
estremi senza tener conto dei valori intermedi che sono generalmente più numerosi.
Esempio: Intensità dei 15 maggiori terremoti (scala Richter) nel periodo 1983/1991
5,5 ; 7,7 ; 7,1 ; 7,8 ; 8,1 ; 7,3 ; 6,5 ; 7,3 ; 6,8 ; 6,9 ; 6,3 ; 6,5 ; 7,7 ; 7,7 ; 6,8
Il campo di variazione risulta R=8,1-5,5=2,6. Esso ci dice che il 100% delle scosse di
terremoto è stata di un'intensità compresa tra 5,5 e 8,1.
18 5
20 7
23 8
26 8
28 17
30 5
Tot 50
Si ottiene come differenza tra l’estremo superiore e quello inferiore dei valori osservati nella
distribuzione del carattere nel collettivo. R=30-18 =12. Significa che tra il più bravo ed il
meno bravo dei 50 studenti esaminati c’è una diversità di voto di 12 punti.
18 5 5
20 7 12
23 8 20
26 8 28
28 17 45
30 5 5
Tot 50
1 1
Pq1= N. = 50. =12.5→13 Q1=23
4 4
3 3
Pq3=N. =50. =37,5→38 Q3=28
4 4
Si ottiene come differenza tra i terzo ed il primo quartile dei valori osservati nella
distribuzione del carattere nel collettivo Di=28-23 =5. Significa che il 50% delle unità
statistiche ha preso un voto compreso tra il 23 ed il 28. la differenza è di 5 punti.
Misure di dispersione
-Varianza
Un indice più importante per misurare la variabilità è la varianza per esprimere la variabilità
di una distribuzione rispetto alla media aritmetica.
Essa si definisce come la media degli scarti al quadrato.
Come è facile verificare gode di tutte le caratteristiche necessarie agli indici di variabilità:
1) È una misura (non negativa) varia tra 0 e infinito
2) Cresce al crescere della misura degli scarti e quindi della variabilità della
distribuzione
3) È nulla se le unità assumono tutte lo stesso valore.
La difficoltà nell’interpretazione della varianza deriva dal fatto che essa è espressa nella
unità di misura del fenomeno al quadrato per es. considerando la distribuzione delle stature
degli abitanti di una regione espresse in cm, sappiamo che le differenze dalla media
aritmetica sono valori espressi in cm, ma che elevandole al quadrato otteniamo i valori in
cm².
Per questo motivo è preferibile usare come indice di variabilità lo scarto quadratico medio.
𝑁
∑ (𝑋1−𝐴)²
𝑖=1
Varianza per una distribuzione unitaria: σ²=
𝑁
𝑁
∑ (𝑋1−𝐴)²𝑁𝑖
𝑖=1
Varianza per una distribuzione di frequenza σ²= 𝑁
∑ 𝑁𝑖
𝑖=1
-Devianza
Si definisce devianza la somma degli scarti al quadrato. Essa è pari al numeratore della
varianza.
𝑁
∑ (𝑋𝑖−𝐴)²
𝑖=1
σ= = σ²
𝑁
-Distribuzione di frequenze
𝑁
∑ (𝑋𝑖−𝐴)²𝑁𝑖
𝑖=1
σ= 𝑁 = σ²
∑ 𝑁𝑖
𝑖=1
Esempio
Consideriamo la distribuzione dei voti ottenuti all’esame di statistica da 5 studenti
22; 24; 25; 27; 30
Calcolare
1) la devianza
2) la varianza
3) lo scarto quadratico medio A=25,6
22 22-25,6=-3,6 12,96
24 24-25,6=-1,6 2,56
25 25-25,6=-0,6 0,36
27 27-25,6=1,4 1,96
30 30.25,6=4,4 19,36
𝑁
∑ (𝑋𝑖−𝐴)²
128 𝑖=1 37,2
A=
5
=25,6 σ= 𝑁
=
5
=2,72
37,2
DEV=37,2 Var= =7,44
5
Si definisce scostamento semplice dalla media SA la media degli scarti in valore assoluto
dalla media.
-Distribuzione unitaria
Scostamento semplice dalla media
𝑁
∑ |𝑋𝑖−𝐴|
𝑖=1
SA=
𝑁
-Distribuzione di frequenze
Scostamento semplice dalla media
𝑁
∑ |𝑋𝑖−𝐴|𝑁𝑖
𝑖=1
SA=
𝑁
Si definisce scostamento semplice dalla mediana S(Me) la media degli scarti in valore
assoluto dalla mediana
-Distribuzione unitaria
Scostamento semplice dalla mediana
𝑁
∑ |𝑋𝑖−𝑀𝑒|
𝑖=1
S(Me)=
𝑁
-Distribuzione di frequenze
Scostamento semplice dalla mediana
𝑁
∑ |𝑋𝑖−𝑀𝑒|𝑁𝑖
𝑖=1
S(Me)=
𝑁
22 22-25,6=3,6 22-25=3
24 24-25,6=1,6 24-25=1
25 25-25,6=0,6 25-25=0
27 27-25,6=1,4 25-27=2
30 30-25,6=4,4 30-25=5
𝑁
∑ |𝑋𝑖−𝐴|
𝑖=1 11,6
SA= = =2,32
𝑁 5
𝑁+1 5+1
N dispari: N=5 Pme= = =3 Me=25
2 2
𝑁
∑ |𝑋𝑖−𝑀𝑒|
𝑖=1 11
SMe= = =2,2
𝑁 5
Misure di disuguaglianza
Le differenze medie sono indici di mutua variabilità, che esaminano le differenze in valore
assoluto, tra le modalità a due a due facendone una sintesi con una opportuna media Tali
differenze possono essere:
- con ripetizione, quando contengono tutte le n² differenze possibili
- senza ripetizione, quando contengono sono le n(n-1) differenze diverse (non avendo
considerato i confronti tra ciascuna modalità e se stessa). Si sintetizzano queste
differenze con la media aritmetica ottenendo la differenza semplice media con e
senza ripetizione.
Se, invece, si escludono le differenze con termini uguali, si ha la differenza media assoluta
senza ripetizione
𝑁 𝑁
∑ ∑ |𝑋𝑖−𝑋𝑗|
𝑖=1𝑗=1
∆= (i≠j)
𝑛(𝑛−1)
Esempio
Sia dato il seguente insieme di numeri:
8; 1; 7; 3
Per il calcolo delle differenze medie, considerando il numero non elevato dei valori del
carattere, si può predisporre una matrice quadrata, con i lati disposti in ordine crescente ed
in ogni casella figurano le differenze Xi - X j
1 3 7 8
--------------------------
1 l 0 -2 -6 -7
3 l 2 0 -4 -5
7 l 6 4 0 -1
8l 7 5 1 0
2|2+6+7+4+5+1|
∆R= =3,12
16
2|2+6+7+4+5+1|
∆= =4,16
12
Coefficiente di variazione
Le misure considerate sino ad ora rappresentano degli indici di variabilità assoluta (ad
esempio Kg, litri, euro, ecc). Essi infatti assumono valori in una scala di variazione che
dipende strettamente dall’unità di misura e dall’intervallo in cui la variabile assume valori.
Se le modalità quantitative delle distribuzioni statistiche sono espresse in unità di misura
diverse oppure, se esse sono espresse nella stessa unità di misura, ma con intensità medie
differenti, allora per il confronto si devono usare indici di variabilità relativa (si pensi alla
comparazione tra la variabilità del peso e delle altezze di un gruppo di individui).
Il più diffuso è il coefficiente di variazione (CV) che si ottiene rapportando lo SQM alla
media in valore assoluto.
σ
CV= .100
𝐴
𝑆𝑀𝑒
.100
𝑀𝑒
Costruiamo la tabella
Valori Xi Scarti (Xi-A) Quadrati degli scarti (x-A)²
3 3-6,4=-3,4 11,56
5 5-6,5=-1,4 1,96
7 7-6,4=0,6 0,36
8 8-6,4=1,6 2,56
9 9-6,4=2,6 6,76
Totale 32 0 23,2
La somma dei quadrati degli scarti è 23,2, che diviso per n=5 dà la varianza 4,64 la cui
radice quadrata è lo scarto quadratico medio
σ=2,15 Devianza= 23,2
23,2
σ²= 5 =4,64
23,2 2,15
σ= =2,15 CV= .100=33,59%
5 6,4
Concentrazione
Reddito Forma
Popolazione Altezza
Azioni Peso
25 1
25 1
25 1
25 1
Totale 4
Si ha massima concentrazione quando una sola unità del collettivo possiede tutto
l'ammontare del carattere e tutte le altre posseggono 0.
Quote azioni Xi Azionisti Ni
0 1
0 1
0 1
100 1
Totale 4
Indichiamo Inoltre con An il reddito complessivo posseduto dagli N redditieri (il carattere
posseduto dalle N unità) cioè:
An= X1 + X2 + X3 +.... + Xn
L'obiettivo è quello di studiare il modo in cui An (ammontare del carattere) si ripartisce tra gli
N redditieri (persone)
Ad esempio Supponiamo che gli azioni possedute disposte in ordine crescente di 4 persone
siano, in euro:
10; 15; 25; 50
10 1 10 10/100=0,1 1 1/4=0,25
15 1 25 25/100=0,25 2 2/4=0,5
25 1 50 50/100=0,5 3 3/4=0,75
1 2
La prima unità statistica rappresenta del numero totale, le prime due ecc. Indicando
𝑁 𝑁
tali frazioni con P1, P2,...,Pn
Esempio
Quote azioni Azionisti Ni Ai intensità Qi intensità Ci Pi frequenze
Xi cumulate cumulate frequenze cumulate
relative cumulate relative
0 1 0 0 1 1/4=0,25
0 1 0 0 2 2/4=0,5
0 1 0 0 3 3/4=0,74
Totale 4
25 1 25 25/100=0,25 1 1/4=0,25
25 1 50 50/100=0,50 2 2/4=0,50
25 1 75 75/100=0,75 3 3/4=0,75
Totale 4
Totale 4 0,65
𝑁−1
∑ (𝑃𝑖−𝑄𝑖)
𝑖=1 (0,25−0,1)+(0,5−0,25)+(0,75.−0,5) 0,65
R= 𝑁−1 R= = =0,433
0,25+0,5+0,75 1,5
∑ 𝑃𝑖
𝑖=1
N.B non abbiamo preso in considerazione 1 perché è la sommatoria che va da 1 ad
N-1 quindi in questo caso 0,75.
Esempio
Quote Azionisti Ai Qi intensità Ci Pi Pi-Qi
azioni Xi Ni intensità cumulate relative frequenze frequenze
cumulat cumulate cumulate
e relative
Totale 4 0,65
100
(0,25−0,10)+(0,5−0,30)+(0,75.−0,60)
R= = 0,33 R=0,33
0,25+0,5+0,75
0,55
R= =0,20
2,77
Indici di forma
-Asimmetria
Se la distribuzione è simmetrica media, moda e mediana corrispondono. Per quanto
riguarda l’asimmetria:
- è detta destra (più correttamente a destra), la successione delle 3 misure di
tendenza centrale da sinistra a destra è: moda, mediana, media. In questo caso le
classi più frequenti le ritroviamo prima della media. Si fa l'istogramma con le classi di
intensità e poi si uniscono i punti.
Si parla di asimmetria positiva se la coda più lunga e a destra della media; in questo caso si
notano molti valori inferiori al valore medio della distribuzione.
µ<Me < Mo
Si parla di asimmetria a sinistra se la coda più lunga si presenta a sinistra della media; in
questo caso si notano molti valori superiori al valore medio della distribuzione.
Caratteristiche: La moda è spostata verso l'estremo superiore della distribuzione
-Box Plot
I diagrammi box plot sono un metodo grafico diffuso recentemente dai programmi
informatici, per la facilità con la quale possono essere costruiti. Servono per rappresentare
visivamente tre caratteristiche fondamentali di una distribuzione statistica:
- il grado di dispersione o variabilità dei dati, rispetto alla mediana e/o alla media;
- la simmetria;
- la presenza di valori anomali.
È costruita di fianco ad una scala che riporta le modalità o valori del carattere e si costruisce
a partire da una linea orizzontale, interna alla scatola che rappresenta la mediana che sarà
poi delimitata da due linee esterne orizzontali che è rappresentano il quartile superiore (terzo
quartile Q3) e il quartile inferiore (primo quartile Q1). Poi ci sono i baffi che sono
rappresentati dal valore adiacente inferiore e dal valore adiacente superiore e se i baffi sono
abbastanza attaccati alla scatola quindi molto corti vuol dire che non ci sono valori anomali
mentre se sono molto lunghi si possono evidenziare dei valori anomali sia particolarmente
piccoli rispetto alla media della distribuzione sia eccessivamente grandi.
Esempio:
La seguente successione di intensità rappresenta i voti ottenuti da un campione di 14
studenti iscritti al primo anno di economia. Rappresentare graficamente con il diagramma
box plot.
25; 28; 22; 28; 20; 22; 23; 25; 25; 25; 26; 26; 26; 27
20; 22; 22; 23; 25; 25; 25; 25; 26; 26; 26; 27; 28; 28
Xi Ni
20 1
22 2
23 1
25 4
26 3
27 1
28 2
A=25
𝑁 𝑁 25+25
Pme= P’me= +1 Pme=7 P’me=8 =25 Me=25
2 2 2
1
Q1=N. = 3.5→4 Q1=23
4
3
Q3=N. =10.5→11 Q3=26
4
Asimmetrico leggermente a sinistra
Esempio 2
Un gruppo di 7 individui possiede le seguenti azioni di una nota casa farmaceutica:
7; 9; 11; 15; 2, 3; 4
2; 3; 4; 7; 9; 11; 15
Xi Ni
2 1
3 1
4 1
7 1
9 1
11 1
15 1
A=7,29
𝑁+1
Pme= =4 Me=4
2
1
Q1=N. =1.75 →2 Q1=3
4
3
Q3=N. =5.24→6 Q3=11
4
Rapporti statistici
I rapporti statistici sono misure statistiche elementari finalizzate al confronto tra i dati. Un
rapporto statistico è un quoziente tra due termini con i quali esiste un legame logico e può
essere utilizzato per comparazioni sia spaziali (da una regione all'altra) che temporali (tra un
periodo ed un altro). Assumono un valore sempre positivo e non dipendono dalle unità di
misura.
-Rapporto di composizione
Rapportiamo le frequenze o l'intensità di una data modalità di un fenomeno alle frequenze o
intensità complessiva dello stesso fenomeno.
Esempio: la composizione percentuale della forza lavoro rispetto al sesso, alle fasce di età,
al titolo di studio posseduto, etc,;
𝐴𝑡𝑡𝑖𝑣𝑖 𝑚𝑎𝑠𝑐ℎ𝑖 𝑜 𝑎𝑡𝑡𝑖𝑣𝑒 𝑓𝑒𝑚𝑚𝑖𝑛𝑒
.100
𝐴𝑡𝑡𝑖𝑣𝑖 𝑚𝑎𝑠𝑐ℎ𝑖+𝐹𝑒𝑚𝑚𝑖𝑛𝑒
Alcuni rapporti di composizione noti:
- Tasso di occupazione: rapporto tra occupati e attivi di 15 anni e più ( esclusi
casalinghe, studenti, pensionati ecc
- Tasso di disoccupazione: rapporto tra persone in cerca di lavoro e forza lavoro
- Tasso di scolarità nelle scuole superiori: rapporto tra iscritti e popolazione tra i 14
e i 18 anni
-Rapporto di coesistenza
Il rapporto di coesistenza si determina calcolando il quoziente tra le intensità di due
fenomeni diversi nello stesso luogo o tra le intensità di uno stesso fenomeno in luoghi
diversi.
Esempi:
Indici demografici quali:
𝑚𝑎𝑠𝑐ℎ𝑖
- Rapporto di mascolinità:
𝑓𝑒𝑚𝑚𝑖𝑛𝑒
𝑓𝑒𝑚𝑚𝑖𝑛𝑒
- Rapporto di femminilità:
𝑚𝑎𝑠𝑐ℎ𝑖
𝑎𝑛𝑧𝑖𝑎𝑛𝑖
- Indice di vecchiaia: . L'indice di vecchiaia fornito dal rapporto percentuale
𝑔𝑖𝑜𝑣𝑎𝑛𝑖
tra l'ammontare della popolazione in età 65 anni e oltre diviso quello delle età
giovanili da zero a 14 anni.
- Per studiare il livello di sostegno fornito dalla popolazione in età lavorativa agli
anziani si può utilizzare un indice di dipendenza dato dal rapporto tra l'ammontare
della popolazione di età 65 anni e più diviso quello delle potenziali età attive da 20 a
64 anni (l'indice di dipendenza degli anziani)
-Rapporto di derivazione
Un rapporto di derivazione è ottenuto dividendo l'intensità o la frequenza di un fenomeno per
l'intensità o la frequenza di un altro fenomeno che ne costituisce il necessario e logico
presupposto.
Esempi:
1) Quoziente di natalità che è dato dal rapporto tra i nati e la popolazione in un certo
anno x 1000;
2) Quoziente di fecondità che è dato dal rapporto tra il numero di nati vivi nell'anno e
la popolazione femminile residente di età compresa tra i 15 e i 44 anni;
3) Quoziente di criminalità che dato dal rapporto tra i denunciati per tipo di delitto e la
popolazione residente per 100.000.
-Rapporto di densità
Un rapporto di densità è definito mediante il rapporto tra la dimensione globale di un
fenomeno e una dimensione di spazio di tempo.
Esempi:
- Prodotto interno lordo pro capite che è dato dal rapporto tra il prodotto interno
lordo e la popolazione;
- Densità territoriale della popolazione che è data dal rapporto tra la popolazione
residente e la superficie territoriale in chilometri quadrati;
- Numero medio componenti per famiglia che è dato dal rapporto tra popolazione e
numero di famiglie residenti nello stesso territorio.
-Numero indice
I numeri indice sono particolari rapporti statistici che misurano la variazione di un fenomeno
rilevato in tempi e circostanze diverse. Assumono un valore sempre positivo e non
dipendono dalle unità di misura. Solitamente misurano le variazioni dei prezzi nel tempo e
sul territorio (es. indice di inflazione)
-Numero indice semplice è il rapporto tra due numeri riferiti all'intensità di un fenomeno in
tempi o luoghi diversi I=Xt/Xt-1 Dove la lettera t può riferirsi a tempi o luoghi diversi infatti
vi sono numeri indice temporali e territoriali.
Una delle finalità più comuni della statistica è la ricerca di relazioni di dipendenza tra
fenomeni, con l'obiettivo di interpretare, prevedere e controllare. Per fare ciò occorre rilevare
e analizzare il contemporaneo presentarsi delle modalità di più variabili per studiarne la
relazione. Quando sulle unità statistiche di una data popolazione si osservano due variabili
(es.altezza/peso) si parla di distribuzione unitaria doppia bivariata dove le modalità dei
due caratteri osservati sono elencate unità per unità. La rilevazione di una variabile doppia
su una data popolazione di N unità, consiste nella collezione delle coppie di osservazioni:
(X1,Y2), (X2,Y2),.…, (Xi,Yi),...., (Xn,Yn) opportunamente misurate sulle unità del collettivo.
u1 X1 Y1
u2 X2 Y2
Ui Xi Yi
Un Xn Yn
a) Le distribuzioni condizionate
Una distribuzione condizionata è una distribuzione semplice ottenuta associando, a doppia
entrata, la riga madre con una qualsiasi delle s righe successive, oppure associando la
colonna madre con una qualsiasi delle r colonne successive. La distribuzione (X/Y=yi) è la
distribuzione condizionata del carattere X con qualsiasi valore yi del carattere Y e si ottiene
dalla seguente tabella.
Xi Freq
X1 n1j
X2 n2j
... ...
Xi nij
... ...
Xn n.j
y1 ni1
y2 ni2
... ...
Yi nij
... ...
Yn ni.
b) Le distribuzioni marginali
Una distribuzione marginale cioè non condizionata è una distribuzione semplice ottenuta
associando, in una tabella a doppia entrata, la riga madre con la riga marginale (frequenza
marginale di riga) oppure la colonna madre con la colonna marginale (frequenza marginale
di colonna). La prima distribuzione indica gli elementi della popolazione che possiedono le
modalità X1, X2,..., Xi del carattere X in indipendente da come esse siano associate alle
modalità Y1, Y2,...,Yi del carattere Y.
X1 nj.
X2 n2.
... ...
Xi ni.
... ...
Xn nr.
La seconda distribuzione indica gli elementi della popolazione che possiedono le modalità
Y1,Y2,...,Yi del carattere Y indipendentemente da come se siano associate alle modalità X1,
X2,..., Xi del carattere X.
Y1 n.1
Y2 n.2
... ...
Yi n.j
... ...
Yn n.s
Dipendenti Autonomi
Determinare:
1) Gli occupati nei settori di attività economica a prescindere dalla posizione professionale
(distribuzione marginale non condizionata del carattere occupati per settore di attività
economica)
Settori di attività Occupati
Agricoltura 1180
Industria 5090
Totale 13670
2)Gli occupati per posizione professionale a prescindere dal settore di attività economica
(distribuzione marginale del carattere occupati per posizione professionale).
Dipendenti 9500
Autonomi 4170
Totale 13670
10-20 20-40
20-30 5 20 25
30-40 15 30 45
40-60 10 40 50
Totale 30 90 120
Calcolare:
1) reddito medio di tutti gli operai
2) anzianità di servizio media di tutti gli operai
3) reddito medio degli operai con anzianità da 10 a 20 anni e lo scarto quadratico medio del
reddito degli operai con anzianità da 10 a 20 anni
4) anzianità di servizio media degli operai con un reddito da 30 a 40 mila euro
5) lo scarto quadratico medio del reddito di tutti gli operai
6) lo scarto quadratico medio della anzianità di servizio di tutti gli operai
20-30 25
30-40 45
40-60 50
Totale 120
10-20 20-40
20-30 5 20 25
30-40 15 30 45
40-60 10 40 50
Totale 30 90 120
Anzianità di servizio Xi Ni
10-20 30
20-40 90
Totale 120
3150
2) Ax =26,25
120
6)Lo scarto quadratico medio dell’anzianità di servizio
5062,51
σx= 120
=6,50
10-20 20-40
20-30 5 20 25
30-40 15 30 45
40-60 10 40 50
Totale 30 90 120
2) Il reddito medio degli operai con anzianità da 10 a 20 anni e scarto q.m del reddito
degli operai con anzianità da 10 a 20 anni
Reddito Yj Ni
20-30 5
30-40 15
40-60 10
Totale 30
1150 2416,66
2) Ay
30
=38,33 σy= 30
=9,98
Anzianità di servizio Xi Ni
10-20 15
20-40 30
Totale 45
1125
2) Ax 45
=25
6) Lo scarto quadratico medio dell'anzianità di servizio degli operai con un reddito da 30 a 40
mila euro
2250
σx= 45
=7,07
𝑟
∑ 𝑋𝑖𝑛𝑖
𝑖=1
Ax=
𝑁
𝑠
∑ 𝑌𝑗𝑛𝑗
𝑗=1
Ay=
𝑁
Indipendenza
Un collettivo di persone è stato classificato secondo le modalità del carattere grado di
istruzione Xi e colore dei capelli. Verificare se fra i due caratteri esiste indipendenza
assoluta.
neri 12 15 20 47
castani 24 30 40 94
grigi 36 45 60 141
biondi 48 60 80 188
Risulta quindi che se le frequenze relative di colonna sono costanti al valore di X: tra i due
caratteri dunque esiste Indipendenza assoluta cioè le frequenze relative delle distribuzioni
condizionate delle y al variare della x cioè X1, X2,..., Xn non variano, In altre parole le
frequenze relative delle distribuzioni condizionate sono uguali tra loro è uguale alle
frequenze relative delle distribuzioni non condizionate.
Lo studio delle relazioni esistenti tra due variabili statistiche parte dalla definizione del
concetto di indipendenza. Similmente la distribuzione condizionata della X dato Y=yj non
cambia per qualunque J=1,2,....,s
Concetto di contingenza
La costruzione di un indice che misura il grado di connessione tra due caratteri statistici X e
y si basa sul concetto di contingenza. Si definisce contingenza cij la differenza tra la
frequenza osservata è la frequenza teorica e se avrebbe nel caso di indipendenza assoluta
di una generica cella ij. Nel caso di indipendenza le contingenze sono tutte nulle mentre
queste cresceranno, in valore assoluto, al crescere del grado di dipendenza tra i caratteri.
∑Cij=∑(nij-n*ij)=0
𝑖𝑗 𝑖𝑗
Il grado di connessione tra due caratteri statistici si misura attraverso l'indice di associazione
Chi-quadrato proposto da K. Pearson (X²). Esso è ottenuto come somma delle contingenze
quadratiche relative. L'indice assume valori pari a zero in caso di indipendenza (tutte le
contingenze sono nulle) e aumenta al crescere del grado di connessione, assumendo valori
tanto più grandi quanto più le frequenze osservate si differenziano dalle frequenze teoriche.
Solitamente l'indice X² è impiegato per misurare la relazione tra due mutabili. Infatti per
questo tipo di variabili l'unica informazione analizzabile riguarda le frequenze congiunte.
(𝑛𝑖𝑗−𝑛*𝑖𝑗)²
X²=∑ Indice di associazione o connessione di Pearson
𝑛*𝑖𝑗
𝑖𝑗
Ulteriori indici di connessione
Si nota che l'indice Chi-quadrato dipende dalla numerosità del collettivo N. In genere si
preferisce utilizzare indici di associazione normalizzati.
Per non far dipendere il Chi-quadrato da N, sono state proposte numerose varianti tra cui:
-l’indice di contingenza quadratica media ϕ² che calcola la media delle contingenze al
quadrato relative.
𝑥² 1 (𝑛𝑖𝑗−𝑛*𝑖𝑗)²
Esso è ottenuto rapportando il X2 a N ϕ²= =𝑁∑
𝑁 𝑛*𝑖𝑗
𝑖𝑗
-l’indice C di Cramer, che consiste in una versione normalizzata dell’indice di contingenza
media quadratica. Indice di contingenza quadratica media: è un indice relativo normalizzato,
esso sarà pari a 0 nel caso di indipendenza perfetta e pari a 1 nel caso di massima
connessione (dipendenza o interdipendenza perfetta).
Indice di contingenza
ϕ²
C= 0≤C≤1
𝑚𝑖𝑛[(𝑟−1)(𝑠−1)]
Al denominatore c’è il valore più piccolo tra le s righe e le r colonne a cui va sottratto 1.
Esempio
La seguente tabella riporta la distribuzione doppia di un gruppo di 86 studenti di Scienze
Politiche classificati secondo il voto (classi) preso all'esame di statistica (Xi) è il livello di
conoscenza della matematica (Yj) (Freq. Osservate)
insufficiente 30 15 10 55
sufficiente 2 8 6 16
buono 0 6 4 10
ottimo 0 3 2 5
totale 32 32 22 86
(𝑛𝑖𝑗−𝑛*𝑖𝑗)²
5)Calcolo del quadrato delle contingenze rapportate alle frequenze teoriche
𝑛*𝑖𝑗
𝑥² 20,22
ϕ²= 𝑁
=
86
=0,23 contingenza quadratica media
ϕ² 0,23
C= C= =0,342 l’indice di contingenza di Cramer ci dice che c’è
𝑚𝑖𝑛[(𝑟−1)(𝑠−1)] 2
poca connessione tra i due caratteri quindi il grado di conoscenza della matematica influisce
poco sul voto preso all’esame di statistica.
Rappresentazione analitica di variabili: il concetto di interpolazione
Dopo aver effettuato una numerazione statistica e aver sistemato i dati in tabella emergere
un certo legame tra i valori x & y, questo legame si può da presentare con una funzione
matematica. Inoltre X e Y possono essere:
1) una serie cronologica in tal caso X1, X2,...,Xn sono gli anni e Y1, Y2,...,Yn sono
rappresentate dalle intensità del fenomeno negli anni considerati.
2) una distribuzione doppia con frequenza unitaria in cui si aleix che le Y sono caratteri
statistici.
Xi anni Yi fenomeno
X1 Y1
X2 Y2
... ...
Xi Yi
... ...
Xn Yn
Questa funzione non ha l'obiettivo di passare per tutti i punti ma di rappresentare “al meglio”,
anche se in via sintetica, la relazione esistente tra i due caratteri X e Y.
Esempio
Gli anni (X) e la produzione di vetture della Fiat (Y)
Gli anni (X) e il tasso di mortalità in Italia (Y)
Gli anni (X) e il tasso di natalità in Italia (Y)
Gli anni (X) e la popolazione residente in Italia (Y)
Interpolazione lineare
Tra le funzioni f(x) che normalmente vengono utilizzate nel interpolazione statistica, quella
lineare gioca un ruolo di primo piano. Con l'interpolazione lineare si intende quindi
descrivere, in maniera sintetica, la relazione esistente tra 2 caratteri statistici attraverso una
retta:
Y*= β0 +β1 X dove β0 rappresenta l'intercetta. Geometricamente è il punto in cui la retta
interseca l'asse delle ordinate e β1 è invece il coefficiente angolare che esprime la
pendenza della retta in termini di variazione della funzione dovuta ad una variabile unitaria
della X.
Chiamiamo Dn la deviazione (o errore differenza tra i punti osservati e quelli teorici che sono
sulla retta) fra il valore Yn ed il corrispondente valore della retta/curva (positiva o negativa).
𝑛 𝑛
nβ0 + β1 ∑ Xi = ∑ Yi
𝑖=1 𝑖=1
𝑛 𝑛 𝑛
β0 ∑ Xi + β1 ∑ Xi² = ∑ XiYi
𝑖=1 𝑖=1 𝑖=1
| 𝑛 |
|𝑛 ∑ 𝑋𝑖|
| |
| 𝑖=1 |
| 𝑛 𝑛 |
| ∑ 𝑋𝑖 ∑ 𝑋𝑖²|
| |
|𝑖=1 𝑖=1 |
𝑛 𝑛 𝑛 𝑛
∑ 𝑌𝑖 ∑ 𝑋𝑖² − ∑ 𝑋𝑖 ∑ 𝑋𝑖𝑌𝑖
𝑖=1 𝑖=1 𝑖=1 𝑖=1
= 𝑛 𝑛
𝑛 ∑ 𝑋𝑖² − ( ∑ 𝑋𝑖)²
𝑖=1 𝑖=1
Esempio di interpolazione
La seguente tabella riporta i dati relativi al fatturato degli ultimi 5 anni (dal 2011 al 2015) di
una nota azienda di giocattoli, il fatturato è espresso in milioni di euro. Per facilitare i calcoli
sostituisco gli anni con le ascisse (di comodo) 1,2,3,4,5
Anno Xi Fatturato Yi
2011 9
2012 11,2
2013 8,9
2014 11,8
2015 14
1)Rappresentare graficamente
2)Trovare i parametri della retta interpolante con il metodo dei minimi quadrati
3)Trovare il valore teorico del fatturato al 2018.
1 9 1 9
2 11,2 4 22,4
3 8,9 9 26,7
4 11,8 16 47,2
5 14 25 70
5β0 + 15β1=54,9
15β0+ 55β1= 175,3
Pertanto:
β0=|54, 9 15|
|175, 3 55|
|5 15|
|15 55|
(54,9𝑥55)−(175,3𝑥15) 3019,5−2629,5
= (5𝑥55)−(15𝑥15)
= 275−225
=7,8
β1=|5 54, 9|
|15 175, 3|
|5 15|
|15 55|
(5𝑥175,3)−(15𝑥54,9) 876,5−823,5
= (5𝑥55)−(15𝑥15)
= 275−225
=1,06
L’ultimo stadio del procedimento di interpolazione consiste nella verifica della riuscita
dell’accostamento ottenuto mediante la funzione rappresentatrice che passa tra i dati
osservati.
Anno Xi Fatturato Yi Xi² XiYi Yi* (Yi*-Yi)²
1 9 1 9 8,86 0,020
2 11,2 4 22,4 9,92 1,638
5 14 25 70 13,1 0,810
Y*=7,8+1,06X
*Per avere il valore teorico si fa ad esempio prendendo il primo numero si sostituisce alla X il
numero 1 che si moltiplica per 1,06 che quindi fa 1,06 che appunti vado a sommare a 7,8 e
viene 8,86
∑(𝑌𝑖*−𝑌𝑖)²
6,852
x100= x100= 35,32% (percentuale dell’errore che vado a
54,9
∑𝑌𝑖
X1 Y1
X2 Y2
... ...
Xi Yi
... ..
Xn Yn
20 21
25 24
26 23
30 29
29 28
L'andamento dei punti nel grafico a dispersione (i punti si distribuiscono
approssimativamente come una retta) suggerisce l'esistenza tra le due variabili di una
relazione di tipo lineare.
Sapendo che tra i due caratteri il voto di matematica rappresenta la variabile indipendente X
ed il voto all'esame di statistica quella dipendente y la relazione può essere descritta
mediante la retta di regressione:
𝑌=β0 +βyx X
in cui i coefficienti β0 eβyx (coefficiente di regressione) sono incogniti.
Si deduce che:
- seβyx ≻ 0 fra X ed Y è positiva, ossia al crescere di X cresce anche Y
- seβyx ≺ 0 l’associazione fra X ed Y è negativa, ossia al crescere di X decresce Y
- seβyx = 0 non esiste associazione lineare tra X ed Y.
𝑛 𝑛
nβ0 +βxy ∑ Xi = ∑ Yi
𝑖=1 𝑖=1
𝑛 𝑛 𝑛
β0 ∑ Xi +βyx ∑ Xi² = ∑ XiYi
𝑖=1 𝑖=1 𝑖=1
Il sistema si risolve facendo uso del metodo di Cramer: (facendo riferimento all’esercizio
sopra citato)
voto esame di voto esame di Xi² XiYi
matematica Xi statistica Yi
20 21 400 420
25 24 625 600
26 23 676 598
30 29 900 870
29 28 841 812
|5 130|
|130 3442|
(125𝑥3442)−(3300𝑥130)
= = 4,03
(5𝑥3342)−(130𝑥130)
|5 130|
|130 3442|
(5𝑥3300)−(130𝑥125)
= =0,806
(5𝑥3342)−(130𝑥130)
Da cui la retta dei minimi quadrati ha equazione:
Y*=4,04 + 0,808X
Questo sta a significare che all’aumentare del voto di matematica di un punto, il voto di
statistica aumenta mediamente di 0,8 punti.
𝑛
∑ (𝑋𝑖−𝑋)(𝑌𝑖−𝑌)
𝑖=1 𝐶𝑂𝐷 (𝑋𝑌)
βyx= 𝑛 =
𝐷𝐸𝑉 (𝑋)
(COD codevianza)
∑ (𝑋𝑖−𝑋)²
𝑖=1
𝑋=β'0+ βxy Y
𝑛 𝑛
nβ'0 +βxy ∑ Yi = ∑ Xi
𝑖=1 𝑖=1
𝑛 𝑛 𝑛
β'0 ∑ Yi +βxy ∑ Yi² = ∑ XiYi
𝑖=1 𝑖=1 𝑖=1
Esempio
voto di voto di Xi-𝑋𝑖 Yi-𝑌𝑖 (Xi-𝑋𝑖)(Yi-𝑌𝑖) (Xi-𝑋𝑖)² (Yi-𝑌𝑖)²
matematica statistica
Xi Yi
20 21 -6 -4 24 (non si fa 36 16
0x0 ma si fa
prima -6 x -4 e
poi si fa la
somma tra tutti
i valori che
ottengo in
questo caso
viene 50)
25 24 -1 -1 1 1 1
26 23 0 -2 0 0 4
30 29 4 4 16 16 16
29 28 3 3 9 9 9
130 125
𝑋= 5
=26 𝑌= 5
=25
𝑛
∑ (𝑋𝑖−𝑋)(𝑌𝑖−𝑌)
𝑖=1 50
βyx= 𝑛 =
62
=0,806 y=f(x)
∑ (𝑋𝑖−𝑋)²
𝑖=1
𝑛
∑ (𝑋𝑖−𝑋)(𝑌𝑖−𝑌)
𝑖=1 50
βxy= 𝑛 =
46
=1,087 x=f(y)
∑ (𝑌𝑖−𝑌)²
𝑖=1
Questo sta a significare che all'aumentare del voto di statistica di un punto, il voto di
matematica aumenta mediamente di 1,087 punti.
βyx e βxy siccome il denominatore è sempre positivo perché è al quadrato ed è sempre
positiva anche perché è un indice di variabilità mentre la codevianza non essendo un indice
di variabilità quindi può essere sia positivo che negativo però poiché le due quantità
dipendono dal numeratore possono essere o tutte e due positive o tutte e due
negative non una positiva e l'altra negativa.
(Xi-𝑋)(Yi-𝑌) i=1….n
Per standardizzare la codevianza si divide per la radice quadrata del prodotto delle devianze
delle variabili X,Y ottenendo il coefficiente di correlazione di Pearson:
𝑛
∑ (𝑋𝑖−𝑋𝑖)(𝑌𝑖−𝑌𝑖)
𝐶𝑂𝐷(𝑋,𝑌)
rxy= Rxy=
𝑖=1
𝐷𝐸𝑉(𝑋)𝑥 𝐷𝐸𝑉(𝑌) 𝑛
∑ (𝑋𝑖−𝑋𝑖)²(𝑌𝑖−𝑌𝑖)²
𝑖=1
Esempi
Esempio
Giovani statura X peso Y Xi-𝑋𝑖 Yi-𝑌𝑖 (Xi-𝑋𝑖)(Yi-𝑌𝑖) (Xi-𝑋𝑖)² (Yi-𝑌𝑖)²
(cm) (Kg)