Sei sulla pagina 1di 292

RAPPRESENTAZIONI

GRAFICHE
Maria Simona Andreano
Maria Simona Andreano “Rappresentazioni grafiche”

Indice

1. INDICAZIONI DI BASE PER I GRAFICI --------------------------------------------- 3


2. GRAFICI PER CARATTERI QUALITATIVI SCONNESSI --------------------- 5
3. GRAFICI PER CARATTERI QUALITATIVI ORDINATI ----------------------- 8
4. GRAFICI PER CARATTERI QUANTITATIVI DISCRETI ------------------- 11

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 2 di 12
Maria Simona Andreano “Rappresentazioni grafiche”

1. INDICAZIONI DI BASE PER I GRAFICI

Le distribuzioni di frequenza sono un ottimo strumento di


sintesi dei dati osservati e permettono di organizzare in modo
leggibile i dati rilevati. Tuttavia spesso la loro capacità
"comunicativa" non è immediata e l’impatto visivo non è ottimale, E’
per questo che è sempre utile affiancare la tabella con una sua
rappresentazione grafica, che riesce a mostrare meglio l’andamento
del fenomeno.

Il grafico non è altro che una maniera diversa di esprimere in


forma sintetica l'andamento dei dati, i cui valori sono esplicitati nella
distribuzione di frequenza.

E’ necessario fare attenzione ad usare il grafico appropriato a


seconda della tipologia del carattere analizzato. L’uso corretto dei
grafici permetterà di evidenziare in maniera ottimale le informazioni
disponibili nei dati. La costruzione di un grafico per caratteri
qualitativi sconnessi su dati di un carattere quantitativo non
permetterà di evidenziarne tutte le proprietà.

Non esistono regole fisse per la costruzione e per la scelta del


grafico ma si possono dare semplici consigli, affinché la
rappresentazione sia la più chiara ed intuitiva possibile.

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 3 di 12
Maria Simona Andreano “Rappresentazioni grafiche”

E’ buona regola che un grafico contenga:

Titolo con l’esatto contenuto del grafico


con l’indicazione dei caratteri riportati in
Assi
essi
Legenda per la comprensione del grafico
Unità di misura in cui sono espressi i caratteri
Fonte dei dati

E’ inoltre buona prassi evitare di costruire i grafici senza farsi


abbandonare troppo alla fantasia. Infatti il grafico è uno strumento
statistico e non artistico.
Presentiamo qui una breve rassegna delle varie tipologie dei
grafici disponibili in letteratura, associandoli alla tipologia di
carattere più appropriato.

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 4 di 12
Maria Simona Andreano “Rappresentazioni grafiche”

2. GRAFICI PER CARATTERI QUALITATIVI


SCONNESSI

Un carattere qualitativo sconnesso può essere rappresentato


graficamente in diversi modi, tra cui:
- rappresentazione tramite rettangoli
- grafici a torta
- rappresentazione tramite figure

Nel caso della rappresentazione tramite rettangoli, si


disegnano in corrispondenza di ciascuna modalità dei rettangoli di
stessa base e altezza proporzionale alle frequenze.

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 5 di 12
Maria Simona Andreano “Rappresentazioni grafiche”

Tali rettangoli possono essere disegnati anche in senso


orizzontale, in quel caso le modalità saranno elencate nell’asse delle y
e le frequenze sull’asse delle x.

Probaabilmente il grafico più diffuso per rappresentare i


caratteri qualitativi sconnessi è dato dal “Grafico a torta”. In questo
caso si costruisce un cerchio, i cui settori circolari (α) hanno ampiezza
proporzionale alle frequenze (α= fi * 360°)

Infine consideriamo i grafici con figure: si sceglie una figura per


rappresentare l'unità di misura e si rappresentano le modalità
riportando un numero di figure proporzionale alle frequenze
osservate.

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 6 di 12
Maria Simona Andreano “Rappresentazioni grafiche”

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 7 di 12
Maria Simona Andreano “Rappresentazioni grafiche”

3. GRAFICI PER CARATTERI QUALITATIVI


ORDINATI

Se il carattere è qualitativo ordinabile si possono usare


comunque le rappresentazioni grafiche viste precedentemente, ma è
necessario qualche accorgimento per assicurare che l'ordine sia
rispettato.

In questo caso si sconsiglia di usare il grafico a torta, poichè


fuorviante, in quanto il cerchio non prevede la possibilità di ordinare
le modalità.

L'ordine delle modalità permette più correttamente di


evidenziare l'andamento del fenomeno.
Consideriamo un esempio per comprendere meglio la
costruzione del grafico a rettangoli nel caso in oggetto.

Supponiamo di aver rilevato il carattere “livello di scolarità”.


Si tratta di un carattere qualitativo misurabile su scala ordinale, e le
modalità con cui si presenta il fenomeno sono k=4: Analfabeta,
Obbligo, Superiore, Laurea

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 8 di 12
Maria Simona Andreano “Rappresentazioni grafiche”

Scolarità ni

A 2

O 6

S 8

L 4

Totale 20

Andiamo a rappresentare tala tabella con un grafico a


rettangoli, dove riportiamo sulla base le modalità, seguendo l’ordine
implicito del carattere. I rettangoli sono costruite in modo tale che la
base corrispondente alle modalità sia fissa, mentre l’altezza è
proporzionale alle frequenze osservate.

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 9 di 12
Maria Simona Andreano “Rappresentazioni grafiche”

Il grafico permette di evidenziare l’evoluzione nel fenomeno


all’aumentare del titolo scolastico. I rettangoli possono essere
affiancati l’uno all’altro oppure distanziati.

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 10 di 12
Maria Simona Andreano “Rappresentazioni grafiche”

4. GRAFICI PER CARATTERI QUANTITATIVI


DISCRETI

Il grafico più adatto a descrivere i caratteri quantitativi discreti


è il "grafico a barre".
Tale grafico è molto simile al grafico a rettangoli, dove però le
frequenze sono rappresentate soltanto da un segmento lineare.

Il grafico viene disegnato quindi su un piano cartesiano, dove


sull'asse orizzontale si riportano le modalità – discrete – del carattere,
e sull'asse verticale le rispettive frequenze.

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 11 di 12
Maria Simona Andreano “Rappresentazioni grafiche”

La barra è disegnata soltanto in corrispondenza del valore


puntuale del carattere, per mettere in evidenza che questo è discreto.
Nel caso rappresentato nella figura, il carattere può assumere
soltanto i valori 0, 1, 2 e 3. Se erroneamente avessimo disegnato un
grafico a rettangoli, le modalità sarebbero state degli intervalli,
corrispondenti alle basi dei rettangoli stessi.

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 12 di 12
LE DISTRIBUZIONI
DI FREQUENZA
Maria Simona Andreano
Maria Simona Andreano “Le distribuzioni di frequenza”

Indice

1. LE FREQUENZE SEMPLICI -------------------------------------------------------------------- 3


2. LA DISTRIBUZIONE DI FREQUENZA ------------------------------------------------------ 6
3. ESEMPIO DI DISTRIBUZIONE DI FREQUENZA ---------------------------------------- 9
4. ESERCIZI ------------------------------------------------------------------------------------------- 12

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 2 di 12
Maria Simona Andreano “Le distribuzioni di frequenza”

1. LE FREQUENZE SEMPLICI

Consideriamo un esempio per introdurre i concetti


fondamentali di questa lezione. Supponiamo di aver rilevato su 10
studenti le seguenti caratteristiche: Sesso, Età, Laurea, Voto di
laurea, Componenti della famiglia, Reddito.
I valori osservati normalmente vengono riportati secondo il
seguente schema, che riporta le osservazioni rispetto alle singole
unità (prima colonna).

Unità Sesso Età Laurea Voto Componenti Reddito


1 M 24 Economia 109 2 25.100
2 F 25 Economia 110 5 26.500
3 F 24 Matematica 107 3 17.500
4 M 27 Statistica 103 4 35.600
5 F 29 Economia 95 3 76.200
6 F 24 Statistica 107 6 14.700
7 M 25 Matematica 105 4 19.350
8 M 27 Statistica 105 3 22.300
9 M 26 Economia 110 2 18.640
10 F 26 Statistica 110 4 45.020

I caratteri osservati sono di diversa tipologia:


- Sesso e Laurea sono qualitativi sconnessi
- Età, Voto, Componenti sono quantitativi discreti
- Reddito è quantitativo continuo.

Per il carattere “Sesso” le modalità (= modo in cui il carattere si


manifesta) sono M = maschi e F = femmine.

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 3 di 12
Maria Simona Andreano “Le distribuzioni di frequenza”

Una volta raccolti i dati è possibile determinare le frequenze


associate alle modalità del carattere.
Le frequenze semplici:
- rappresentano il numero di volte in cui una determinata
modalità del carattere si presenta sul totale delle unità osservate
- le frequenze si ricavano direttamente dal conteggio
- sono indicate in generale con ni, dove i esprime la i-esima
modalità
- il totale delle frequenze deve ridare il totale delle unità
statistiche osservate.

Riprendendo la tabella precedente dei dati abbiamo per il


carattere "Sesso":
- due modalità: M e F
- sulle 10 unità statistiche abbiamo osservato 5 M e 5 F
- indichiamo con x1 la prima modalità del carattere (M) e con x2
la seconda modalità del carattere (F)
- n1 = 5 è la frequenza associata ai M
- n2 = 5 è la frequenza associata alle F
- n1 + n2 = n ossia 5 + 5 = 10

E’ utile a questo punto introdurre il simbolo della sommatoria,


rappresentato dalla lettera greca maiuscola Σ. Tale simbolo sarà
usato costantemente nelle formule statistiche, pertanto qui ne diamo
brevemente alcune definizioni e proprietà.

Il simbolo di sommatoria Σ
- indichiamo con Σ l'operazione di somma

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 4 di 12
Maria Simona Andreano “Le distribuzioni di frequenza”

- si deve specificare cosa si sta sommando


- da dove parte la sommatoria (riportato sotto il segno di
sommatoria): i=1
- fino a dove arriva la sommatoria (riportato sopra il simbolo):
k.

In generale
k

a i  a1  a2  ... ak
i1

Valgono alcune
 proprietà importanti, utili ai fini dello sviluppo
di alcune formule in statistica:

k k

c   ai   c ai 1.
i1 i1
k  k 2
 a   ai 
2
i
2.
i1 i1 



Nello specifico, riprendendo le frequenze (assolute) abbiamo la
semplice proprietà:

n i  n1 K  n k  n
i1

dove con n si indica il numero complessivo delle unità



osservate.

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 5 di 12
Maria Simona Andreano “Le distribuzioni di frequenza”

2. LA DISTRIBUZIONE DI FREQUENZA

Una volta calcolate le frequenze semplici per ogni modalità del


carattere rilevato, possiamo costruire la tabella di frequenza, o anche
detta, la distribuzione di frequenza.
La distribuzione di frequenza ci dice "come si distribuiscono le
frequenze tra le modalità osservate"

Determiniamo le distribuzione di frequenza dei due caratteri


"Sesso" ed "Età":

Ses freque Età freq


so nze uenze

M 5 24 3

F 5 25 2

Tot 10 26 2
ale
27 2

29 1

Tota 10
le

Vediamo che nella prima colonna delle precedenti tabelle si


riporta l’elenco delle modalità del carattere analizzato. Ovviamente se

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 6 di 12
Maria Simona Andreano “Le distribuzioni di frequenza”

questo è almeno ordinabile si rispetterà l’ordine, altrimenti, come nel


caso del “Sesso”, l’ordine delle modalità è arbitrario.

In generale la rappresentazione di una tabella di frequenze è la


seguente:

Xi ni

x1 n1

x2 n2

x3 n3

... ...

xk nk

Tota n
le

Con x1, x2, ..., xk si indicano le modalità del carattere X e con n1,
n2, ..., nk le rispettive frequenze.

Quando si lavora con caratteri continui, come nel caso del


carattere “Reddito” e, sopratutto nel caso di numerosità elevata, è
utile raccogliere diverse modalità in classi, per rendere più semplice

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 7 di 12
Maria Simona Andreano “Le distribuzioni di frequenza”

la lettura dei dati. In questo caso parliamo di distribuzioni di


frequenze in classi. Nel caso precedente avremo quindi:

Reddito frequenze

14.000-20.000 5

20.000-30.000 3

30.000-40.000 2

Totale 10

Ovviamente la definizione delle classi può essere definita a


priori o in base ai risultati osservati. Tali classi non necessariamente
devono essere di stessa ampiezza. Infatti nel caso precedente la prima
classe ha un’ampiezza di 6.000 mentre le altre due classi sono di
ampiezza 10.000.

L’obiettivo della costruzione della tabella di frequenze è quello


di avere una percezione più immediata di come si distribuisce il
carattere. Inoltre tale tabella è un modo più sintetico di rappresentare
i dati osservati, sopratutto se questi sono di elevata numerosità.

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 8 di 12
Maria Simona Andreano “Le distribuzioni di frequenza”

3. ESEMPIO DI DISTRIBUZIONE DI FREQUENZA

Applichiamo le nozioni appena introdotte nella lezione per


svolgere un breve esercizio.

Su 15 lavoratori di un supermercato è stato rilevato il carattere


"Mezzo di trasporto utilizzato per andare a lavoro".

Le modalità del carattere sono: mezzi pubblici (MP), auto


privata (AP), moto (M), a piedi (P). Di seguito i dati osservati, elencati
in sequenza:

MP, M, P, M, AP, AP, AP, MP, M, AP, MP, AP, M, M, P

Raccogliamo i dati e costruiamo la distribuzione di frequenze:

Xi ni

P 2

M 5

AP 5

MP 3

Tota 15
le

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 9 di 12
Maria Simona Andreano “Le distribuzioni di frequenza”

Il carattere è qualitativo sconnesso e l'ordine con cui sono


riportate le modalità è arbitrario.
Si consiglia sempre di verificare che la somma delle frequenze
riporti esattamente il totale delle unità osservate.
Sulle stesse 15 persone precedenti viene rilevato anche "il
tempo che si impiega per arrivare a lavoro". Di seguiti i valori rilevati
in minuti:

65, 27, 32, 44, 51, 47, 38, 72, 18, 75, 81, 56, 45, 36, 21

Il carattere in considerazione è quantitativo continuo. E' utile


raccogliere i valori in classi. Se non raccogliessimo i dati in classi
avremmo una distribuzione di frequenze unitarie e quindi di fatto la
tabella che ne uscirebbe fuori sarebbe identica a quella della
rilevazione.
Raccogliamo i dati e costruiamo la distribuzione di frequenze
per il carattere "Tempo impiegato":

Xi ni

0-30 3

30- 8
60

> 60 4

Tota 15
le

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 10 di 12
Maria Simona Andreano “Le distribuzioni di frequenza”

L'ultima classe, per comodità, è lasciata aperta. Potevamo


invece mettere 60-90 o altro limite superiore, in base ai valori
osservati.

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 11 di 12
Maria Simona Andreano “Le distribuzioni di frequenza”

4. ESERCIZI

1. A 20 clienti di una banca è stato chiesto il grado di


soddisfazione del servizio fornito. Questi sono i risultati
(IN=insufficiente, S=sufficiente, B=buono, O=ottimo):
S S O B B IN S IN O O B S S S B S O O B IN

Costruire la tabella di frequenze.

2. Su 150 utenti di un gestore telefonico si è rilevato il numero di


ore settimanali consumate. I dati sono stati raccolti nella
seguente tabella di frequenze:

Classi di consumi (in ore settimanali)


10-20 20
0-10 30
>50 40
20-50 50
tot 150

Individuare gli errori presenti nella costruzione di tale tabella.

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 12 di 12
LE DIVERSE TIPOLOGIE
DI FREQUENZA
Maria Simona Andreano
Maria Simona Andreano “Le diverse tipologie di frequenza”

Indice

1. LE FREQUENZE RELATIVE E PERCENTUALI ---------------------------------- 3


2. LE FREQUENZE CUMULATE------------------------------------------------------------- 6
3. ESEMPIO DI FREQUENZE RELATIVE, PERCENTUALI E CUMULATE
---------------------------------------------------------------------------------------------------------- 8
4. ESERCIZI ----------------------------------------------------------------------------------------- 10

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 2 di 10
Maria Simona Andreano “Le diverse tipologie di frequenza”

1. LE FREQUENZE RELATIVE E PERCENTUALI

Le frequenze semplici che portano alla costruzione della


distribuzione di frequenza si determinano semplicemente facendo il
“conteggio” delle unità che presentano una particolare modalità
Consideriamo il seguente esempio:
Abbiamo rilevato su 350 studenti il numero di esami sostenuti
nell'anno in corso. I dati unitari sono riportati di seguito (esempio
Iacus, cap. 2):

3, 1, 3, 1, 3, 1, 1, 3, 2, 2, 1, 3, 2, 1, 1, 2, 0, 2, 1,
1, 1, 3, 2, 1, 1, 1, 1, 1, 0, 2, 0, 0, 1, 3, 2, 2, 2, 2,
....

L'utilizzo della distribuzione di frequenza ci permette una


rappresentazione sintetica dell'insieme di dati.

Andando a interpretare e leggere tali dati, possiamo affermare,


per esempio, che 45 studenti non hanno sostenuto esami. Tuttavia

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 3 di 10
Maria Simona Andreano “Le diverse tipologie di frequenza”

questo dato ha un significato diverso se si riferisce ad un totale di 45


studenti (quindi la totalità), a 90 studenti oppure a 1000 studenti.
Vediamo quindi che può essere utile guardare non solo la
frequenza come valore assoluto, ma anche in termini “relativi” al
totale. Allora avremo che:
- 45 su 350 studenti non hanno fatto esami
- 36 su 350 hanno fatto tre esami
- 45/350 = 0.13 = frequenza relativa (relativa al Totale!)
- 45/350 * 100 = 13 = frequenza percentuale

Quando la frequenza viene rapportata al totale otteniamo la


frequenza relativa. Ai fini interpretativi è tuttavia più immediato
trasformare tale frequenza in percentuale, semplicemnte
moltiplicando per 100% il valore ottenuto precedentemente. In questo
caso abbiamo la frequenza percentuale.

Il calcolo di tali frequenze è semplice e immediato, come si


evince dai seguenti dati riportati nella tabella.

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 4 di 10
Maria Simona Andreano “Le diverse tipologie di frequenza”

Notiamo tuttavia che benchè le frequenze relative e percentuali


permettano di cogliere meglio il modo di distribuirsi del carattere, tali
frequenze perdono una informazione fondamentale: la numerosità
delle osservazioni. In effetti questa informazione ha un grande peso ai
fini delle analisi statistiche. Infatti la robustezza del risultato è
condizionato dalla numerosità delle osservazioni. Un conto è un 13%
di studenti che non ha sostenuto esami che si riferisce a 40
osservazioni e un altro se basato su 1000 osservazioni!

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 5 di 10
Maria Simona Andreano “Le diverse tipologie di frequenza”

2. LE FREQUENZE CUMULATE

Esistono altre tipologie di frequenze, strettamente legate a


quelle appena introdotte: le frequenze cumulate.

Tali frequenze cumulate servono a rispondere a domande del


tipo: Quanti studenti hanno dato meno di 2 esami?

Le frequenze cumulate possono calcolarsi per caratteri


ordinabili (almeno qualitativi ordinabili) e possono determinarsi
rispetto alle frequenze assolute, relative o percentuali.

Come la parola stessa ci dice, per calcolare le frequenze


cumulate dobbiamo “cumulare”, che in termini matematici equivale a
“sommare”.

Riprendiamo i dati visti precedentemente, sugli esami


sostenuti, abbiamo:

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 6 di 10
Maria Simona Andreano “Le diverse tipologie di frequenza”

Xi ni fi pi Ni Fi Pi

0 45 0.13 13% 45 0.13 13%

1 136 0.39 39% 181 0.52 52%

2 133 0.38 38% 314 0.90 90%

3 36 0.10 10% 350 1.00 100%

350 1 100%

- 136 studenti hanno fatto 1 esame (ni).


- 181 studenti hanno fatto al massimo 1 esame (Ni).
- il 52% degli studenti ha fatto al massimo 1 esame (Pi).

Vedete che l’interpretazione di queste frequenze è diversa da


quella che potevamo ricavare dalle frequenze semplici.
Un altro modo di leggere le frequenze cumulate fa riferimento
all’ordine delle osservazioni. Se pensiamo di ordinare tutti gli studenti
(mettendoli in fila) in base al numero di esami sostenuti, avremo
allora che:
- dal 1° al 45-esimo abbiamo studenti con 0 esami;
- dal 46-esimo al 181-esimo abbiamo studenti con 1 esame
- e così via.

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 7 di 10
Maria Simona Andreano “Le diverse tipologie di frequenza”

3. ESEMPIO DI FREQUENZE RELATIVE,


PERCENTUALI E CUMULATE

Vediamo con un esempio come calcolare le diverse frequenze


introdotte nella lezione e quale uso se ne può fare.

Su 246 lavoratori è stato rilevato il numero di giorni di malattia


presi nell'ultimo mese. I dati sono riportati nella seguente tabella

Xi ni

0 35

1 51

2 122

3 38

Totale 246

- Calcolare le frequenze relative e percentuali.


- Quanti sono, in assoluto e in percentuale, i lavoratori che
hanno preso al massimo 2 giorni di malattia?
- Quanti sono i lavoratori che hanno preso più di 1 giorni di
malattia?

Per rispondere alla seconda domanda è necessario calcolare le


frequenze assolute e percentuali cumulate:

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 8 di 10
Maria Simona Andreano “Le diverse tipologie di frequenza”

Xi ni Ni pi Pi

0 35 35 14 14

1 51 35 + 51=86 21 14+21=35

2 113 35+51+113=199 46 14+21+46=81

3 47 35+...+47=246 19 14+...+19=100

246 100

- Quanti sono, in assoluto e in percentuale, i lavoratori che


hanno preso al massimo 2 giorni di malattia?
35 + 51 + 113 = 199 (Fr. assoluta cumulata)
14+21+46=81% (Freq. percentuale cumulata)

- Quanti sono i lavoratori che hanno preso più di 1 giorni di


malattia?
246 – 86 = 160
100 – 35 = 65%

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 9 di 10
Maria Simona Andreano “Le diverse tipologie di frequenza”

4. ESERCIZI

1. Sia data la seguente tabella di frequenze dell’età dei


ricercatori di una università italiana:

Età Freq. assolute


25-30 20
30-40 500
40-50 300
50-65 380
1200

Calcolare le frequenze relative e percentuali di tale tabella.


Quanti sono, in percentuale, i ricercatori con al massimo 40
anni?
Quanti sono in valore assoluto i ricercatori che sono oltre 15
anni dalla pensione?

Rispondere alle seguenti domande:


1. E’ possibile ricavarsi le frequenze assolute da quelle
percentuali?
2. E’ possibile ricavarsi le frequenze percentuali da quelle
relative?
3. E’ possibile ricavarsi le frequenze assolute semplici
dalle frequenze assolute cumulate?

(Risposte: no, si, si)

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 10 di 10
ESERCITAZIONE SULLE
FREQUENZE
Maria Simona Andreano
Maria Simona Andreano “Esercitazione sulle frequenze”

Indice

1. ESERCIZIO 1 SULLE FREQUENZE ---------------------------------------------------- 3


2. ESERCIZIO 2 SULLE FREQUENZE ---------------------------------------------------- 6

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 2 di 8
Maria Simona Andreano “Esercitazione sulle frequenze”

1. ESERCIZIO 1 SULLE FREQUENZE

In 500 aziende agricole situate in una provincia pugliese è stata


rilevata la tipologia di piantagione prevalente. I dati sono riportati
nella seguente tabella:

Xi ni

Ulivi 210

Vigneti 80

Alberi da frutto 40

Grano 170

Totale 500

a) Calcolare le frequenze relative e percentuali per i dati


riportati in tabella.
b) Può avere senso calcolare le frequenze cumulate per la
distribuzione data?
c) Che percentuale di copertura ha la piantagione più diffusa
sul territorio?

Riprendiamo innanzi tutto le formule per calcolare le frequenze


relative e percentuali:

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 3 di 8
Maria Simona Andreano “Esercitazione sulle frequenze”

Applichiamo tali formule ai dati della tabella e completiamo i


calcoli per determinare la colonna delle frequenze relative e quella
delle frequenze percentuali.

Xi ni fi pi

Ulivi 210 210/500=0.42 0.42100=42

Vigneti 80 80/500= 0.16 0.26100=26

Alberi da 40 40/500= 0.08 0.08100=8


frutto

Grano 170 170/500=0.34 0.34100=34

Totale 500 1 100

Può avere senso calcolare le frequenze cumulate per la


distribuzione data?

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 4 di 8
Maria Simona Andreano “Esercitazione sulle frequenze”

Ricordiamo che le frequenze cumulate sono ricavate


semplicemente da quelle normali, sommando, mano a mano che si
avanza nelle modalità. Ovviamente può aver senso calcolare tali
frequenze cumulate soltanto se l’ordine con cui si riportano le
modalità è predefinito, altrimenti avremmo delle frequenze cumulate
che cambiano a seconda della sequenza scelta. Quindi requisito
necessario per calcolare le frequenze cumulate è che il carattere sia
“almeno” ordinabile.
Nel nostro caso il carattere è qualitativo sconnesso, pertanto
non è possibile determinare le frequenze cumulate.

Che percentuale di copertura ha la piantagione più


diffusa sul territorio?
Per rispondere a tale risposta si deve individuare il massimo di
frequenza e vedere quale modalità gli corrisponde. Notiamo in
particolare che la modalità con massimo di frequenza è la stessa, sia
se si guarda alla frequenza assoluta, relativo che percentuale. Questo
perchè le seconde sono ricavate dalle precedenti per divisione o
moltiplicazione con una costante e quindi il massimo rimane
inalterato.

Avremo allora che la risposta alla domanda è:


Il 42% e si riferisce agli "Ulivi".

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 5 di 8
Maria Simona Andreano “Esercitazione sulle frequenze”

2. ESERCIZIO 2 SULLE FREQUENZE

Nella seguente tabella è riportato il numero degli addetti nelle


aziende ICT del comune ABC:

Xi ni

1-5 25

5-10 19

10-20 20

> 20 6

Totale 70

a) Calcolare le frequenze relative e percentuali della tabella.


b) Quante sono, in termini assoluti e percentuali, le aziende
ICT con al massimo 20 addetti?
c) E con massimo 10 addetti?

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 6 di 8
Maria Simona Andreano “Esercitazione sulle frequenze”

Calcoliamo le frequenze relative e percentuali con le solite


formule introdotte nelle slide precedenti:

Xi ni fi pi

1-5 25 25/70 = 0.36 è0.35 0.35100=35

5-10 19 19/70 = 0.27 0.27100=27

10-20 20 20/70 = 0.29 0.29100=29

> 20 6 6/70 = 0.09 0.09100=9

Totale 70 1 100

Per rispondere agli altri quesiti è necessario calcolare le


frequenze cumulate. Riportiamo quindi nella seguente tabella tutte le
frequenze richieste:

Xi ni Ni pi Pi

1-5 25 25 35 35

5-10 19 25+19=44 27 35+27= 62

10-20 20 25+19+20=64 29 35+27+29= 91

> 20 6 25+...+6=70 9 35+...+9=100

Totale 70 100

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 7 di 8
Maria Simona Andreano “Esercitazione sulle frequenze”

Ricordiamo che con la lettera maiuscula si indica la frequenza


cumulata e con quella minuscola quella normale.
Possiamo a questo punto rispondere alla seguente domanda.
Quante sono, in termini assoluti e percentuali, le
aziende ICT con al massimo 20 addetti?
Sono 64, in termini assoluti, che rappresentano il 91% del
totale

E con massimo 10 addetti?


Sono 44 aziende, che rappresentano il 62% del totale.

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 8 di 8
CLASSIFICAZIONE DEI
FENOMENI STATISTICI
Maria Simona Andreano
Maria Simona Andreano “Classificazione dei fenomeni statistici”

Indice

1. TIPOLOGIA DI FENOMENI E MODALITÀ ------------------------------------------ 3


2. OPERAZIONI SULLE MODALITÀ ------------------------------------------------------ 7
3. ESEMPIO CARATTERE QUALITATIVO --------------------------------------------- 8
4. ESEMPIO CARATTERE QUANTITATIVO ----------------------------------------- 11
5. ESERCIZI ----------------------------------------------------------------------------------------- 14

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 2 di 14
Maria Simona Andreano “Classificazione dei fenomeni statistici”

1. TIPOLOGIA DI FENOMENI E MODALITÀ

I dati a disposizione dello statistico non sono tutti della stessa


natura, poiché i fenomeni statistici possono essere di diverso tipo. La
caratteristica osservata sulle unità statistiche si può esplicitare in
modo diverso e a seconda della sua tipologia sarà possibile condurre
analisi diverse sui dati raccolti.
La conoscenza della tipologia del fenomeno rappresenta
pertanto un primo passo fondamentale nell’analisi statistica.
Esiste un ordine nella tipologia dei caratteri rilevati, definito in
base all’informazione che se ne può estrarre con il metodo statistico.
Nell’ordine più basso sarà possibile effettuare poche operazioni sui
dati rilevati e ricavare indicazioni di basso livello informativo, nella
parte alta della graduatoria d’ordine ritroviamo invece caratteri a
forte contenuto informativo che possono essere gestiti in diversi modi.
Riprendiamo alcune definizioni fondamentali per introdurre la
classificazione dei fenomeni:
- unità statistica = individuo su cui si osserva la caratteristica di
interesse
- il carattere = è la caratteristica, oggetto di studio, rilevata e/o
misurata sulle unità statistiche.

Il carattere osservato sull’unità statistica si può esprimere


attraverso un attributo o attraverso un numero. Nel primo caso
(attributo) parliamo di carattere qualitativo e nel secondo (numero)
di carattere quantitativo.
Consideriamo il seguente esempio ipotetico, dove su alcuni
studenti universitari sono stati osservate diverse caratteristiche: il

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 3 di 14
Maria Simona Andreano “Classificazione dei fenomeni statistici”

numero di esami sostenuti (E), il voto riportato negli esami (V), il


grado di soddisfazione dello studente (R), il fatto di essere o no fuori
sede (F). I dati relativi a cinque unità, specificate con i numeri: 27,
131, 271, 311 e 321, sono riportati nella seguente tabella.

Vedremo più avanti che tale modo di elencare i dati unitari, per
elenco, è spesso poco efficiente. Tuttavia andiamo a leggere nel
dettaglio i dati raccolti:
- l’unità individuata con il numero 27 ha sostenuto 2 esami, dove
ha riportato le votazioni di 28 e 25, esprime un grado di
soddisfazione “Ottimo” ed è uno studente “Fuori sede”.
- L’unità individuata con il numero 131 ha sostenuto 1 esame,
dove ha riportato la votazione di 29, esprime un grado di
soddisfazione “ottimo” ed è “Fuori sede”.
- ...

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 4 di 14
Maria Simona Andreano “Classificazione dei fenomeni statistici”

- Lo studente 321 ha sostenuto 2 esami, entrambi con voto 26 e


25, ha un grado di soddisfazione “Buono”, ed è “Fuori sede”.

Possiamo notare che la manifestazione e osservazione dei


diversi caratteri analizzati si può esprimere con un numero (esempio
numero esami o votazione riportata) o con un attributo (esempio
grado soddisfazione e Fuori sede).
Nel primo caso abbiamo pertanto due caratteri quantitativi, nel
secondo, invece, si sono osservati due caratteri qualitativi.

In realtà è possibile fare un’ulteriore specificazione. Infatti il


carattere “Grado di soddisfazione” e “Fuori sede” non presentano le
stesse proprietà. Nel primo caso è possibile definire un ordine tra i
risultati registrati sulle unità statistiche, nel secondo no.
Avremo allora che i caratteri qualitativi sono divisi a loro
volta in:
-caratteri qualitativi sconnessi (non ordinabili, ad esempio:
sesso, stato civile, squadra di calcio per cui si tifa);
-caratteri qualitativi ordinabili (ad esempio: livello nella
professione, grado militare).

Allo stesso modo è possibile specificare meglio le proprietà dei


caratteri quantitativi. Benché tutti si manifestino attraverso un
numero, alcuni caratteri quantitativi assumono soltanto numeri interi
come valori osservabili (o in generale un insieme numerabile), altri
invece, fissato un intervallo, possono esprimersi potenzialmente
attraverso tutti i valori all’interno di tale intervallo. Avremo pertanto
che i caratteri quantitativi (misure) possono essere distinti in:

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 5 di 14
Maria Simona Andreano “Classificazione dei fenomeni statistici”

- caratteri quantitativi discreti, cioè in grado di assumere solo


un numero discreto (finito o infinito) di modalità (ad esempio: numero
di figli di una coppia, voto esame universitario);
- caratteri quantitativi continui, cioè in grado di assumere
qualunque valore all’interno di un intervallo definito (ad esempio:
peso, reddito).

Il modo in cui il carattere si manifesta sulla singola unità


statistica è detto “modalità”.
Riprendendo la tabella precedente abbiamo, per esempio, che il
carattere “Soddisfazione” si manifesta con le modalità: Ottimo, Buono
e Sufficiente.
A seconda quindi della tipologia del carattere, le modalità
saranno attributi o numeri, ordinabili o non ordinabili, discreti o
continui.
Schematizzazione dei differenti mo-

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 6 di 14
Maria Simona Andreano “Classificazione dei fenomeni statistici”

2. OPERAZIONI SULLE MODALITÀ

A ciascuna tipologia di carattere, e quindi di modalità,


corrispondono diverse operazioni applicabili. Per esempio, nel caso di
un carattere qualitativo nominale (non ordinabile) si può esprimere
soltanto un parere di uguaglianza-disuguaglianza. Nel caso il
carattere, benché qualitativo, sia almeno ordinabile, sarà possibile
invece esprimere un confronto “maggiore - minore”.
Se infine abbiamo caratteri quantitativi, il confronto si può
esplicitare attraverso la misurazione della differenza o del rapporto
tra modalità.

La seguente tabella riassume le differenti operazioni che


possono applicarsi sulle varie tipologie di caratteri.

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 7 di 14
Maria Simona Andreano “Classificazione dei fenomeni statistici”

3. ESEMPIO CARATTERE QUALITATIVO

Consideriamo il seguente esempio esplicativo, riferito a un


carattere qualitativo.
Su 4 studenti (unità statistiche) di Universitas Mercatorum si è
osservato il carattere “Comune di residenza”:

Studente Comune

Lucia Anzio

Marco Roma

Luca Roccaraso

Matteo Roma

La modalità del carattere è espressa con un attributo e non con


un numero: il carattere è qualitativo.
Lucia, Luca, etc. sono le nostre unità. Possiamo anche evitare
di trascriverne il nome e riportarne un numero identificativo in
sequenza. Il carattere osservato è: Comune di residenza e le modalità,
ossia il modo di manifestarsi del carattere, sono Anzio, Roma, etc.
Su tali modalità possiamo soltanto applicare operazioni di = e ≠
(carattere qualitativo sconnesso).

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 8 di 14
Maria Simona Andreano “Classificazione dei fenomeni statistici”

Nello specifico possiamo affermare che:


- Il comune di residenza di Lucia è diverso (≠) da quello di
Marco.
- Il comune di residenza di Marco è uguale (=) a quello di
Matteo.

Non è invece possibile definire un ordine nelle modalità e


neanche calcolare “quanto” siano diverse.

Consideriamo il seguente secondo esempio. Supponiamo che su


5 persone intervistate per strada (unità statistiche) sia stato chiesto il
titolo di studio posseduto e i risultati sono presentati nella seguente
tabella:

Unità statistica Titolo

1a media inf

2a diploma

3a media inf

4a laurea

5a elementare

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 9 di 14
Maria Simona Andreano “Classificazione dei fenomeni statistici”

Anche in questo caso la modalità del carattere è espressa con


un attributo e non con un numero, quindi abbiamo a che fare con un
carattere qualitativo.
Tuttavia in questo caso tra le modalità possiamo applicare sia
operazioni di uguaglianza e disuguaglianza, che di ordine. Ossia è
possibile esprime se una modalità si trova prima o dopo di un’altra,
nella rispettiva graduatoria di riferimento. Abbiamo allora che il
carattere è qualitatico ordinabile.
Riprendendo la tabella possiamo allora dire che:

- La 4a unità ha il titolo più alto (>);


- La 5a unità ha il titolo più basso (<);
- La 1a e la 3a hanno lo stesso titolo (=);
- La 2a e la 5a hanno titolo diverso (≠).

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 10 di 14
Maria Simona Andreano “Classificazione dei fenomeni statistici”

4. ESEMPIO CARATTERE QUANTITATIVO

Consideriamo il seguente esercizio esplicativo.


Su 4 studenti (unità statistiche) di Universitas Mercatorum si è
osservato il carattere “Voto all'esame di Statistica”:

Studente Voto

Lucia 28

Marco 24

Luca 20

Matteo 26

Non deve ingannare il nome delle unità statistiche, poiché la


variabile che si sta analizzando è “Il voto” e non “Il nome”. Infatti,
potremmo tranquillamente tralasciare ai fini dell’analisi
l’informazione della prima colonna. L’osservazione del carattere
oggetto dell’analisi è riportato nella seconda colonna. Pertanto la
modalità del carattere è espressa con un numero, quindi il carattere è
quantitativo.
Le modalità osservate sono: 28, 24, 20 e 26.

Tra tali modalità possiamo applicare operazioni di = ,≠ , < , > ,


+e-:
- Il voto di Lucia è diverso (≠) da quello di Marco;

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 11 di 14
Maria Simona Andreano “Classificazione dei fenomeni statistici”

- Matteo ha preso un voto maggiore di Marco (>);


- La differenza tra il voto di Marco e Luca è di 4 punti (-).

Inoltre precisiamo che le modalità del carattere sono espresse


solo dai numeri interi da 18 a 30, pertanto il carattere è quantitativo
discreto. Non è possibile osservare valori decimali, del tipo 20,45!

Passiamo a considerare il seguente secondo esempio.


Sugli stessi 4 studenti (unità statistiche) di Universitas
Mercatorum si è osservato anche il carattere “Peso” :

Studente Peso (kg)

Lucia 56,3

Marco 72,5

Luca 88,7

Matteo 65,4

La modalità del carattere è espressa sempre con un numero e


quindi il carattere è quantitativo.

Tra tali modalità possiamo utilizzare le operazioni di = ,≠ , < , >


,+e-:
- Il peso di Lucia è diverso (≠) da quello di Marco;
- Matteo pesa meno di Marco (<);

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 12 di 14
Maria Simona Andreano “Classificazione dei fenomeni statistici”

- La differenza tra il peso di Marco e Luca è di 16,2 kg (-).

Al contrario di quanto avveniva prima, fissato un qualsiasi


intervallo (plausibile) di valori, è possibile osservare qualsiasi valore
all’interno di esso. Avremo allora che il carattere in oggetto è un
carattere quantitativo continuo.

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 13 di 14
Maria Simona Andreano “Classificazione dei fenomeni statistici”

5. ESERCIZI

Precisare per i seguenti caratteri, se sono: qualitativi sconnessi


(qls), qualitativi ordinabili (qlo), quantitativi discreti (qtd) o
quantitativi continui (qtc):

1. Lo sport praticato
2. Le ore di sport praticato
3. Il fatturato delle aziende ICT
4. I paesi importatori del made in Italy
5. Le esportazioni di beni made in Italy
6. La dimensione delle aziende agricole
7. Gli stabilimenti posseduti dalle industrie alimentari nella
provincia di Parma
8. Il titolo di studio posseduto dai dipendenti di un ufficio
9. L’anno di corso in cui si è iscritti nella laurea triennale
10. Il sesso degli studenti iscritti al corso di laurea di Economia

Soluzioni
1. qls 2.qtd 3.qtc 4.qls 5.qtc 6.qtc 7.qtd 8.qlo 9.qlo 10.qls

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 14 di 14
L'ISTOGRAMMA
Maria Simona Andreano
Maria Simona Andreano “L'istogramma”

Indice

1. L’AMPIEZZA E LA DENSITÀ DI CLASSE -------------------------------------------- 3


2. RAPPRESENTAZIONE TRAMITE ISTOGRAMMA------------------------------- 5
3. ESERCIZI ------------------------------------------------------------------------------------------- 8

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 2 di 8
Maria Simona Andreano “L'istogramma”

1. L’AMPIEZZA E LA DENSITÀ DI CLASSE


I caratteri quantitativi continui sono rappresentati tramite
tabelle con modalità espresse in classi. I grafici usati per i caratteri
qualitativi o quantitativi discreti non possono essere usati
automaticamente sui dati continui. La presenza delle classi richiede
alcune accortezze.
Innanzi tutto, al fine della costruzione del grafico, è
fondamentale tener conto dell'ampiezza della classe (ai):

ai  wi1  wi

Le distribuzioni
 di caratteri continui possono avere classi con
ampiezza differente. L’ampiezza della classe può essere definita a
priori dalla rilevazione oppure può essere scelta arbiatrariamente dal
ricercatore, in base ai dati raccolti.
Di fatto abbiamo che se un intervallo ha ampiezza maggiore,
sarà più facile contare osservazioni che cadono in quell’intervallo e
quindi osservare una frequenza maggiore di un intervallo meno
ampio.
Ossia le frequenze riportate nella tabella sono condizionate
dalla diversa ampiezza degli intervalli.
Nelle rappresentazioni grafiche abbiamo però l’esigenza di
avere assicurata una proporzionalità tra le aree e le frequenze.
Pertanto nel caso in oggetto sarà necessario effettuare un’operazione
di normalizzazione delle frequenze.
In particolare, per depurare le frequenze dalla diversa
ampiezza delle classi si devono calcolare le densità di frequenza (li)

ni
li 
ai
Attenzione! Questo materiale didattico è per uso personale dello studente ed è
coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 3 di 8
Maria Simona Andreano “L'istogramma”

Il significato della densità di frequenza è quello di dire quanto


le mie osservazioni sono “addensate” all’interno della classe. E’ come
si le osservazioni venissero distribuite equamente all’interno della
classe.
Per esempio, supponiamo di avere un intervallo 5-8 e al suo
interno osserviamo 6 unità (frequenza assoluta ni=6). Noi non
sappiamo queste 3 unità dove si posizionano all’interno dell’intervallo.
Quando calcoliamo la densità: li = 6/3 = 2, distribuiamo le 6 unità
all’interno della classe e posizioniamo tali unità in modo tale che ogni
sotto-intervallo di ampiezza 1 abbia 2 unità.
La densità di frequenza ci dice pertanto come si distribuiscono
le frequenze all'interno dell'intervallo. L'ipotesi è quella di
equidistribuzione.

Consideriamo la seguente tabella e calcoliamo le densità.

Le densità di frequenza possono calcolarsi per qualsiasi


tipologia di frequenza (semplice, relativa o percentuale).

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 4 di 8
Maria Simona Andreano “L'istogramma”

2. RAPPRESENTAZIONE TRAMITE ISTOGRAMMA

Nella costruzione dell'istogramma è fondamentale che le aree


dei rettangoli rispettino le proporzioni tra le frequenze osservate.
Se un intervallo ha una frequenza doppia rispetto ad un altro,
anche la rispettiva area deve essere doppia.
Se noi andassimo a disegnare un grafico a rettangoli,
prendendo come base la classe e come altezza la frequenza, tale
proporzionalità non sarebbe rispettata.

Al fine di rispettare tali proporzionalità è necessario calcolare


le densità di frequenze e costruire l'istogramma rispetto a queste.

L'istogramma è simile al diagramma a rettangoli visto per


caratteri qualitativi, solo che la base corrisponde all'intervallo
osservato.
Ogni rettangolo associato al rispettivo intervallo, deve avere
l'area uguale alla frequenza osservata.

L'area del rettangolo è data da base x altezza, dove la base è


l'ampiezza dell'intervallo.
Vadiamo quindi che considerando nel rettangolo l’altezza pari
alla densità, la corrispondenza tra area e frequenza è rispettata.

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 5 di 8
Maria Simona Andreano “L'istogramma”

Se invece riportiamo sull’asse delle ordinate le frequenze


direttamente osservate in corrispondenza delle classi, la
rappresentazione sarebbe errata, come messo in evidenza dai
seguenti due istogrammi, costruiti in corrispondenza dei dati riportati
nella precedente tabella.
Il primo istogramma considera sulle ordinate le frequenze. Se
prendiamo i primi due intervalli, abbiamo che il secondo presenta il
doppio delle osservazioni del primo. Se andiamo a fare però il
confronto in termini di rettangoli, il primo ha un’area pari a 30 (=10 
3) e il secondo pari a 48 (=8  6).
Quando invece disegnamo l’istogramma in riferimento alle
densità di frequenze, il primo rettangolo ha un’area pari a 3 (=10 
0.3) e il secondo pari a 6 (=8  0.75). In questo secondo caso è
rispettata la corrispondenza tra frequenze.

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 6 di 8
Maria Simona Andreano “L'istogramma”

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 7 di 8
Maria Simona Andreano “L'istogramma”

3. ESERCIZI

1. Calcolare per la seguente tabella le ampiezze e le densità di


frequenza:

Xi ni
0 - 10 50
10 - 50 80
50 - 100 200
100-500 180

2. Disegnare per tale tabella il rispettivo istogramma e


controllare che effettivamente l’area della classe 50-100 sia 4
volte quella della classe 0-10.
3. Si può disegnare un istogramma per caratteri quantitativo
discreti?
4. Possiamo disegnare per la tabella riportata sopra il grafico a
torta?

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 8 di 8
ESERCITAZIONE SULLE
RAPPRESENTAZIONI
GRAFICHE
Maria Simona Andreano
Maria Simona Andreano “Esercitazione sulle rappresentazioni grafiche”

Indice

1. ESEMPIO GRAFICO A TORTA ----------------------------------------------------------- 3


2. ESEMPIO ISTOGRAMMA ------------------------------------------------------------------- 6

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 2 di 11
Maria Simona Andreano “Esercitazione sulle rappresentazioni grafiche”

1. ESEMPIO GRAFICO A TORTA

Consideriamo la seguente distribuzione dell’uso del suolo


(APAT, 2003):

Aree Aree Aree boschive e


artificiali agricole seminaturali Altro

ITALIA 1273 16174 12406 361

Il diagramma a torte si ottiene dividendo l’angolo al centro di


360 gradi, in “fette” di dimensione proporzionale alla frequenza di
ciascuna modalità.

Nell’esempio, la modalità “aree agricole”, ha frequenza


percentuale pari al 53,53%.
Vediamo come fare per ricavarsi l’angolo che mi definisce la
sezione corrispondente a tale modalità.
La corrispondente fetta della torta è caratterizzata da un
angolo α di:

360 53,53
  193
100

La soluzione precedente
 si ricava facendo riferimento alle
proporzioni.

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 3 di 11
Maria Simona Andreano “Esercitazione sulle rappresentazioni grafiche”

Infatti il totale del cerchio, pari a 360°, corrisponde al totale


delle frequenze, ossia al 100% (se abbiamo frequenze percetuali,
altrimenti al corrispondente totale assoluto o relativo). Quindi
abbiamo che il grado α sta al totale di 360°, come la frequenza pi sta al
corrispondere totale di 100%. In formule avremo quindi:

 : 360  pi :100

Nel nostro caso specifico, quindi, avremo in corrispondenza


  : 360  53,53:100 agricole”:
della frequenza delle “aree

Da cui con semplici passaggi matematici ricaviamo:



360 53,53
  193
100

In generale possiamo quindi applicare la seguente formula, a



seconda che il grafico a torta sia calcolato in corrispondenza delle
frequenze percentuali, relative o assolute:

360 pi 360 ni
  360 f i 
100 n



Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 4 di 11
Maria Simona Andreano “Esercitazione sulle rappresentazioni grafiche”

Abbiamo quindi:
AREE ni pi α
Aree artificiali 1273 4,21 15,17
Aree agricole 16174 53,53 192,71
Aree boschive o 12406 41,06 147,82
seminaturali
Altro 361 1,19 4,30

Il rispettivo grafico è riportato di seguito:

Uso del Suolo

1,19% 4,21%

41,06%

53,53%

Aree artificiali Aree agricole Aree boschive e seminaturali Altro

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 5 di 11
Maria Simona Andreano “Esercitazione sulle rappresentazioni grafiche”

2. ESEMPIO ISTOGRAMMA

Consideriamo la seguente distribuzione dei redditi (espressi in


migliaia di euro) di 160 redditieri:

Classi ni

50-60 10

60-70 12

70-80 18

80-90 46

90-100 50

100-110 24

160

In questo caso abbiamo che le ampiezze delle classi sono tutte


uguali e pari a 10. In teoria in tale situazione, non avendo che le
frequenze sono influenzate dalle ampiezze delle classi, l’istogramma
può essere determinato considerando direttamente le frequenze
osservate.
Se l’istogramma viene calcolato rispetto alle frequenze, l’area
dei rettangoli non equivale alla frequenza, ma sarà comunque
proporzionale a questa. Pertanto viene rispettata la relazione di
proporzionalità tra le varie classi.
Per non creare confusione, anche in questo caso noi costruiamo
l’istogramma ricorrendo alle densità di frequenza:

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 6 di 11
Maria Simona Andreano “Esercitazione sulle rappresentazioni grafiche”

ni
li 
ai

Dove ai è fissa e pari a 10.



Le densità di frequenze sono calcolate in una colonna a destra
delle frequenze:

Classi ni li = ni/ai

50-60 10 1

60-70 12 1,2

70-80 18 1,8

80-90 46 4,6

90-100 50 5,0

100-110 24 2,4

160

L’istogramma determinato sulla base delle densità è riposrtato


di seguito:

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 7 di 11
Maria Simona Andreano “Esercitazione sulle rappresentazioni grafiche”

Istogramma di frequenza
6
Altezze o densità di frequenza h

0
50-60 60-70 70-80 80-90 90-100 100-110
Classi

Calcoliamo l’area della prima classe e della terza classe:


base  altezza = ai  li = 10  1 = 10
base  altezza = ai  li = 10  1,2 = 12

L’area corrisponde alle frequenze osservate.

Consideriamo ora il seguente esercizio, sempre riferito


all’istogramma.

Si consideri la distribuzione dei bambini in età


prescolare presso un pediatra di base

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 8 di 11
Maria Simona Andreano “Esercitazione sulle rappresentazioni grafiche”

Classi ni

0-1 10

1-6 20

Totale 30

In questo caso le classi sono di diversa ampiezza, quindi non


possiamo lascaire le frequenze ai fini della rappresentazione grafica.
Infatti se, erroneamente, determinassimo l’istogramma sui
valori direttamente riportati nella tabella, avremmo il seguente
istogramma:

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 9 di 11
Maria Simona Andreano “Esercitazione sulle rappresentazioni grafiche”

Calcolando le aree abbiamo:


base  altezza = ai  fi = 1  10 = 10
base  altezza = ai  fi = 5  20 = 100

Abbiamo pertanto che la seconda area è 10 volte la prima,


mentre in termini di frequenze osservate, la seconda classe ha
frequenze che sono 2 volte la prima!!!!

Sappiamo invece che:


- Negli istogrammi deve esistere corrispondenza tra l’area
dell’intervallo e la rispettiva frequenza (assoluta o relativa).
- La densità di frequenza permette di rispettare tale
proporzionalità.
- Se si calcola l'area dei rettangoli per ogni intervallo (base x
altezza), questa equivale esattamente alla rispettiva frequenza
osservata.

Calcoliamo allora le densità:

ni n
li   i
wi1  wi ai



Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 10 di 11
Maria Simona Andreano “Esercitazione sulle rappresentazioni grafiche”

e sulla base di queste determiniamo l’istogramma corretto:

Classi ni wi+1–wi li

0-1 10 1 10

1-6 20 5 4

Totale 30

Adesso abbiamo che la proporzionalità tra le frequenze è


rispettata nel grafico. Infatto guardando le aree abbiamo:

base  altezza = ai  li = 1  10 = 10
base  altezza = ai  li = 5  4 = 20.

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 11 di 11
INTRODUZIONE ALLE
MEDIE
Maria Simona Andreano
Maria Simona Andreano “Introduzione alle Medie”

Indice

1. CONCETTI BASILARI SULLA MEDIA ------------------------------------------------ 3


2. LE MEDIE DI POSIZIONE ------------------------------------------------------------------ 5
3. LA MODA ------------------------------------------------------------------------------------------- 7
4. ESERCIZI ----------------------------------------------------------------------------------------- 11

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 2 di 11
Maria Simona Andreano “Introduzione alle Medie”

1. CONCETTI BASILARI SULLA MEDIA

I primi passi per organizzare e sintetizzare una serie di dati


sono quelli della costruzione di una tabella di frequenze e di
rappresentarla con un opportuno grafico. In questo modo è possibile
avere una più immediata e facile comprensione dell’andamento del
fenomeno analizzato.
Scopo principale della statistica è, tuttavia, quello di cercare di
sintetizzare con degli opportuni indici, l’andamento globale del
fenomeno, in modo di passare da un’informazione unitaria ad una
sintetica.
Osservando il grafico di una particolare distribuzione, viene
naturale pensare di descriverne alcune caratteristiche attraverso
degli indici sintetici.

Esistono molti indici sintetici, che rispondono a diverse


esigenze conoscitive. L’uso di tali indici permette di conoscere le
caratteristiche principali del fenomeno investigato. A partire da tali
indici è possibile rispondere a diverse domande, tra cui:

Quale reddito disponibile ha mediamente una certa


popolazione?
Qual è l’età media al pensionamento di un gruppo di lavoratori?
Qual è la classe di addetti in cui si addensano il maggior
numero delle imprese operanti in un territorio?

La media è l'indice sintetico adatto a descrivere la tendenza del


fenomeno e infatti spesso viene anche definito indice di tendenza.

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 3 di 11
Maria Simona Andreano “Introduzione alle Medie”

La media permette di sintetizzare con un unico valore


(attributo) l'intera distribuzione osservata.
Erroneamente siamo abituati a pensare che la media sia una
sola e che esiste un’unica formula per calcolarla. In realtà il
matematico Cauchy ha fornito una formula generale di media, dalla
quale è possibile ricavare infinite medie diverse. In realtà solo alcune
di queste hanno un significato immediato e permettono
un’interpretazione reale e significativa.
Nel nostro corso concentreremo l'attenzione solo su alcune
medie, riprendendo la differenza fondamentale tra medie di posizione
e medie analitiche.

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 4 di 11
Maria Simona Andreano “Introduzione alle Medie”

2. LE MEDIE DI POSIZIONE

Le medie di posizione sono degli indici sintetici ricavati facendo


riferimento alla particolare posizione occupata da una osservazione
nella distribuzione.
Al fine di comprendere bene quale particolare media è utile
calcolare sui dati disponibile, è necessario riprendere le distinizioni
introdotte tra le diverse tipologie di caratteri:
- caratteri qualitativi sconnessi
- caratteri qualitativi ordinabili
- caratteri quantitativi discreti e continui

Sappiamo che a posizioni superiori di tale graduatoria


corrisponde una capacità informativa superiore. La stessa analogia si
ritrova nel calcolo degli indici sintetici.
Esistono medie calcolabili per caratteri qualitativi sconnesi, per
caratteri almeno odinabili o solo per caratteri quantitativi.
Le medie di posizioni possono calcolarsi anche per caratteri
nella fascia bassa della precedente graduatoria e anche se sono a volte
poco ricche di informazioni sulla distribuzione osservata, hanno il
grande vantaggio di essere determinabili sempre e per qualsiasi
tipologia di caratteri.

Tra le medie di posizione ritroviamo:


- la moda
- la mediana
- i quantili (quartili)

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 5 di 11
Maria Simona Andreano “Introduzione alle Medie”

Nel caso di medie analitiche, invece, si applica una particolare


formula sui dati osservati. Pertanto sarà necessario poter sommare,
moltiplicare, dividere, etc. tra loro i valori osservati. E’ per questo che
sono applicabili soltanto se le modalità del carattere sono espressi
numericamente, ossia se stiamo lavorando con caratteri quantitativi.
Tra le diverse medie analitiche presenti in letteratura noi
concentriamo la nostra attenzione esclusivamente sulla media
aritmetica.

Ritroviamo una graduatoria informativa tra le varie medie, che


segue quella della tipologia dei caratteri, sui quali è possibile
applicarle:

Moda < Mediana = Quantili < Media aritmetica

dove il segno "<" va inteso non in termini numerici, ma in


termini di capacità informativa.

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 6 di 11
Maria Simona Andreano “Introduzione alle Medie”

3. LA MODA

L’indice sintetico di tendenza più semplice e immediato, che


può essere calcolato per qualsiasi tipo di distribuzione, è la Moda.

La definizione di Moda segue il significato comunemente usato


per tale termine in italiano:

"Quando qualcosa va di moda, si osserva diffusamente


tra la popolazione."

Da ciò possiamo ricavare una definizione di Moda più rigorosa


dal punto di vista statistico.

Definizione:
La moda è la modalità xi di un fenomeno statistico che
presenta frequenza (assoluta, relativa o percentuale) più elevata.

La moda può essere facilmente individuata osservando


attentamente il grafico della distribuzione.
Corrisponde alla modalità con barra, rettangolo, sezione,...
maggiore.

Esiste un'eccezione a tale definizione, nel caso in cui il


carattere sia quantitativo continuo e pertanto rappresentato in classi.
Se le classi hanno diversa ampiezza, l'individuazione della Moda (in
questo caso parliamo in realtà di classe modale) avviene in
corrispondenza del massimo di densità di frequenza.

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 7 di 11
Maria Simona Andreano “Introduzione alle Medie”

Ricordiamo che la densità di frequenza è data da:

ni
li 
ai

Dove la frequenza della classe viene depurata dall’ampiezza


della classe stessa. 

Inoltre spesso per comodità, una volta individuata la classe con


massima densità, si definisce Moda il valore centrale del rispettivo
intervallo.

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 8 di 11
Maria Simona Andreano “Introduzione alle Medie”

Può succedere inoltre che ci siano più valori con frequenza più
elevata, allora tutti vengono considerati mode e in questo caso che la
distribuzione è plurimodale.

L'importanza di tale indice risiede innanzi tutto nel fatto che è


SEMPRE calcolabile, anche per caratteri qualitativi sconnessi. E a
volte è l'unica media determinabile nella distribuzione.

Ricordarsi che la moda NON è la massima frequenza, ma la


modalità associata a questa. Pertanto la corretta procedura per
individuare la moda è data dai seguenti semplici passi:
- individuare la frequenza più elevata all’interno della
distribuzione
- se la distribuzione è per classi, calcolare le densità di frequenza
e individuare la densità maggiore

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 9 di 11
Maria Simona Andreano “Introduzione alle Medie”

- trovare la modalità, o classe modale, che corrisponde a tale


massimo
- tale modalità è la Moda.

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 10 di 11
Maria Simona Andreano “Introduzione alle Medie”

4. ESERCIZI

1. Per quale dei seguenti caratteri si può calcolare una media


analitica:
sport praticato, numero di ore di sport praticato, classi di
addetti agricoli, numero di notti trascorse in albergo, tipologia di
alloggio.
2. Calcolare la Moda della seguente tabella:

Xi ni
Roma 210
Milano 315
Torino 97
Palermo 112

3. Calcolare la Moda della seguente tabella:

Xi ni
0-2 20
2-5 30
5-10 100
10-20 120

(Soluzioni: 1. numero di ore di sport praticato, classi di addetti


agricoli, numero di notti trascorse in albergo; 2. Milano; 3. 5-10)

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 11 di 11
LA MEDIANA
Maria Simona Andreano
Maria Simona Andreano “La Mediana”

Indice

1. LA MEDIANA PER DATI SINGOLI ----------------------------------------------------- 3


2. LA MEDIANA E LE FREQUENZE CUMULATE ---------------------------------- 6
3. LA MEDIANA PER DATI IN CLASSI --------------------------------------------------- 8

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 2 di 9
Maria Simona Andreano “La Mediana”

1. LA MEDIANA PER DATI SINGOLI

Nell’ambito delle medie di posizione ritroviamo la Mediana.


La mediana è definita come quel valore (centrale) che, una
volta ordinati i dati del campione, lascia alla sua sinistra e alla sua
destra la metà del campione, ossia che divide a metà la distribuzione
dei dati ordinati.
Rappresenta un valore di equilibrio all'interno della
distribuzione, poichè metà delle osservazioni saranno maggiori della
Mediana e metà inferiori.
Affinchè la Mediana sia determinabile, i dati devono essere
ordinabili.
Mentre la Moda può calcolarsi per qualsiasi tipologia di
carattere, anche qualitativo sconnesso, ai fini del calcolo della
Mediana, deve esserci la possibilità di ordinare le modalità osservate
dal più piccolo al più grande (in termini quantitativi o ordinali).
Pertanto sui caratteri qualitativi sconnessi non è possibile
calcolare la Mediana.

Mentre per l’individuazione della Moda si cercava il valore che


corrispondeva alla posizione con massimo di frequenza (o di densità),
per la Mediana si cerca il valore che ha si posiziona al centro.

Come si trova il posto centrale?

L’esatta posizione varia a seconda che il numero di dati sia


pari o dispari. Consideriamo distintamente le due situazionie.

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 3 di 9
Maria Simona Andreano “La Mediana”

Caso 1: n è dispari. La posizione è (n+1)/2.


Caso 2: n è pari. Ho due valori al centro, uno di posizione n/2 e
l'altro in posizione successiva (n/2)+1.

Fare attenzione quando si calcola la posizione ad usare la


formula corretta. Se n è pari, usando la prima formula, si ottiene un
numero non intero, mentre necessariamente la posizione deve essere
un numero intero.
Ricordiamo inoltre che, ai fini della determinazione della
Mediana, il primo passo da fare è controllare che i dati siano
ordinabili e ordinarli.

Esempio
Livello di studio osservato su 7 individui

LE L D LM L LE L

(LE=licenza elementare, LM= licenza media, D=diploma maturità,


L=laurea)

1. Ordinare i dati:

LE LE LM D L L L

n = 7, dispari. La posizione centrale è data da: (n+1)/2 = (7+1)/2 = 4


(caso 1)

LE LE LM D L L L

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 4 di 9
Maria Simona Andreano “La Mediana”

La Mediana è “Diploma”, poiché in posizione 4 osserviamo tale


dato.
Ricordarsi che la Mediana non è la posizione, ma il valore che
occupa quella posizione. Come nel caso della Moda: la moda non è la
massima frequenza, ma il valore che corrisponde alla massima
frequenza!

Riprendiamo l’esempio precedente, aggiungendo un individuo


con LE:

LE LE LE LM D L L L
Adesso n = 8, pari. Abbiamo quindi due posizioni:
- 1° posizione: n/2 = 8/2 = 4
- 2° posizione (n/2)+1=(8/2)+1=5

In corrispondenza di tali posizioni ritroviamo: LM e D. I valori


sono distinti e quindi abbiamo due mediane, Me1= licenza media e
Me2= Diploma.

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 5 di 9
Maria Simona Andreano “La Mediana”

2. LA MEDIANA E LE FREQUENZE CUMULATE

Quando i valori osservati sono tanti e non li abbiamo per


elenco, ma sono rappresentati in tabella di frequenza, possiamo
ricorrere alle frequenze cumulate per determinare la Mediana.

Consideriamo il seguente esempio:


Numero di esami sostenuti dagli studenti iscritti al secondo
anno di Gestione d’impresa:

Xi ni

1 2

2 4

3 8

4 10

5 6

6 5

7 2

La numerosità totale è n = 19 = dispari. Pertanto la posizione


della Mediana è
(n+1)/2=(37+1)/2 =19
(la posizione deve essere SEMPRE numero intero: no 37/2 + 1=
19.5!!!!)

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 6 di 9
Maria Simona Andreano “La Mediana”

Per trovare quale valore (modalità) si trova nella posizione 19 è


utile calcolare le frequenze cumulate.

Possiamo trovare la Mediana guardando le frequenze cumulate


e quale modalità è subito dopo il 50%:
Me = 4.

Xi ni Ni Fi

1 2 2 0.05

2 4 6 0.16

3 8 14 0.38

4 10 24 0.65

5 6 30 0.81

6 5 35 0.95

7 2 37 1.00

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 7 di 9
Maria Simona Andreano “La Mediana”

3. LA MEDIANA PER DATI IN CLASSI

Il caso di dati raccolti in classi deve essere trattato


separatamente. Infatti la procedura vista fino ad ora permette
l’individuazione della classe mediana. Dopodiché sarà necessario
individuare, all’interno della classe, il valore specifico.
Iniziamo quindi con l’individuare la classe cui compete la
frequenza cumulata pari a n/2:

xi – xi+1

Per calcolare il valore esatto della Mediana all'interno di tale


intervallo si fa l’ipotesi che le osservazioni che cadono nell’intervallo
siano equidistribuite. Da tale ipotesi se ne ricava la seguente formula:

n
 N i1
Me  x i  2
li
Dove con Ni-1 si indica la frequenza cumulata fino alla classe
esattamente precedente quella della mediana.


Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 8 di 9
Maria Simona Andreano “La Mediana”

Ricorriamo ad un esempio per chiarire meglio.


Esempio:
Supponiamo di avere la seguente distribuzione riportata di
seguito. Abbiamo n=38, quindi n/2=19. In base alle frequenze
cumulate individuiamo la classe mediana, che è 10-15. Andiamo
quindi a specificare al suo interno il valore esatto della Mediana:

n
 N i1
Me  x i  2

li
19 14
 15  1
1,6
 5  3,125  18,125

Xi ni Ni

0-2 2 2

2-5 4 6

5-10 8 14

10-15 10 24

15-20 6 30

20-30 5 35

30-50 3 38

Riprendento la formula, abbiamo che 15 è l’estremo inferiore


dell’intervallo mediano, 19 è il posto della mediana e 14 sono le
frequenze cumulate fino all’intervallo precedente quello mediano.
Applicando la formula, sotto l’ipotesi di equidistribuzione,
abbiamo quindi che la Me = 18,125.

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 9 di 9
I QUANTILI E I QUARTILI
Maria Simona Andreano
Maria Simona Andreano “I quantili e i quartili”

Indice

1. I QUANTILI ---------------------------------------------------------------------------------------- 3
2. I QUARTILI ---------------------------------------------------------------------------------------- 5
3. ESERCIZI ------------------------------------------------------------------------------------------- 8

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 2 di 8
Maria Simona Andreano “I quantili e i quartili”

1. I QUANTILI

Osservando il grafico di una particolare distribuzione viene


naturale descriverne alcune caratteristiche attraverso degli indici
sintetici.
Tra le medie di posizione abbiamo la Mediana, che rappresenta
il valore che occupa la posizione centrale all’interno della
distribuzione. Quindi la Mediana divide in due parti uguali la
distribuzione. In realtà possiamo essere interessati a dividere, in
ggenerale, la distribuzione din k parti uguali.

Possiamo, per esempio, pensare di dividere la distribuzione in


10 parti uguali. In questo caso i valori che dividono in questo modo la
distribuzione sono detti "Decili".

In generale parliamo di "Quantili", benchè nei casi applicativi


si usi k = 2, 4, 10.
Quando k = 2, il valore che divide la distribuzione è la Mediana.
Quando k = 4 parleremo di Quartili
Quando k = 10, avremo i Decili.
Quando k = 100 si hanno i Percentili.

La logica sottostante la individuazione di tali indici è sempre la


stessa, cambia solo il valore k rispetto al quale dividere la
distribuzione.
Innanzi tutto, al fine di poter calcolare tali indici, il carattere
deve essere almeno ordinabile. Quindi per caratteri qualitativi
sconnessi non possiamo individuare tali indici.

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 3 di 8
Maria Simona Andreano “I quantili e i quartili”

I decili vengono usati spesso nell'analisi della povertà.


Il primo decile D1 è quel valore che lascia a sinistra il 10% delle
osservazioni e a destra il 90%.
Ossia: solo il 10% delle unità presenta osservazioni del
carattere inferiore a D1 . Se quindi, nella distribuzione dei redditi
italiani il primo decile è, supponiamo, D1 = 500 euro, questo vuol dire
che esiste un 10% della popolazione che vive con un reddito inferiore
ai 500 euro mensili. Facendo riferimento ai percentili vengono
definite le soglie di povertà, che vengono poi usate anche a livello
politico e amministrativo, per definire eventuali assegni di assistenza.
Dall’altra parte, possiamo considerare l’ultimo decile, che
divide la distribuzione con un 90% inferiore ad esso e solo un 10%
supeirore. Supponiamo che tale valore sia 10.000 euro. Ciò significa
che in base alla nostra distribuzione dei redditi, verifichiamo che
eesiste un 10% della popolazione che guadagna almeno 10.000 euro
mensili. Quindi tale soglia potrebbe essere definita di “riccehzza”.

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 4 di 8
Maria Simona Andreano “I quantili e i quartili”

2. I QUARTILI

Consideriamo nello specifico i quartili, che sono gli indici in tale


classe più usati e utilizzati nella statistica. Parliamo di quartili
quando si divide la distribuzione in quattro parti uguali. Quindi k = 4.

Se dividiamo la distribuzione in 4 parti uguali, parliamo di quartili:

Q1 = valore che lascia il 25% dei dati a sinistra e il 75% a destra;


Q2 = valore che lascia il 50% dei dati a sinistra e il 50% a destra;
Q3 = valore che lascia il 75% dei dati a sinistra e il 25% a destra.

Supponiamo di avere la possibilità di costruire un istogramma


sui nostri valori, allora, i quartili sono quei valori che dividono la
distribuzione in 4 blocchi, dove ogni blocco ha un’area complessiva
pari al 25%, come viene riportato nel seguente grafico.

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 5 di 8
Maria Simona Andreano “I quantili e i quartili”

Ricordiamo che il secondo quartile corrisponde alla Mediana.


Il calcolo dei quartili è molto simile a quello della mediana. La
loro individuazione avviene in due fasi:
1. In base alla numerosità totale individuare la posizione dei
quartili
2. Trovare i valori che corripondono a tali posizioni
3. Quest’ultimo passo può essere facilitato dalla determinazione
delle frequenze cumulate.

Se si hanno le frequenze cumulate percentuali, si devono


trovare i valori in corripondenza ad almeno il 25%, il 20% e il 75%.

La formula usata per trovare la posizione occupata dai quartili


è un'estensione di quella introdotta per la mediana.

Dividendo la distribuzione in base ai quartili notiamo che i


valori compresi tra
Q1 e Q3 sono il 50%. Tale intervallo di valori viene spesso
utilizzato come riferimento dell’analisi dei dati, perchè, sopratutto se
la numerosià è elevata, si tengono fuori dalla distribuzione i valori
particolarmente elevati e quelli particolarmente bassi. Tale intervallo
rappresenta “lo zoccolo duro” della distribuzione.

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 6 di 8
Maria Simona Andreano “I quantili e i quartili”

Analogamente a quanto visto per la Mediana, se il carattere è


rappresentato per classi, attraverso la numerosità e le frequenze
cumulate si individua l’intervallo di riferimento. Se si vuole
individuare il valore preciso all’interno dell’intervallo possiamo
applicare la formula dell’equidistribuzione, che porta ai valori
espressi nei precedenti due riquadri.

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 7 di 8
Maria Simona Andreano “I quantili e i quartili”

3. ESERCIZI

1. Per quali dei seguenti caratteri è possibile calcolare i quartili:


a) Distribuzione della tipologia degli alloggi turistici nel
comune di Roccaraso
b) Distribuzione sulla tipologia di piantagione delle aziende
agricole
c) Distribuzione del reddito degli italiani
d) Distribuzione sui paesi con cui un’azienda intrattiene
rapporti commerciali.

2. Per la seguente distribuzione calcolare le frequenze cumulate


assolute e percentuali e sulla base di queste specificare il terzo
quartile:

x n
1 27
3 35
4 66
7 22

[Soluzioni: 1. c 2. Q3=7]

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 8 di 8
LA MEDIA ARITMETICA
Maria Simona Andreano
Maria Simona Andreano “La media aritmetica”

Indice

1. DEFINIZIONE MEDIA ARITMETICA -------------------------------------------------- 3


2. PROPRIETÀ MEDIA ARITMETICA ---------------------------------------------------- 5
3. MEDIA ARTIMETICA PER MODALITÀ PER CLASSI -------------------------- 8
4. CONSIDERAZIONI FINALI ---------------------------------------------------------------- 9

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 2 di 11
Maria Simona Andreano “La media aritmetica”

1. DEFINIZIONE MEDIA ARITMETICA

Nell’ambito delle medie analitiche andiamo a vedere nel


dettaglio la “Media aritmetica”.
Mentre e medie di posizione sono dei valori direttamente
osservati, che occupano una particolare posizione all’interno della
distribuzione, le medie analitiche sono dei valori che vengono fuori dal
risultato di una formula. Il valore della media aritmetica può non
essere stato osservato direttamente.

Infatti, la media analitica non individua una posizione, ma è il


risultato di una operazione algebrica. Il grande vantaggio
dell’applicazione di tali formule è che nel suo computo entrano tutti
gli elelmenti della distribuzione. Quindi l’informazion sintetizzata in
queste medie è massima.

La Media aritmetica può calcolarsi solo per caratteri


quantitativi, poichè solo per questi è possibile sommare, moltiplicare e
operare sulle modalità.

Supponiamo di aver osservato i seguenti quattro valori di un


carattere:
10 8 15 7
La media (aritmetica) è data dalla somma, diviso il numero di
osservazioni:
(10 + 8 + 15 +7)/4 = 40/4 = 10.

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 3 di 11
Maria Simona Andreano “La media aritmetica”

Il calcolo della media aritmetica è molto semplice. Il simbolo


comunemente usato per la media è la x sovrassegnata. In realtà
vedremo che c’è una differenza di simboli a seconda che la media si
riferisca a dati campionari oppure a dati di popolazione.
Traducendo il calcolo fatto sui precedenti valori in termini di
formula, avremo che la media aritmetica è data da:

x i
x i 1

A seconda che i dati siano unitari, in distribuzioni di frequenze


assolute o relative, la formula utilizzata per calcolare la media
aritmetica può varia leggermente:

NOTA: fare molta attenzione ad applicare la formula adeguata


ai dati a disposizione e alla loro rappresentazione tabellare.

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 4 di 11
Maria Simona Andreano “La media aritmetica”

2. PROPRIETÀ MEDIA ARITMETICA

La media aritmetica gode di diverse proprietà importanti, utili


anche ai fini applicativi. Andiamone a vederne le principali.

1a Proprietà:
La media aritmetica è sempre compresa tra la più piccola e la
più grande delle modalità presenti nella distribuzione.

Questa proprietà vale in generale per qualsiasi media (anche


per le medie di posizione: Moda e Mediana).
L’importanza di tale proprietà risiede nell’idea che la media
viene vista come un indicatore di tendenza centrale del fenomeno,
pertanto risulterebbe strano avere come risultato della formula, un
valore non compreso nel campo di osservazione.

2a Proprietà:
La somma degli scarti tra i valori osservati e la media è
sempre uguale a zero.

Esempio
7 8 10 15 Media = 10
Gli scarti
(7-10) (8-10) (10-10) (15-10)
-3 -2 0 5
Somma di tali scarti: -3 -2 + 0 + 5 = 0!!

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 5 di 11
Maria Simona Andreano “La media aritmetica”

Il risultato appena ottenuto non è un caso particolare, ma


sempre soddisfatto. E’ facile darne una dimostrazione matematica.

Tale proprietà matematica ha grande importanza nello


sviluppo di molti importanti indici statistici.

3a Proprietà:
Se tutte le osservazioni vengono aumentate di uno stesso
valore a, anche la media risulterà aumentata di a.

4a Proprietà:
Se tutte le osservazioni vengono moltiplicate per uno
stesso valore b, anche la media risulterà moltiplicata per b.

In realtà queste due proprietà possono anche sintetizzate in


un’unica condizione. Ossia: se una variabile viene trasformata
secondo una combinazion lineare a + bx, anche la nuova media
seguirà tale trasformazione lineare:

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 6 di 11
Maria Simona Andreano “La media aritmetica”

Esempio:

Se si sono registrate le temperature in Celsius di 7 giorni e la


media è 12°, possiamo passare direttamente alla media espressa in
Farenheit applicando la trasformazione:

5
x F  32  x
9 C



Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 7 di 11
Maria Simona Andreano “La media aritmetica”

3. MEDIA ARTIMETICA PER MODALITÀ PER


CLASSI

Se le modalità sono espresse in classi non possiamo applicare la


formula appena introdotta in maniera diretta.
E' necessario innanzi tutto calcolare per ogni intervallo il
rispettivo valore centrale ci e poi su questo andare ad applicare la
formula.
Questo verrà infatti inserito nella formula come valore
rappresentativo dell'intervallo.
Tale operazione implica una approssimazione nel calcolo della
media, spesso inevitabile.

Xi ni Ni Ci Ci · ni
170├─175 12 12 172,5 172,5 x 12 = 2.070,0
175├─180 28 40 177,5 177,5 x 28 = 4.970,0
180├─185 45 85 182,5 182,5 x 45 = 8.212,5
185├─190 20 105 187,5 187,5 x 20 = 3.750,0
190├─195 11 116 192,5 192,5 x 11 = 2.117,5
195├─200 4 120 197,5 197,5 x 2 = 790,0
120 21.910, 0

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 8 di 11
Maria Simona Andreano “La media aritmetica”

4. CONSIDERAZIONI FINALI

Cerchiamo a questo punto di fare una breve considerazione


finale sul calcolo della media aritmetica e delle altre medie di
posizione.

Un aspetto fondamentale della Media aritmetica è che questa


risente dei valori eccezionali, mentre la Moda e la Mediana no. Se
infatti si prendono due distribuzioni di dati e si modifica solo il valore
più grande, da 10 si passa a 1000, il valore calcolato dalla media
aritmetica sarà fortemente diverso, mentre Mediana e Moda
rimangono inalterati. Questo fatto viene visto come un aspetto
negativo della media aritmetica, che perde di robustezza rispetto ai
valori eccezionali.

La Media aritmetica coinvolge tutti i valori osservati, mentre le


medie di posizione solo alcuni valori particolari. La capacità
informativa della media aritmetica è pertanto superiore alle medie di
posizione.

La Mediana e la Moda sono dei valori realmente osservati,


mentre la Media aritmetica no.

La Moda si può calcolare per qualsiasi tipologia di carattere.

La Mediana si può calcolare per caratteri che siano almeno


qualitativi ordinabili.

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 9 di 11
Maria Simona Andreano “La media aritmetica”

La Media aritmetica può calcolarsi solo per caratteri


quantitativi.
A volte le nostre osservazioni pesano in modo diverso nel
calcolo della media. In questo caso abbiamo la media ponderata.
Un esempio classico è quello della media dei voti, pesati con i
rispettivi CFU.
Nella media ponderata le modalità sono moltiplicate per i pesi e
la loro sommatoria è divisa per il totale dei pesi:

x   i i

x i1
k

 i
i1

sono indicati i pesi (i CFU dell’esempio).


Dove con  si

5a Proprietà:
Se il carattere X è stato osservato su s gruppi con
numerosità ňi e in ogni gruppo è stata calcolata la rispettiva media

xi i 1,...,s

allora la media
 complessiva può essere determinata a partire
dalle medie dei gruppi:

 x  n( i i

x i1
n


Attenzione! Questo materiale didattico è per uso personale dello studente ed è
coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 10 di 11
Maria Simona Andreano “La media aritmetica”

Supponiamo per esempio di aver calcolato il voto medio in


Statistica su un gruppo di 10 studentesse e, separatamente, il voto
medio su un gruppo di 8 maschi. Se vogliamo sapere quale è il voto
complessivo, non è necessario rifare tutti i calcoli, ma basta
semplicemente fare una media delle due medie, ciascuna ponderata
con le numerosità del rispettivo gruppo. Ovviamente l’utilità di tale
proprietà diviene particolarmente evidente con l’aumentare del
numero dei gruppi.

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 11 di 11
ESERCITAZIONE SULLE
MEDIE
Maria Simona Andreano
Maria Simona Andreano “Esercitazione sulle medie”

Indice

1. CALCOLO DELLA MODA ------------------------------------------------------------------- 3


2. CALCOLO DELLA MEDIANA ------------------------------------------------------------- 7
3. CALCOLO DELLA MEDIA ARITMETICA ------------------------------------------ 11

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 2 di 12
Maria Simona Andreano “Esercitazione sulle medie”

1. CALCOLO DELLA MODA

Consideriamo questo primo esercizio riferito ad una


distribuzione per classi.
Può succedere che l’ultima classe sia aperta, del tipo “>80”. Ai
fini del calcolo della moda e di altre medie è necessario chiudere tale
classe, in base alle consocente o facendo opportune ipotesi.

Supponiamo di avere la seguente distribuzione dei pesi di 106


studenti:

Non posso prendere direttamente la frequenza così come


riportata, per individuare la classe modali. Infatti, avendo classi di
diversa ampiezza, non sono in grando di capire se la frequenza
elevata è dovuta semplicemente alla dimensione della classe ovvero se
tale classe è molto rappresentativa.

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 3 di 12
Maria Simona Andreano “Esercitazione sulle medie”

A tale fine vado a calcolare le ampiezze di classe:

Peso in kg ni wi+1–wi

[30,50) 20 20

[50,55) 15 5

[55,60) 18 5

[60,65) 22 5
[65,70) 18 5
[70,75) 7 5
[75,80) 4 5
[80,100) 2 20

Totale 106

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 4 di 12
Maria Simona Andreano “Esercitazione sulle medie”

Sulla base di queste, passiamo a considerare le densità di


frequenza:

Peso in kg ni ai li = ni/ai

[30,50) 20 20 1,0
[50,55) 15 5 3,0
[55,60) 18 5 3,6
[60,65) 22 5 4,4

[65,70) 18 5 3,6

[70,75) 7 5 1,4

[75,80) 4 5 0,8

[80,100) 2 20 0,1

Totale 106

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 5 di 12
Maria Simona Andreano “Esercitazione sulle medie”

Ricordiamo che la Moda è, in questo caso, l’intervallo di


massima densità.
Troviamo allora la Moda, in corrispondenza del massimo di
densità:

Peso in kg ni ai li = ni/ai

[30,50) 20 20 1,0

[50,55) 15 5 3,0

[55,60) 18 5 3,6
[60,65) 22 5 4,4
[65,70) 18 5 3,6
[70,75) 7 5 1,4
[75,80) 4 5 0,8
[80,100) 2 20 0,1

Totale 106

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 6 di 12
Maria Simona Andreano “Esercitazione sulle medie”

2. CALCOLO DELLA MEDIANA

Consideriamo la seguente distribuzione del numero di visitatori


giornalieri rilevati complessivamente in 32 giorni lavorativi.
Su tali valori calcoliamo la Mediana.
Ricordiamo che la Mediana è il valore che occupa la posizione
centrale.
La prima cosa è verificare se la numerosità è pari o dispari. Qui
siamo nel secondo caso.


ni Ni
visitatori

231 2 2
245 3 5
249 4 9
258 3 12

260 4 16

261 3 19

267 5 24

272 3 27
284 2 29

290 3 32

Totale 32

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 7 di 12
Maria Simona Andreano “Esercitazione sulle medie”

Caso 2: n è pari

Ho due posizioni centrali:

n/2

(n/2)+1

Abbiamo quindi due posizioni centrali, una al posto 32/2 = 16 e


l’altra nel posto successivo, 17.
Al fine di individuare i valori che occupano tali posizioni,
andiamo a calcolare le frequenze cumulate.

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 8 di 12
Maria Simona Andreano “Esercitazione sulle medie”

N° visitatori ni Ni

231 2 2

245 3 5

249 4 9

258 3 12

260 4 16

261 3 19

267 5 24

272 3 27

284 2 29

290 1 30

Totale 32

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 9 di 12
Maria Simona Andreano “Esercitazione sulle medie”

Caso 2: n è pari

Ho due posizioni centrali:

32/2 = 16

(32/2)+1 = 17

M = 260
1

M = 261
2

Avendo in questo caso un caratter quantitativo e due mediane


con valori diversi, si può calcolare la Mediana come semi-somma dei
due valori individuati:

Me = (Me1+Me2)/2 = (260+261)/2 = 260.5

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 10 di 12
Maria Simona Andreano “Esercitazione sulle medie”

3. CALCOLO DELLA MEDIA ARITMETICA

Riprendiamo la precedente distribuzione dei visitatori


registrati in un museo in 32 giorni e calcoliamo la media aritmetica.

N° visitatori ni

231 2

245 3

249 4

258 3

260 4

261 3

267 5

272 3

284 2

290 3

Totale 32

La formula da prendere in considerazione è la seguente:


k

x  ni i

x i1
n

Poichè i valori sono rappresentati con distribuzione di


frequenza assoluta. 

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 11 di 12
Maria Simona Andreano “Esercitazione sulle medie”

Calcoliamo innanzi tutto i prodotti xi * ni:



ni xi * ni
visitatori

231 2 231 x 2 = 462

245 3 245 x 3 = 735

249 4 249 x 4 = 996

258 3 258 x 3 = 774

260 4 260 x 4 = 1.040

261 3 261 x 3 = 783

267 5
267 x 5 = 1.335

272 3 272 x 3 = 816

284 2 284 x 2 = 568

290 3 290 x 3 = 870

Totale 32 8.379

E quindi:

x  n i i
8.379
x i1
  261.8
n 32



Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 12 di 12
INTRODUZIONE ALLA
VARIABILITÀ
Maria Simona Andreano
Maria Simona Andreano “Introduzione alla variabilità”

Indice

1. LA VARIABILITÀ NELLA DISTRIBUZIONE --------------------------------------- 3


2. ALCUNE MISURE DELLA VARIABILITÀ ------------------------------------------- 5
3. ESEMPI CALCOLO DELLA VARIABILITÀ ----------------------------------------- 7

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 2 di 10
Maria Simona Andreano “Introduzione alla variabilità”

1. LA VARIABILITÀ NELLA DISTRIBUZIONE

Le medie sono degli indici sintetici usati per esprimere la


tendenza di fondo del fenomeno analizzato.
In realtà la stessa media può determinarsi in corrispondenza di
andamenti molto diversi del fenomeno:

a) 40 50 60 Media = 50
b) 50 50 50 Media = 50
c) 0 0 150 Media = 50

Il modo di variare delle osservazioni è molto distinto nei tre


casi presentati.
Nel secondo caso tutti i valori sono uguali tra loro e quindi non
siamo in presenza di variabilità. La media quindi coincide con i valori
osservati.
Nel terzo caso i valori sono molto diversi tra di loro e, a sua
volta, dalla media. La media non è molto rappresentativa in questa
situazione.
La capacità interpretativa espressa dalla media è molto diversa
nelle tre distribuzioni.

E’ necessario affiancare alla media un indice che mostri quanto


le mie osservazioni siano variabili tra loro ed, eventualmente, dalla
media.

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 3 di 10
Maria Simona Andreano “Introduzione alla variabilità”

Se un carattere non avesse "attitudine" a variare, non avrebbe


senso applicare la statistica. Infatti il secondo esempio analizzato non
è di alcuno interessa statistico.

La variabilità è una caratteristica riscontrata in tutte le nostre


distribuzioni di frequenza. Questa potrà essere più o meno elevata.
Sarà necessario trovare degli indici che permettano di
quantificare la dimensione di tale variabilità.
La maggior parte degli indici di variabilità si riferiscono a
caratteri quantitativi. Noi considereremo solo tali situazioni.

Alla base della costruzione degli indici di variabilità c'è la


possibilità di determinare quanto le osservazioni siano diverse tra
loro o diverse da una loro media rappresentativa. E’ quindi necessario
poter calcolare tramite la differenza, tali diversità. E’ per questo che
si devono applicare
le operazioni + e – sui valori osservati e questo può farsi solo
sui caratteri quantitativi.

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 4 di 10
Maria Simona Andreano “Introduzione alla variabilità”

2. ALCUNE MISURE DELLA VARIABILITÀ

Un primo indice semplice che permette di avere un'idea –


grossolana – della variabilità è dato dal rango (o range):

r  x max  xmin

Tale indice misura la differenza massima osservata tra le


osservazioni.


Negli esempi precedenti abbiamo:
a) r = 60 – 40 = 20
b) r = 50 – 50 = 0
c) r = 150 – 0 = 150

In base al rango r possiamo dire che l'ultima distribuzione ha


variabilità maggiore e la seconda non ha variabilità.
Il rango si basa solo su due osservazioni, quelle estreme.
Molto spesso i valori estremi (il valore minimo e il valore
massimo) sono affetti da eccezionalità o da errori.
Non opportuno, ai fini della variabilità, basarsi solo e proprio
su tali valori.
Al fine di attenuare tale eccesionalità, può essere utile calcolare
la differenza interquartilica DQ:

DQ  Q3  Q1
In questo caso si escludono dalla variabilità il 25% dei valori
più piccoli e il 25% dei valori più elevati, e si calcola la differenza tra
Q3 e Q1.

Attenzione! Questo materiale didattico è per uso personale dello studente ed è
coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 5 di 10
Maria Simona Andreano “Introduzione alla variabilità”

Tale indice supera il problema della eccezionalità dei valori


estremi, ma continua a basarsi solo su due osservazioni che occupano
una particolare posizione.
Entrambi gli indici visti sono nulli nel caso in cui il fenomeno è
costante (e quindi tutte le osservazioni sono uguali).
Inoltre, entrambi sono ≥ 0.

Tali proprietà saranno valide per tutti gli indici di variabilità.


Anche quando le osservazioni sono negative, gli indici di variabilità
sono non-negativi. Al massimo saranno nulli.

Esempio:
Temperature rilevate nella settimana di Natale a Cervinia

-2 -1 -5 -8 -6 -12 -1

Calcoliamo il rango. A tal fine è necessario determinare i valori


massimo e minimo, che sono rispettivamente: (-1) e (-12).
Avremo allora che:

r  xmax  xmin  (1)  (12)  112 11



Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 6 di 10
Maria Simona Andreano “Introduzione alla variabilità”

3. ESEMPI CALCOLO DELLA VARIABILITÀ

Siano date le seguenti due ditribuzioni, dove i valori osservati,


in entrambi i casi, variano tra 1 e 7:

xi ni xi ni
1 5 1 15
2 10 2 20
3 20 3 15
4 30 4 0
5 20 5 15
6 10 6 20
7 5 7 15
tot 100 100

Ai fini di un’indicazione sul livello della variabilità può essere


utile affiancare alla ditribuzione una rappresentazion grafica.

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 7 di 10
Maria Simona Andreano “Introduzione alla variabilità”

Nei precedenti due grafici a barre vediamo che, nella prima


distribuzione, i valori sono addensati intorno al valore centrale,
mentre i valori estremi sono via via meno frequenti. Nella seconda
distribuzione, invece, abbiamo esattamente la situazione inversa. Le
osservazioni si concentrano tra i valori estremi, quindi quelli
maggiormente diversi tra loro.
La seconda distribuzione, quindi, avrà una variabilità
maggiore.
Se tuttavia calcoliamo come indice di variabilià il rango r,
questo non riesce a cogliere tali differenze.

Consideriamo un secondo esempio. Sia data la seguente


distribuzione di "Numero di figli per coppia":

xi ni Ni ci∙ni
0 42 42 0
1 81 123 81
2 45 168 90
3 21 189 63
4 8 197 32
5 3 200 15
200 281

Calcoliamo il rango:

r  xmax  xmin  5  0  5


Attenzione! Questo materiale didattico è per uso personale dello studente ed è
coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 8 di 10
Maria Simona Andreano “Introduzione alla variabilità”

Per calcolare la differenza interquartilica DQ dobbiamo trovare


prima i due quartili Q3 e Q1 . A tale fine calcoliamo le frequenze
cumulate che ci aiutano a trovare i posti di tali indici:

Per trovare il posto del primo quartile, ne calcoliamo innanzi


tutto la posizione:
n 200
  50
4 4

Stessa coas facciamo ai fini della determinazione del terzo


quartile. La sua posizione è determinata in corrispondenza di:
3n 3  200
  150
4 4

Dalla tabella con le frequenze cumulate ritroviamo pertanto che:


Q1 = 1
Q3 = 2

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 9 di 10
Maria Simona Andreano “Introduzione alla variabilità”

Da cui ricaviamo l’indice di variabilità DQ:

DQ  Q3  Q1 
 2 1  1

Ai fini interpretativi, sapendo che tra Q1 e Q3 ci sono il 50%



delle osservazioni centrali, possiamo dire che la distanza tra i valori
centrali è di 1 unità.

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 10 di 10
LA VARIANZA E LO
SCARTO QUADRATICO
MEDIO
Maria Simona Andreano
Maria Simona Andreano “La varianza e lo scarto quadratico medio”

Indice

1. GLI SCARTI DALLA MEDIA --------------------------------------------------------------- 3


2. LO SQM E LA VARIANZA ------------------------------------------------------------------- 7
3. PROPRIETÀ DELLA VARIANZA ------------------------------------------------------ 10

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 2 di 12
Maria Simona Andreano “La varianza e lo scarto quadratico medio”

1. GLI SCARTI DALLA MEDIA

Il rango e la differenza interquartilica sono indici di variabilità


di "posizione", poichè ai fini del loro calcolo vengono prese in
considerazione soltanto alcune osservazioni, che occupano specifiche
posizioni (i 2 valori estremi o i due quartili.
In questo modo, però , non si tiene conto di tutta l’informazione
presente nella distribuzione. Siamo nella stessa situazione di quando
si calcolano le medie di posizione.

E’ necessario pertanto individuare un indice più completo, che


raccolga tutta l'informazione disponibile.
Inoltre, una volta calcolata la media aritmetica come indice
sintetico, può essere utile considerare un indice di variabilità che
esprima quanto le osservazioni si discostano da questo. In questo
modo sarà possibile anche capire la capacità interpretativa della
media stessa.
Consideriamo allora gli indici di variabilità come scostamento
delle osservazioni dalla rispettiva media aritmetica.

Gli scarti dalla media esprimono quanto le osservazioni si


discostano dalla media. Sembra quindi utile basare su questi una
misura della variabilità. Riprendiamo allora gli scarti:

si  (xi  x ) i 1,...,n

In realtà se basassimo un indice di variabilità su tali scarti


incorreremo in unproblema fondamentale, legato alla proprietà degli
scarti:

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 3 di 12
Maria Simona Andreano “La varianza e lo scarto quadratico medio”

 s  (x
i i  x )  0 oppure (x i  x ) ni  0

dobbiamo trovare un’altra soluzione, più facile da gestire.



Verifichiamo intanto la proprietà della nullità degli scarti, sulla
base dei dati riportati nella seguente tabella.
- Calcoliamo innanzi tutto la media, aggiungendo la colonna
dei prodotti X*n.
- Calcoliamo gli scarti
- Non è la somma di tale colonna che deve dare zero (infatti
è pari a -1.97).
- Il valore x = 1 è stato osservato due volte, pertanto anche
lo scarto corrispondente deve essere considerato due volte.
- Andiamo pertanto a determinare l’ultima colonna con gli
scarti pesati per le rispettive frequenze.
- Tale somma sarà zero.

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 4 di 12
Maria Simona Andreano “La varianza e lo scarto quadratico medio”

Xi ni Xi * ni si si ni

1 2 2 -2,83 -5,66

2 4 8 -1,83 -7,31

3 8 24 -0,83 -6,63

4 10 40 0,17 1,71

5 6 30 1,17 7,03

6 5 30 2,17 10,86

35 134 -1,97 0,00

134
x  3,83
35


Tuttavia, per avere una misura di quanto un’osservazione si
discosta dalla media, non è necessario considerare il segno.
Supponiamo infatti di avere una media pari a 8, e due valori
osservati: 7 e 9. Allora sia il valore 7 che il valore 9 si discosta di 1
unità dalla media.
Quindi potremmo considerare, piuttosto che gli scarti, il valore
assoluto degli scarti:
xi  x



Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 5 di 12
Maria Simona Andreano “La varianza e lo scarto quadratico medio”

Purtroppo il valore assoluto è molto difficile da trattare


matematicamente (la variabilità entra in molte formule statistiche).
Quindi

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 6 di 12
Maria Simona Andreano “La varianza e lo scarto quadratico medio”

2. LO SQM E LA VARIANZA

Un modo alternativo per "eliminare" il segno dallo scarto è


quello di considerarne il quadrato:

(x i  x ) 2

Usiamo questa differenza al quadrato come misura della



diversità tra l'osservazione e la media.
Sulla base di questa costruiamo l'indice di variabilità chiamato
VARIANZA:

(x i  x ) 2 (x i  x ) 2  ni
2   2  
n n

Ossia facciamo una media di tutti questi scarti al quadrato. Le



due formule diverse si riferiscono alle due situazioni diverse, a
seconda che i dati siano presentati in elenco unitario o con
distribuzione di frequenza.

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 7 di 12
Maria Simona Andreano “La varianza e lo scarto quadratico medio”

Esempio di calcolo di σ2:


Consideriamo la seguente ditribuzione di frequenza.

xi ni xi ni si s2i s2i ni

19 3 57 -5,8 33,64 100,92

22 2 44 -2,8 7,84 15,68

26 2 52 1,2 1,44 2,88

30 2 60 5,2 27,04 54,08

35 1 35 10,2 104,04 104,04

TOT 10 248 277,6

x i  ni 248 (x i  x ) 2  ni 277,6
x    24,8 2     27,76
n 10 n 10

L’interpretazione del valore della varianza non è automatico.



Come leggiamo il valore “27,76” calcolato nell’esercizio precedente?

Inoltre l'unità di misura è espressa al quadrato: se ho


osservazioni espresse in kg, la media è in kg, ma la varianza è in kg2!
Riportiamo allora l'indice alla stessa unità di misura del
fenomeno e otteniamo il nuovo indice di variabilità "scostamento
quadratico medio (sqm)":

(x i  x ) 2 (x i  x ) 2  ni
   
n n


Attenzione! Questo materiale didattico è per uso personale dello studente ed è
coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 8 di 12
Maria Simona Andreano “La varianza e lo scarto quadratico medio”

Da un punto di vista statistico matematico, questa forma


equivale ad una “media quadratica” degli scarti.

Riprendendo i dati dell’esempio precedente, abbiamo che lo


scostamento quadratico medio è:

(x i  x ) 2
  n  27,76  5,27

Nell'esempio le osservazioni esprimevano l'età di 10 studenti



intervistati.
Possiamo dire a questo punto che, mediamente, le nostre
osservazioni si discostano dalla media aritmetica di di 5,27 anni.

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 9 di 12
Maria Simona Andreano “La varianza e lo scarto quadratico medio”

3. PROPRIETÀ DELLA VARIANZA

Vediamo alcune importanti proprietà della varianza.

1a Proprietà:
Se il carattere è costante la varianza è nulla.

2a Proprietà:
La varianza non è mai negativa.

Queste due proprietà valgono per qualsiasi indice di variabilità.

3a Proprietà:
La varianza può essere espressa in forma semplificata
nel seguente modo:

(x i  x ) 2  ni 1
2     x i2  ni  x 2
n n


La formula della varianza (e dello sqm) varia a seconda che i
dati siano riferiti ad una popolazione o ad una indagine campionaria.
Nel caso di dati campionari la formula usata sarà:

(x i  x ) 2  ni
s 
2

n 1



Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 10 di 12
Maria Simona Andreano “La varianza e lo scarto quadratico medio”

Inoltre anche in questo caso incontriamo formule diverse a


seconda che i dati siano espressi in forma unitaria o in distribuzione
di frequenze (assolute o relative).

La differenza tra il caso di dati campionari e dati della


popolazione si manifesta solo nel denominatore. Per i dati campionari
si deve dividere per (n-1). Ovviamente se la numerosità è molto
elevata la differenza tra le due formule è marginale.

Non esiste una formula semplificata per il calcolo di s2.


Al contrario della varianza, lo sqm mantiene l'unità di misura
del carattere osservato.

Vediamo che effetti hanno eventuali trasformazioni lineari sui


dati, in termini di varianza:

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 11 di 12
Maria Simona Andreano “La varianza e lo scarto quadratico medio”

Ossia, se i dati sono trasformati semplicemente secondo  a, la


varianza rimane identica a quella calcolata sui dati originari. Se
invece i valori vengono moltiplicati per una costante b, la nuova
varianza risulterà moltiplicata per b2, mentre lo sqm, in quanto radice
quadrata della varianza, sarà moltiplicata solo per b.

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 12 di 12
APPROFONDIMENTI
SULLA VARIABILITÀ
Maria Simona Andreano
Maria Simona Andreano “Approfondimenti sulla variabilità”

Indice

1. LA VARIABILITÀ RELATIVA ----------------------------------------------------------------- 3


2. LA STANDARDIZZAZIONE -------------------------------------------------------------------- 5
3. IL BOX-PLOT --------------------------------------------------------------------------------------- 7

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 2 di 9
Maria Simona Andreano “Approfondimenti sulla variabilità”

1. LA VARIABILITÀ RELATIVA

A volte può essere necessario confrontare la variabilità di due o


più distribuzioni.
Se considero direttamente la varianza o scarto quadratico
medio calcolato su ciascuna distribuzione ho il problema, nel fare il
confronto, che questi indici dipendono dall’unità di misura e dal livello
o dimensione del fenomeno stesso. Pertanto non è corretto usarli per
fare confronti. Vediamo un esempio.

Esempio
1a distribuzione dei prezzi di 50cc
2,2 2,5 3 2,8 1,9 2,7
2a distribuzione dei prezzi di auto 2000cv
35 28 38 31 40

Confrontiamo la variabilità di tali distribuzioni. Calcoliamo per


ciascuna distribuzione le rispettive medie e sqm.
1a distribuzione dei prezzi di 50cc

x = 2,5  = 0,37

2a distribuzione dei prezzi di auto 2000cv



x = 34,4  = 4,41


In base agli scostamenti quadratici medi saremmo indotti a
sostenere che la seconda distribuzione presenta una maggiore
variabilità, poichè questa ha un σ maggiore.

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 3 di 9
Maria Simona Andreano “Approfondimenti sulla variabilità”

E’ corretta tale affermazione?


In realtà la maggiore variabilità riscontrata con σ è legata alla
dimensione del fenomeno analizzato.
E' ovvio che maggiore è l'intensità del fenomeno, maggiori sono
gli scarti che si possono osservare: su dei prezzi che in media sono 2,5
migliaia è impossibile osservare una variabilità di 4,4!
Devo pertanto depurare l'indice di variabilità dalla diversa
dimensione del fenomeno. Visto che la media è vista come un indice
sintetico di tendenza del fenomeno, posso prendere questa come indice
della dimensione del fenomeno.
A questo punto depuro il σ dalla dimensione del fenomeno,
semplicemente rapportando σ alla media. Ottengo in questo modo
l'indice relativo “Coefficiente di Variazione” (CV):


CV =  100
x

In questo modo elimino anche l'unità di misura e posso fare



confronti anche tra distribuzioni con unità di misura differenti.
Andiamo allora a ricalcolare l’indice di variabilità CV sulle due
precedenti distribuzioni. Notiamo che in realtà la maggiore variabilità
riscontrata con σ era legata alla dimensione del fenomeno analizzato.
Infatti i CV per le due distribuzione dell'esempio sono:

0,37 4,41
CV1 =  100 =14,8 CV2 =  100 =12,8
2,52 34,4

In realtà, la prima distribuzione è più variabile


Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 4 di 9
Maria Simona Andreano “Approfondimenti sulla variabilità”

2. LA STANDARDIZZAZIONE

Un altro metodo che permette di fare confronti tra caratteri di


diversa unità di misura è la standardizzazione.
Questa è una trasformazione lineare dei dati, che viene
effettuata ricorrendo ai due parametri fondamentali di una
distribuzione: la media e lo scarto quadratico medio, secondo la
formula riportata di seguito

X−x 1 x
Z= = X−
  

Tale trasformazione non è tuttavia utile per confrontare le



variabilità, poichè qualsiasi carattere, una volta standardizzato ha,
per costruzione, uno scostamento quadratico medio pari ad uno.
Il ricorso ai valori standardizzati aiuta a capire come è fatta la
distribuzione oggetto di studio. Infatti vale la seguente importante
regola empirica.

Regola empirica di una distribuzione regolare simmetrica

- circa il 68% delle osservazioni si trova entro  uno sqm della media
- circa il 95% delle osservazioni si trova entro  2 sqm della media
- circa il 99% delle osservazioni si trova entro  3 sqm della media

Un valore standardizzato positivo indica che il valore è sopra la


media.

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 5 di 9
Maria Simona Andreano “Approfondimenti sulla variabilità”

Un valore standardizzato superiore in valore assoluto a 2 è


probabilmente un valore anomalo (si discosta più di due volte lo sqm
dalla media).

Un valore standardizzato superiore a 3 in valore assoluto è


molto insolito e quasi sicuramente rappresenta un valore anomalo.

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 6 di 9
Maria Simona Andreano “Approfondimenti sulla variabilità”

3. IL BOX-PLOT

Il Box-plot è un grafico che permette di dare infromazioni sulla


variabilità della distribuzione. Come la parola stessa dice, tale grafico
è rappresentato da una scatola e permette in modo visivo di
rappresentare la variabilità della distribuzione.

La variabilità rappresentata dal Box-plot si basa sul calcolo di


alcuni indici di posizione della variabilità.
Di seguito ne diamo un esempio.

Riportiamo sul grafico i valori estremi: valore minimo e valore


massimo. La differenza tra tali valori equivale al rango.

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 7 di 9
Maria Simona Andreano “Approfondimenti sulla variabilità”

Inoltre si riportano Q1, Mediana e Q3. La scatola viene


disegnata in riferimento ai livelli dei quartili Q1 e Q3, mentre
all’interno della scatola si disegna con una retta il valore della
Mediana. L’ampiezza della scatola esprime la dimensione della
variabilità espressa pertanto con la differenza interquartilica.

Consideriamo le seguenti due tabelle di dati, rispetto alle quali


sono stati costruiti i due ripsettivi Box-plot.
Dai rispetti grafici riusciamo a vedere che la distribuzione dei
Maschi è più variabile e che questa presenta valori estremi più
differenziati rispetto alla distribuzione delle Femmine. Infatti in
quest’ultimo caso il Box-plot è più concentrato intorno alla mediana.

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 8 di 9
Maria Simona Andreano “Approfondimenti sulla variabilità”

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 9 di 9
ESERCITAZIONE SULLA
VARIABILITÀ
Maria Simona Andreano
Maria Simona Andreano “Esercitazione sulla variabilità”

Indice

1. ESERCIZIO SULLA VARIABILITÀ ---------------------------------------------------------- 3


2. ESERCIZIO 2 SULLA VARIABILITÀ -------------------------------------------------------- 6
3. ESERCIZIO 3 BOX-PLOT ---------------------------------------------------------------------- 10

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 2 di 12
Maria Simona Andreano “Esercitazione sulla variabilità”

1. ESERCIZIO SULLA VARIABILITÀ

Consideriamo una distribuzione di frequenze del numero di


stabilimenti posseduti da 93 aziende:

xi ni

1 34

2 28

3 21
4 8

5 1

6 1

93

Supponiamo che i dati rilevati si riferiscano all'intera


popolazione oggetto dell'analisi. Andiamo a calcolare la varianza, la
cui formula è:

(x i  x ) 2  ni
2  
n


Innanzi tutto calcoliamo la media:

196
x  2,11
93


Attenzione! Questo materiale didattico è per uso personale dello studente ed è
coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 3 di 12
Maria Simona Andreano “Esercitazione sulla variabilità”

xi ni xi * ni (xi - X)

1 34 34 1 – 2,11 = -1,11

2 28 56 2 – 2,11 = -0,11

3 21 63 3 – 2,11 = 0,89
4 8 32 4 – 2,11 = 1,89

5 1 5 5 – 2,11 = 2,89

6 1 6 6 – 2,11 = 3,89

93 196

Calcolati gli scarti, ne facciamo il quadrato e li ponderiamo con


le rispettive frequenze. Ricordiamo infatti che avendo una
distribuzione di frequenze si deve usare la formula in cui gli scarti
sono ponderati con le ni.

xi ni xi * ni (xi - X) si2 si2 * ni

1 34 34 -1,11 1,23 41,70

2 28 56 -0,11 0,01 0,32

3 21 63 0,89 0,80 16,73

4 8 32 1,89 3,58 28,65

5 1 5 2,89 8,37 8,37

6 1 6 3,89 15,15 15,15

93 196 110,92

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 4 di 12
Maria Simona Andreano “Esercitazione sulla variabilità”

Andiamo quindi ad inserire i valori appena calcolati nella


formula della varianza:

(x i  x ) 2  ni 110,92
 
2
  1,19   1,19  1,09
n 93
Possiamo allora affermare che mediamente le nostre
osservazioni si discostano dalla media aritmetica di 1.09 unità.


Come cambiano i calcoli nell’ipotesi che i dati siano il risultato


di una indagine campionaria? Dobbiamo usare la formula con s, in cui
a denominatore ritroviamo (n-1):

(x i  x ) 2  ni
s2  
n 1

Andiamo pertanto a inserire nuovamente i valori nella formula



appena riportata:

(x i  x ) 2  ni 110,92
s 
2
  1,21 s  1,21  1,1
n 1 92

Il valore di s è leggermente superiore a quello di , avendo a



denominatore un valore inferiore (n-1).

Calcoliamo infine il rango:

r  xmax  xmin  6 1  5

Ossia la differenza massima tra le osservazioni della



distribuzioni è di 5 unità.

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 5 di 12
Maria Simona Andreano “Esercitazione sulla variabilità”

2. ESERCIZIO 2 SULLA VARIABILITÀ

Consideriamo due distribuzioni, riferite al peso di 6 bambini


all’età di 2 anni e all’altezza degli stessi 6 bambini. Vogliamo sapere
quale delle due distribuzioni ha la variabilità maggiore.

Peso (Kg) Altezza (cm)

12,4 125,8

11,4 117,3
15,1 121,9

9,8 131,4
10,3 111,9
16,9 127,1

Per confrontare la variabilità dobbiamo calcolare i coefficienti


di variazione CV. A tale fine dobbiamo calcolare media e sqm. Per la
prima distribuzione abbiamo:

x  12,65
39,34
2   6,56
6
  6,56  2,56
2,56
CV   100  20,24
12,65


Attenzione! Questo materiale didattico è per uso personale dello studente ed è
coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 6 di 12
Maria Simona Andreano “Esercitazione sulla variabilità”

xi si si2

12,4 -0,25 0,06

11,4 -1,25 1,56

15,1 2,45 6,00

9,8 -2,85 8,12

10,3 -2,35 5,52

16,9 4,25 18,06

39,34

Ricordiamo che in questo esercizio applichiamo la formuale


senza frequenze, poichè i dati delle due variabili sono riportati in
forma unitaria e non in tabella di frequenze.
Per la seconda distribuzione abbiamo:

x  122,57
250,99
2   41,83
6
  41,83  6,47
6,47
CV   100  5,28
122,57



Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 7 di 12
Maria Simona Andreano “Esercitazione sulla variabilità”

xi si si2

125,8 3,23 10,45

117,3 -5,27 27,74

121,9 -0,67 0,44

131,4 8,83 78,03

111,9 -10,67 113,78

127,1 4,53 20,55

250,99

Possiamo quindi riassumere:

Peso (Kg) Altezza (cm)

Media 12,65 122,57

Varianza 6,56 41,83

SQM 2,56 6,47

CV 20,24 5,28

Pertanto abbiamo distribuzioni con unità di misura diversa,


intensità media diversa e sqm diversi. Guardando gli sqm abbiamo
che:

SQMA>SQMP

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 8 di 12
Maria Simona Andreano “Esercitazione sulla variabilità”

Tuttavia non possiamo basarci su questo risultato per


esprimere quale distribuzione abbia maggiore variabilità. Dobbiamo
calcolare i coefficienti di variazione:

CVP > CVA

Adesso possiamo affermare correttamente che la distribuzione


dei Pesi è più variabile.

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 9 di 12
Maria Simona Andreano “Esercitazione sulla variabilità”

3. ESERCIZIO 3 BOX-PLOT

Consideriamo la seguente tabella di dati riferita ai voti di


laurea di un insieme di studenti, distintamente per i Maschi e per le
Femmine. Per comodità di esposizione abbiamo raggruppato i voti
inferiori a 90, sapendo tuttavia che il voto minimo dei Maschi era 72 e
quello delle Femmine 80.

Voto Maschi Femmine Voto Maschi Femmine


<90 143 93 100 66 93
90 54 45 101 21 30
91 21 26 102 32 56
92 37 43 103 23 46
93 30 43 104 14 29
94 29 37 105 36 77
95 34 69 106 15 33
96 31 38 107 19 34
97 34 36 108 17 55
98 23 51 110 84 206
99 21 36 Tot. 784 1176

Vogliamo disegnare per queste due distribuzioni i rispettivi


Box-Plot. Per fare questo dobbiamo preliminarmente calcolare alcuni
indici, che sono riportati di seguito:

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 10 di 12
Maria Simona Andreano “Esercitazione sulla variabilità”

Maschi Femmine
Min 72 80
Q1 90 95
Me 97 100
Q3 103 107
Max 110 110

Sulla base di questi andiamo a disegnare la “scatola”. I due


grafici sono presentati a seguire.
Notiamo che la distanza tra i valori estremi (= rango) è
maggiore per la distribuzione dei Maschi ed è pari a 38 voti. Per le
Femmini è solo 30. Per quanto riguarda la parte racchiusa tra il
primo e il terzo quartile, la distribuzione dei Maschi evidenzia sempre
una maggiore variabilità. I valori delle Femmine sono maggiormente
concentrati intorno al valore mediano. Questa minore dispersione
esprime minore viariabilità nella distribuzione.

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 11 di 12
Maria Simona Andreano “Esercitazione sulla variabilità”

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 12 di 12
LA TABELLA DOPPIA
Maria Simona Andreano
Maria Simona Andreano “La tabella doppia”

Indice

1. LA DISTRIBUZIONE DOPPIA DI FREQUENZE ---------------------------------- 3


2. LA DISTRIBUZIONE MARGINALE ----------------------------------------------------- 7
3. LA DISTRIBUZIONE CONDIZIONATA ----------------------------------------------- 9

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 2 di 10
Maria Simona Andreano “La tabella doppia”

1. LA DISTRIBUZIONE DOPPIA DI FREQUENZE

Fino ad ora abbiamo lavorato su un singolo carattere alla


vaolta e su questo abbiamo calcolato diversi indici. Adesso
supponiamo che sulle singole unità statistiche si osservino
contemporaneamente due caratteri: X e Y.

Oltre ad analizzare l'andamento della singola variabile (X o Y),


si è interessati a verificare l'esistenza di una dipendenza tra questi
due:

ANALISI BIVARIATA

L’obiettivo dell’analisi bivariata è quella di vedere come i due


caratteri analizzati interagiscono tra loro. In questo modo è possibile
definire e analizzare tali relazione, per cercare di “prevedere” il valore
di una variabile a partire da quello di un’altra. Inoltre la conoscenza
di una variabile può completare e migliorare quella dell’altra.
La dipendenza tra du caratteri può essere definita in diversi
modi. Avremo allora:

DIPENDENZA LOGICA: ha senso pensare che tra due


caratteri esista una relazione di causa ed effetto.

INTERDIPENDENZA: Si presuppone che tra i due caratteri vi


sia un legame bidirezionale.

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 3 di 10
Maria Simona Andreano “La tabella doppia”

ASSOCIAZIONE SPURIA: si rileva un legame statistico tra


due caratteri che invece risultano indipendenti da un punto di vista
logico.

Introduciamo l’analisi bivariata attraverso un esempio.


Supponiamo di aver rilevato su 300 laureati il Sesso e il Corso di
Laurea. I dati raccolti vengono raccolti nella seguente tabella doppia
di frequenze:

Maschi Femmine Totale


Economia 75 45 120
Statistica 35 65 100
Matematica 60 20 80
Totale 170 130 300

La tabella sopra viene detta “doppia”, poichè si riferisce


all’osservazione congiunta di due caratteri. Le frequenze che troviamo
al suo interno sono, pertanto, le frequenze “doppie”. A differenza della
tabella semplice, dove si riportava in una colonna le modalità del
carattere X e affianco le rispettive frequenze, qui abbiamo una tabella
doppia, dove in testata ritroviamo le modalità di un carattere e nella
prima colonna le modalità dell’altro carattere.
All’interno della tabella figurano le frequenze doppie, ottenute
direttamente dal conteggio. La frequenza “65” che incontriamo
dall’incrocio tra Sesso = Femmine e Corso di Laurea = Statistica,
esprime quante sono gli studenti che contemporanemante sono
femmine e iscritte a Statistica.

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 4 di 10
Maria Simona Andreano “La tabella doppia”

La tabella viene detta di:

Frequenza
assoluta
congiunta

Analogamente al caso univariato, alla tabella di frequenze assolute:

Maschi Femmine Totale


Economia 75 45 120
Statistica 35 65 100
Matematica 60 20 80
Totale 170 130 300

corrisponde quella di frequenze relative:

Maschi Femmine Totale


Economia 0,25 0,15 0,40
Statistica 0,12 0,21 0,33
Matematica 0,20 0,07 0,27
Totale 0,57 0,43 1,00

75/300 = 0,25

65/300 = 0,21

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 5 di 10
Maria Simona Andreano “La tabella doppia”

65/300 = 0,21

Le frequenze relative sono calcolate in maniera identica al caso


univariato: Frequenza assoluta / numerosità totale.

Diamo di seguito la rappresentazione generale di una tabella


doppia, espressa con i simboli classici della statistica.

Carattere Y
Y1 Y2 … Yj … Yk Totale
X1 n11 n12 … n1j … n1k n1.
Carattere X

X2 n21 n22 … n2j … n2k n2.


… … … … … … … …
Xi ni1 ni2 … nij … nik ni.
… … … … … … … …
Xh nh1 nh2 … nhj … nhk nh.
Totale n.1 n.2 … n.j … n.k n..

n ij  freq. assoluta rispetto a (x i , y j )


n i.  freq. assoluta di x i
n. j  freq. assoluta di y j



Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 6 di 10
Maria Simona Andreano “La tabella doppia”

2. LA DISTRIBUZIONE MARGINALE

Benchè la tabella doppia ci esprima come si distribuiscono le


unità rispetto ad entrambi i due caratteri osservati, è possibile in
realta ricavare da questa le informazioni associate alle singole
variabili.

E' infatti possibile ricavarsi dalla tabella doppia le tabelle


semplici per ciascuna delle variabili X e Y.

Tali distribuzioni univariate sono chiamate Distribuzioni


marginali della X e della Y.
Andiamo a determinare la distribuzione marginale della X per
il caso introdotto precedentemente. Il carattere X è “Corso di laurea a
cui si è iscritti” e le modalità sono: Economia, Statistica e
Matematica. Quindi la prima colonna esprime le modalità di X.

L’ultima colonna, invece, esprime quanti sono gli iscritti nei


vari corsi di laurea, senza distinguere tra Maschi e Femmine. Quindi
l’ultima colonna, ottenuta come somma delle colonne intermedie, mi
fornisce le frequenze della X.

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 7 di 10
Maria Simona Andreano “La tabella doppia”

In modo analogo posso ricavare la distribuzione singola della Y.


In questo caso prendo la prima riga, dove sono riportate le modalità
della Y e l’ultima riga, che esprime le rispettive frequenze.

Queste distribuzioni sono identiche a quelle analizzate fino ad


ora nel corso.

Su tali distribuzioni marginali possiamo calcolare le diverse


frequenze (relative, percentuali) e i diversi indici.

Se il carattere è quantitativo possiamo calcolare anche la media


aritmetica.

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 8 di 10
Maria Simona Andreano “La tabella doppia”

3. LA DISTRIBUZIONE CONDIZIONATA

La tabella doppia, oltre a nascondere le tabelle univariate,


permette di determinarsi anche le cosiddette distribuzioni
condizionate.
Per esempio, possiamo vedere come si distribuisce il carattere
"Corso di Laurea", condizionatamente ad Y=M, ossia vediamo come si
distribuisce il carattere X non nel suo complesso, ma solo tra i Maschi:

Analogamente possiamo vedere come si distribuisce il carattere


"Corso di Laurea", condizionatamente ad Y=F, ossia vediamo come si
distribuisce il carattere X non nel suo complesso, ma solo tra le
Femmine:

Queste ditribuzioni sono le condizionate.

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 9 di 10
Maria Simona Andreano “La tabella doppia”

Ovviamente possiamo costruire la tabella condizionata anche


con le frequenze relative:

Attenzione però a prendere la numerosità giusto rispetto alla


quale dividire. Infatti, nella distribuzione di Y, condizionata a F, la
numerosità totale è 130 e quindi le frequenze osservate dovranno
essere divise per tale ammontare, per ricavarsi le frequenze relative.

Andiamo a interpretare i dati della tabella. Vediamo che i


laureati in Statistica rappresentano il 33% del totale dei laureati
analizzati.

Si osservano però situazioni completamente diverse se si


analizzano distintamente le distribuzioni condizionate ad F e ad M.

I laureati in statistica rappresentano il 50% delle laureate


femmine e solo il 20% dei laureati maschi.

La laurea è quindi “non è indipendente” dal Sesso.

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 10 di 10
ESERCITAZIONE SULLA
TABELLA DOPPIA
Maria Simona Andreano
Maria Simona Andreano “Esercitazione sulla tabella doppia”

Indice

1. ESEMPIO DISTRIBUZIONE MARGINALE (ESERCIZIO TRATTO DAL


TESTO DI IACUS) ------------------------------------------------------------------------------ 3
2. ESEMPIO DISTRIBUZIONE CONDIZIONATA ------------------------------------ 6

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 2 di 9
Maria Simona Andreano “Esercitazione sulla tabella doppia”

1. ESEMPIO DISTRIBUZIONE MARGINALE


(ESERCIZIO TRATTO DAL TESTO DI IACUS)

Su un gruppo di 15 individui è stato effettuato un test per


rilevare l'attitudine musicale (X) e quella pittorica (Y) secondo le
seguenti scale di modalità: sufficiente (S), buona (B) e ottima (O) per
X e bassa (B), media (M) e alta (A) per Y. I risultati sono raccolti di
seguito:

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 3 di 9
Maria Simona Andreano “Esercitazione sulla tabella doppia”

Calcoliamo per la tabella doppia le frequenze relative congiunte:

n ij
f ij 
n

Y B  M A
X

S 1/15 = 0.07 3/15 = 0,20 0/15 = 0 0,27

B 1/15 = 0.07 3/15 = 0,20 2/15 = 0,13 0,40

O 2/15 = 0,13 1/15 = 0.07 2/15 = 0,13 0,33

0,27 0,47 0,26 1

In questo caso le frequenze osservate devono essere divise per il


totale delle osservazioni, n = 15.

Vediamo ora come ricostruire dalla tabella doppia, quelle


univariate. Ossia andaimo a calcolarci le distribuzioni marginali di X
e di Y, in frequenze assolute e relative. Per quanto riguarda la X
riprendiamo la prima e l’ultima colonna:

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 4 di 9
Maria Simona Andreano “Esercitazione sulla tabella doppia”

X n f

S 4 0,27

B 6 0,40

O 5 0,33

15 1

Mentre per costruire la distribuzione marginale della Y


consideriamo la prima e l’ultima riga (che poi trasponiamo per
comodità espositiva):

Y n f

B 4 0,27

M 7 0,47

A 4 0,26

15 1

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 5 di 9
Maria Simona Andreano “Esercitazione sulla tabella doppia”

2. ESEMPIO DISTRIBUZIONE CONDIZIONATA

Passiamo a questo punto a considerare la terza tipologia di


distribuzione “nascosta” nella tabella doppia: la distribuzione
condizionata.

Nell'esempio precedente abbiamo visto la distribuzione doppia


e le due distribuzioni semplici.
Possiamo essere interessati a vedere come si distribuisce il
carattere Y (attitudine pittorica) limitatamente tra gli individui che
presentano il valore X = S (attitudine musicale sufficiente).
Ossia consideriamo la distribuzione condizionata di Y ad X = S.
Possiamo indicare tale distribuzione con Y|X=S.

Quindi per la costruzione della distribuzione condizionata


Y|X=S abbiamo:

B M A
Y

X=S 1 3 0 4

E in termini di frequenze relative:

B M A
Y

X=S 0,25 0,75 0,00 1

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 6 di 9
Maria Simona Andreano “Esercitazione sulla tabella doppia”

Allo stesso modo ricaviamo le distribuzioni di Y condizionate a


X = B e X =O, con frequenze assolute:

B M A
Y

X=B 1 3 2 6

B M A
Y

X=O 2 1 2 4

E le rispettive distribuzioni di Y condizionate a X = B e X =O,


con frequenze relative:

B M A
Y

X=B 0,167 0,500 0,333 1

B M A
Y

X=O 0,4 0,2 0,4 1

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 7 di 9
Maria Simona Andreano “Esercitazione sulla tabella doppia”

Allo stesso modo possiamo pensare di costruire la distribuzione


di X condizionata alle differenti modalità assunte da Y. Abbiamo
quindi X|Y=B, in termini assoluti e relativi:

X|Y=B n f

S 1 0,25

B 1 0,25

O 2 0,50

4 1

E le distribuzioni di X condizionate a Y = M e Y = A, con


frequenze assolute:

X|Y=M n X|Y=A n
S 3 S 0
B 3 B 2
O 1 O 2
7 4

Allo stesso modo ricaviamo le distribuzioni di X condizionate a


Y = M e Y = A, con frequenze relative:

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 8 di 9
Maria Simona Andreano “Esercitazione sulla tabella doppia”

X!Y=M n X!Y=A n

S 0,43 S 0,0

B 0,43 B 0,5

O 0,14 O 0,5

1 1

Cerchiamo di leggere in modo corretto le informazioni fornite


da tali distribuzioni. Supponiamo di voler sapere:
Quanti sono (in termini relativi) coloro che hanno attitudine
"Alta" per la musica?
La risposta è: Dipende...

Infatti sono lo 0,26% in totale, ma lo 0% tra coloro che hanno X


= S, lo 0,33% tra coloro che hanno X = B e infine lo 0,40% tra coloro
con X = O.

Possiamo quindi dire che la conoscenza del carattere X


condiziona la modalità Y, quindi i due caratteri sono dipendenti!!

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 9 di 9
LA CONNESSIONE E
L'INDIPENDENZA
INTRODUZIONE ALLA CONNESSIONE
 Analizzare le relazioni tra i caratteri, per
comprendere se queste sono legate tra loro.
 Le osservazioni della coppia (Xi,Yi) sono raccolte in
una tabella doppia.
 I caratteri possono essere entrambi qualitativi non
ordinabili.
 La determinazione delle distribuzioni marginali e
condizionate mettono in evidenza se esiste una
connessione tra le variabili osservate.
INTRODUZIONE ALLA CONNESSIONE
 Supponiamo di aver osservato la seguente
distribuzione doppia:

Carattere Y
Y1 Y2 Totale
Carattere X

X1 10 20 30

X2 20 40 60

X3 30 60 90

Totale 60 120 180


INTRODUZIONE ALLA CONNESSIONE
 La distribuzione con frequenze assolute non permette
di effettuare correttamente i confronti tra le diverse
distribuzioni "nascoste" nella doppia, poichè influenzate
da diversa numerosità. Calcoliamo le distribuzioni
condizionate e marginale relative di Y:
Carattere Y
Y1 Y2 Totale
Carattere X

X1 0,167 0,167 0,167

X2 0,333 0,333 0,333

X3 0,500 0,500 0,500

Totale 1,000 1,000 1,000


INTRODUZIONE ALLA CONNESSIONE
 Allo stesso modo determiniamo le distribuzioni
condizionate e marginale della X:
Carattere Y
Y1 Y2 Totale
Carattere X

X1 0,333 0,667 1,000

X2 0,333 0,667 1,000

X3 0,333 0,667 1,000

Totale 0,333 0,667 1,000


INTRODUZIONE ALLA CONNESSIONE
 Notiamo che tutte le distribuzioni condizionate sono
simili tra loro e, a loro volta, simili a quella
magistrale.
 La distribuzione della X è la stessa,
indipendentemente dal valore assunto da Y.
 La distribuzione della Y è la stessa
indipendentemente dal valore assunto dalla X.
 Possiamo dire che X e Y non sono connesse tra loro,
ossia sono INDIPENDENTI.
LA CONDIZIONE DI INDIPENDENZA
 E’ possibile dimostrare che se il carattere X è
indipendente dal carattere Y, allora vale anche la
relazione contraria: anche il carattere Y sarà
indipendente dal carattere X.

 Pertanto: due caratteri X ed Y si diranno


indipendenti se le distribuzioni relative
condizionate di un carattere rispetto alle
modalità dell’altro sono uguali.
LA CONDIZIONE DI INDIPENDENZA
 In termini generali avremo quindi, nel caso di
indipendenza:

n1 j n2 j nij nkj n. j
  ...   ...   j
n1. n2. ni. nk. n..

 Dove le prime frequenze relative si riferiscono alle


 distribuzioni condizionate e l'ultima alla distribuzione
marginale.
LA CONDIZIONE DI INDIPENDENZA
 Consideriamo ora il termine generale della relazione
precedente:
nij n. j
 , i  1,2,...,k j  1,2,...,h
ni. n..

 Quindi nel caso di indipendenza assoluta si ha:


 ni.  n. j
n *
ij  , i  1,2,...,k j  1,2,...,h
n..
Frequenze
teoriche di
 indipendenza
DIPENDENZA PERFETTA
 Un carattere Y dipende perfettamente da X se ad ogni
modalità di X è associata una ed una sola modalità del
carattere Y.
Carattere Y
 Se X=X1 Y=Y2
Y1 Y2 Totale
 Se X=X2 Y=Y1
Carattere X
X1 0 20 20
 Se X=X3 Y=Y2
X2 20 0 20

X3 0 60 60

Totale 20 80 100
DIPENDENZA PERFETTA
 Affinchè ci sia dipendenza perfetta di X da Y e di Y
da X è necessario che la tabella sia quadrata, ossia
X e Y devono avere lo stesso numero di modalità.

 In questo caso un carattere X dipende


perfettamente da Y se ad ogni modalità di Y è
associata una ed una sola modalità del carattere X.
DIPENDENZA PERFETTA
 Un carattere Y dipende perfettamente da X se ad ogni
modalità di X è associata una ed una sola modalità del
carattere Y e viceversa.

Y1 Y2 Y3 tot
X1 20 0 0 20
X2 0 10 0 10
X3 0 0 30 30
tot 20 10 30 60
Maria Simona Andreano – L’indice del chi quadrato

Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da
copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per
gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633).

1 di 8
Maria Simona Andreano – L’indice del chi quadrato

Indice

1. CHI QUADRATO ....................................................................................................................................... 3


2. INDICI RELATIVI DI CONNESSIONE ......................................................................................................... 7

Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da
copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per
gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633).

2 di 8
Maria Simona Andreano – L’indice del chi quadrato

Chi quadrato

La tabella doppia considera la distribuzione congiunta di due caratteri X e Y su ne unità.

Nel caso in cui i due caratteri siano indipendenti, vale la seguente condizione tra le frequenze

doppie e marginali:

dove ni. e n.j sono le frequenze assolute marginali e n è la numerosità totale.

Pertanto con n* si indicano, date le marginali, le frequenze che si dovrebbero osservare, nel

caso di indipendenza tra i caratteri.

Ricorriamo ad un esempio per chiarire meglio.

Consideriamo la seguente tabella doppia:

Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da
copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per
gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633).

3 di 8
Maria Simona Andreano – L’indice del chi quadrato

ni.  n. j
n*ij = , i =1,2,...,k j =1,2,...,h
n..

Cancelliamo dalla tabella le frequenze doppie interne realmente osservate e consideriamo

invece soltanto le frequenze marginali. A partire da tali marginali applichiamo la formula delle

frequenze n* e ci determiniamo le frequenze teoriche di indipendenza:

Avremo per esempio, per Y=B e X=S:

n1.  n.1 4  4
n *11 = = = 1,07
n 15


Analogamente per le altre frequenze, nel caso di indipendenza avremmo dovuto osservare:

Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da
copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per
gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633).

4 di 8
Maria Simona Andreano – L’indice del chi quadrato

n1.  n.2 4  7
n *12 = = = 1,87
n 15
n  n.3 4  4
n *13 = 1. = = 1,07
n 15
n  n.1 6  4
n * 21 = 2. = = 1,60
n 15
...
n  n.3 5  4
n * 33 = 3. = = 1,33
n 15

A questo punto andiamo a confrontare le frequenze teoriche di indipendenza con quelle

realmente osservate. Se le frequenze osservate non sono TUTTE identiche a quelle calcolate con la

formula, diremo che i due caratteri sono dipendenti.

Quanto più le frequenze osservate nij si discostano da quelle teoriche di indipendenza, tanto

più i due caratteri osservati saranno dipendenti tra loro.

Sembra logico basare un indice che misuri la dipendenza tra i due caratteri X e Y sulla

differenza tra le frequenze osservate e quelle che si sarebbero dovute osservare nel caso di

indipendenza.

Chiamiamo tale differenza contingenza:

c ij = (n ij − n *ij )

Ossia la differenza tra lefrequenze osservate e quelle teoriche.

Sulla base di queste si passa a calcolare l'indice di dipendenza del χ2:

Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da
copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per
gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633).

5 di 8
Maria Simona Andreano – L’indice del chi quadrato

(n )
2
h k − n *ij
= 
ij
2
i=1 j =1
n *ij

Tale indice è pari a 0 se le frequenze osservate coincidono con quelle teoriche di

indipendenza:

2 = 0  n ij = n *ij i, j
2  0  n ij  n *ij per almeno un i o j

Quanto più le frequenze osservate nij si discostano da quelle teoriche di indipendenza, tanto

più elevato sarà il valore di χ2.

Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da
copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per
gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633).

6 di 8
Maria Simona Andreano – L’indice del chi quadrato

1. Indici relativi di connessione

L’indice appena introdotto può assumere un valore massimo qualsiasi, a seconda dei dati a

disposizione. Questo rende complicato la sua interpretazione. Ossia, se χ 2 > 0 non riusciamo a dire

quanto è forte la dipendenza.

Ai fini di una corretta interpretazione della dipendenza è utile avere un indice che vari tra

zero (assenza di dipendenza) e 1 (massima dipendenza).

Ossia è necessario determinare un indice relativo di dipendenza.

Si dimostra che nel caso di massima dipendenza, l'indice del χ2 vale:

H e K sono il valore delle righe e colonne


2 = n min[( h −1);(k −1)] devo prendere il minimo tra loro

 è il valore massimo che, nelle varie situazioni, può assumere l’indice.


Quindi tale valore

Da tale proprietà possiamo ricavare un seguente indice relativo di dipendenza:

2 2
V =
n min[( h −1);(k −1)] n min[( h −1);(k −1)]


L'indice V è chiamato indice di Cramer.

Tale indice può variare tra zero ed uno, e sarà pari a zero nel caso di indipendenza, mentre

assumerà valore 1 nel caso di massima dipendenza.

Riassumendo, quindi, abbiamo che le Tabelle doppie di frequenze sono utili per analizzare

simultaneamente due caratteri. Possiamo, partendo da queste, misurare il grado di

dipendenza/interdipendenza tra due caratteri con il chi2. Da questo, per superare il difetto di non

Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da
copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per
gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633).

7 di 8
Maria Simona Andreano – L’indice del chi quadrato

essere un indice “relativo”, possiamo passare all’indice V di Cramer, che invece è un indice relativo

di associazione. Esso varia tra zero ed uno.

Esercizi

Y1 Y2 Y3 totale

X1 2 5 15 22

X2 4 14 10 28

X3 7 6 12 25

Totale 13 25 37 75

Calcolare l’indice chi2

Calcolare l’indice di Cramer V

Interpretare i risultati

[Soluzione: chi2=9.029, V=0.245, bassa dipendenza]

Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da
copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per
gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633).

8 di 8
ESERCITAZIONE SUL CHI
QUADRATO
Maria Simona Andreano
Maria Simona Andreano “Esercitazione sul chi quadrato”

Indice

1. ESERCIZIO SUL CHI2 ------------------------------------------------------------------------ 3

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 2 di 10
Maria Simona Andreano “Esercitazione sul chi quadrato”

1. ESERCIZIO SUL CHI 2

E’ stata effettuata un’indagine sugli studenti del nostro Ateneo


al fine di rilevare il grado di associazione tra il voto da questi
riportato nell’esame di matematica e nell’esame di statistica. I
risultati sono riportati nella tabella seguente (in riga i voti di
matematica, in colonna quelli di statistica):

18-22 23-26 27-30


18-22 20 3 2 25
23-26 2 27 6 35
27-30 4 6 30 40
26 36 38 100

a) Si calcoli l’associazione tra queste due variabili utilizzando


gli indici Chi-quadrato e V di Cramer.
b) Essendo i caratteri quantitativi, si calcoli la media totale
della X e le medie condizionate, sempre della X. Confrontarle e
interpretare i risultati

Ricordiamo le formule dei due indici in questiona:

n 
2
h k  n *ij
 
ij
 2

i1 j 1 n *ij

2 2
V 
 1);(k 1)]
n min[(h n min[(h 1);(k 1)]



Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 3 di 10
Maria Simona Andreano “Esercitazione sul chi quadrato”

Al fine di calcolare l’indice del chi quadrato dobbiamo innanzi


tutto calcolarci le frequenze teoriche:

ni.  n. j
n* ij  , i  1,2,...,k j  1,2,...,h
n..

Fissiamo quindi le marginali (l’ultima riga e l’ultima colonna) e


applichiamo la
 suddetta formula per ogni frequenza interna alla
tabella.
I risultati sono riportati di seguito.

Una volta determinate le frequenze teoriche dobbiamo


determinare le contingenze, che esprimono la differenza tra queste e
le frequenze osservate:

c ij  (nij  n*ij )



Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 4 di 10
Maria Simona Andreano “Esercitazione sul chi quadrato”

Nella formula del chi quadrato abbiamo poi le contingenze al


quadrato cij2
Quindi riportiamo per comodità in una nuova tabella tali
quadrati:

A questo punto dobbiamo dividere ognuno di tali quadrati per


la frequenza teorica corrispondente (ossia che occupa la stessa

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 5 di 10
Maria Simona Andreano “Esercitazione sul chi quadrato”

posizione nella tabella). E’ utile, per semplificare i calcoli, riportare


tali rapporti in una nuova tabella:

A questo punto, al fine di ottenere l’indice del chi quadrato,


possiamo semplicemente sommare tutti i valori che sono all’interno
della tabella:

χ  
2
H K n ij
 n' ij 
2

 87,21
i 1 j1 n' ij

Una volta determinato il chi quadrato, per passare all’indice


relativo V, dobbiamo definire il valore massimo, che è dato da:

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 6 di 10
Maria Simona Andreano “Esercitazione sul chi quadrato”

χ 2 max  n  min H  1; K  1  100  (3  1)  100  2  200


Quindi, determinato il massimo del chi quadrato, lo inseriamo
nella formula di V:

χ2 87,21
V   0,436  0,66
χ 2 max 200

Sappiamo che V varia tra 0 e 1, con 0 in corrispondenz di


indipendenza e 1 massima dipendenza. Nel caso analizzato ci
troviamo in una situazione intermedia, di presenza di dipendenza,
anche se non forte:
Dipendenza Media

Passiamo a questo punto a risolvere l’ultimo punto


dell’esercizio: calcoliamo la media totale della X e le medie
condizionate, sempre della X.

18-22 23-26 27-30


18-22 20 3 2 25
23-26 2 27 6 35
27-30 4 6 30 40
26 36 38 100

Per calcolare la media totale di X dobbiamo fare riferimento


alla distribuzione marginale della X; ossia dobbiamo prendere la
prima e l’ultima colonna.

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 7 di 10
Maria Simona Andreano “Esercitazione sul chi quadrato”

Media totale della X:

X ci ni ci * ni

18-22 20 25 20 x 25 = 500

23-26 24,5 35 24,5 x 35 = 857,5

27-30 28,5 40 28,5 x 40 = 1140

100 2497,5

x  ni i
2497,5
x i1
  24,97
n 100

Consideriamo ora le varie medie condizionate. Possiamo



calcolarne tre, ognuna riferita ad un valore differente della Y.

Media condizionata della X|Y= 18-22

X ci ni ci * ni

18-22 20 20 20 x 20 = 400

23-26 24,5 2 24,5 x 2 = 49

27-30 28,5 4 28,5 x 4 = 114

26 563

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 8 di 10
Maria Simona Andreano “Esercitazione sul chi quadrato”

x  ni i
563
x1  i1
  21,65
n 24

Media condizionata della X|Y= 23-26



X ci ni ci * ni

18-22 20 3 20 x 3 = 60

23-26 24,5 27 24,5 x 27 = 661,5

27-30 28,5 6 28,5 x 6 = 171

36 892,5

x  n i i
892,5
x2  i1
  24,79
n 36

media condizionata della X|Y= 27-30


E infien la

X ci ni ci * ni

18-22 20 2 20 x 2 = 40

23-26 24,5 6 24,5 x 6 = 147

27-30 28,5 30 28,5 x 30 = 855

38 1042

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 9 di 10
Maria Simona Andreano “Esercitazione sul chi quadrato”

x  ni i
1042
x3  i1
  27,42
n 38

 diverse tra loro.


Le medie sono
A seconda del voto preso nell'esame Y (statistica) si hanno voti
medi diversi per X.
Risultato prevedibile, visto che l'indice V aveva evidenziato un
discreto grado di dipendenza tra i due caratteri.
Se ci fosse stata indipendenza il voto medio di X sarebbe stato
identico, indipendentemente da quanto osservato per la Y!

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 10 di 10
CONCORDANZA E
DISCORDANZA
Maria Simona Andreano
Maria Simona Andreano “Concordanza e discordanza”

Indice

1. GRAFICI DI DISPERSIONE--------------------------------------------------------------------- 3
2. LA COVARIANZA --------------------------------------------------------------------------------- 5
3. CALCOLO DELLA COVARIANZA CON LA FORMULA SEMPLIFICATA ------- 9

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 2 di 11
Maria Simona Andreano “Concordanza e discordanza”

1. GRAFICI DI DISPERSIONE

Un primo passo fondamentale al fine di comprendere se due


caratteri quantitativi X e Y sono dipendenti, è quello di costruire un
opportuno grafico che li rappresenti congiuntamente.
I grafici considerati nell’ambito dell’analisi univariata, quali
quelli a rettangoli, a barre e gli istogramma, sono grafici adatti a
rappresentare fenomeni univariati, ossia rilevati singolarmente sulle
unità statistiche.
Eventualmente si possono affiancare sullo stesso grafico più
fenomeni, ma senza che questo permetta di rappresentare
congiuntamente i due caratteri rilevati e metterli in relazione.
Se i due caratteri X e Y sono quantitativi, questi possono essere
riportati su un piano cartesiano.
Supponiamo che su ciascuna unità i-esima siano stati osservati
contemporaneamente due caratteristiche (X,Y) e queste siano
quantitative.
Il modo calssico di rappresentare l’insieme dei dati è una
tabella di dati unitari:

i-ma unità 1 2 … n

Xi X1 X2 … Xn

Yi Y1 Y2 … Yn

Lo scatterplot (grafico a dispersione) è il metodo grafico più


idoneo e utilizzato per rappresentare i nostri dati (X,Y).

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 3 di 11
Maria Simona Andreano “Concordanza e discordanza”

Le variabili (X,Y) vengono interpretati come assi di un piano


cartesiano e ogni coppia di osservazioni relativa all’unità i-esima
(Xi,Yi) come un punto su tale piano.

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 4 di 11
Maria Simona Andreano “Concordanza e discordanza”

2. LA COVARIANZA

L’analisi della dipendenza e della concordanza si deve allo


scienzato Karl Pearson.

KARL PEARSON (1857-1936)


Pearson raccolse le altezze di 1078 padri e dei loro figli in età
matura. Il rispettivo scatterplot è riportato di seguito:

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 5 di 11
Maria Simona Andreano “Concordanza e discordanza”

Se esiste una forte associazione fra X e Y, conoscere il valore di


una variabile aiuta a prevedere il valore corrispondente dell’altra.

DEFINIZIONE 1:
Dati due caratteri quantitativi X e Y, si ha concordanza tra di
essi, se a valori più piccoli di X corrispondono valori più piccoli di Y e
a valori più grandi di X corrispondono valori più grandi di Y.

DEFINIZIONE 2:
Dati due caratteri quantitativi X e Y, si ha discordanza tra di
essi, se a valori più piccoli di X corrispondono valori più grandi di Y e
a valori più grandi di X corrispondono valori più piccoli di Y.
Per comprendere se si è in presenza di concordanza,
discordanza o assenza di legame, è utile riportare sul grafico il
baricentro, corrispondente al punto di coordinate con le medie:

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 6 di 11
Maria Simona Andreano “Concordanza e discordanza”

A questo punto vediamo come si comportano i diversi punti


osservati rispetto al baricentro. In base alla loro posizione relativa al
baricentro è possibile definire se esiste o meno un legame.
Un’importante misura della concordanza basata su tale distribuzione
è la covarianza definita come:

1 n
Cov( X , Y )   ( xi  x )( yi  y)
n i 1

Che si dimostra che equivale alla seguente formula alternativa


semplificata:

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 7 di 11
Maria Simona Andreano “Concordanza e discordanza”

- Se X e Y sono concordi, allora la covarianza assume segno


positivo;
- Se X e Y sono discordi, allora la covarianza assume segno
negativo;
- Se la covarianza è nulla, X e Y sono indifferenti (incorrelati).

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 8 di 11
Maria Simona Andreano “Concordanza e discordanza”

3. CALCOLO DELLA COVARIANZA CON LA


FORMULA SEMPLIFICATA

Vediamo un’applicazione della formula della covarianza su


alcuni dati. Supponiamo di aver osservato congiuntamente i caratteri
X e Y su 7 unità, i cui dati sono riportati nella seguente tabella:

Xi Yi

2 12

4 15

5 11

1 8

10 17

3 10

7 20

Andiamo a calcolare con tali dati la covarianza:

1 n
Cov( X , Y )   xi yi  x  y
n i 1

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 9 di 11
Maria Simona Andreano “Concordanza e discordanza”

Per semplificare i calcoli, aggiungiamo alla tabella dei dati una


colonna, dove si riporta il prodotto tra le x e le y:

Xi Yi Xi Yi

2 12 24

4 15 60

5 11 55

1 8 8

10 17 170

3 10 30

7 20 140

Per calcolare la covarianza è necessario, infatti, calcolare le


seguenti tre sommatorie:

 x  32  y  93  x y  467

Le prime due sommatorie servono per calcolare le medie.



Infatti abbiamo:

x  4,57 y 13,29

Pertanto la covarianza sarà:




1
Cov(X,Y)  467  4,57 13,29  66,71  60,74  5,97
7

Attenzione! Questo materiale didattico è per uso personale dello studente ed è



coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 10 di 11
Maria Simona Andreano “Concordanza e discordanza”

La Covarianza è positiva, quindi possiamo affermare che i due


caratteri sono concordi:
aumenta X  aumenta Y
diminuisce X  diminuisce Y

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 11 di 11
LA CORRELAZIONE
Maria Simona Andreano
Maria Simona Andreano “La correlazione”

Indice

1. IL COEFFICIENTE DI CORRELAZIONE -------------------------------------------- 3


2. INTERPRETAZIONE DEL COEFFICIENTE DI CORRELAZIONE-------- 4

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 2 di 7
Maria Simona Andreano “La correlazione”

1. IL COEFFICIENTE DI CORRELAZIONE

La covarianza è un indice che misura come variano


congiuntamente due variabili X e Y, osservate sulle unità statistiche.
- Se la covarianza è positiva ci sarà concordanza.
- Se la covarianza è negativa ci sarà discordanza.
- Se la covarianza è nulla, non c’è legame

In base al valore assunto dalla covarianza riusciamo pertanto a


comprendere se c’è legame e la tipologia del legame (diretto o inverso).
Tale indice però non è un indice relativo, quindi è difficile
interpretarne l'intensità. Dal valore della covarianza non possiamo
capire se il legame (diretto o inverso) è forte o debole. Dobbiamo
quindi costruire un indice relativo. Si dimostra che vale:

x y  xy  x y


Da tale disuguaglianza, dividendo tutti i membri per σxσy si
ottiene il coefficiente di correlazione ρ:

 xy
 1    1
 x y



Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 3 di 7
Maria Simona Andreano “La correlazione”

2. INTERPRETAZIONE DEL COEFFICIENTE DI


CORRELAZIONE

Andiamo ad interpretare i diversi valori possibili del


coefficiente di correlazione. Nei seguenti grafici si riportano diverse
nuvole di punti, per le quali è stato calcolato il coefficiente di
correlazione.

 X  3; Y  3; X  1;  Y  1; r  0  X  3; Y  3; X  1;  Y  1; r  0.4  X  3; Y  3; X  1;  Y  1; r  0.9

 X  3; Y  3; X  1;  Y  1; r  0.6  X  3; Y  3; X  1;  Y  1; r  0.8  X  3; Y  3; X  1;  Y  1; r  0.95

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 4 di 7
Maria Simona Andreano “La correlazione”

 X  3; Y  3;  X  1; Y  1; r  0.3  X  3; Y  3; X  1;  Y  1; r  0.5  X  3; Y  3; X  1;  Y  1; r  0.95

 X  3; Y  3; X  1;  Y  1; r  0.7  X  3; Y  3; X  1;  Y  1; r  0.9  X  3; Y  3; X  1;  Y  1; r  0.99

E’ necessario tuttavia fare una precisazione. Il coefficiente di


correlazione coglie la presenza di legame lineare tra le due variabili.
Pertanto, se ρ= 0 significa che non c'è legame lineare, non che non
esiste legame in assoluto.

Può accadere che il legame tra X ed Y è perfettamente spiegato


da una relazione non lineare, ma questa non viene colta dal
coefficiente di correlazione.

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 5 di 7
Maria Simona Andreano “La correlazione”

Correlazione spuria
Il coefficiente di correlazione lineare sintetizza con un valore
unico il grado del legame lineare tra le variabili X e Y.

Non sempre, però, ad un valore elevato di ρ corrisponde un


effettivo legame tra i due caratteri considerati. Infatti, ad esempio,
può esistere un legame tra X e Y solo perchè entrambe le variabili
dipendono da una terza variabile Z.
In questo caso siamo nella situazione di correlazione spuria.

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 6 di 7
Maria Simona Andreano “La correlazione”

Esempio Correlazione spuria


Il numero di bottiglie di birra bevute e il numero di
condizionatori che vengono venduti in Italia presentano un’alta
correlazione lineare. In realtà non esiste un nesso logico tra queste
due variabili, ma tutte e due le variabili dipendono da una terza
variabile: la temperatura.
Infatti, più la temperatura è alta, più birre vengono bevute e
più condizionatori vengono venduti. Il coefficiente di correlazione non
riesce pertanto a “comprendere” se il nesso specificato è reale.

Caso in cui ρ 0, ma non esiste legame tra X e Y


La presenza di dati anomali è un altro problema, al fine di una
corretta interpretazione del coefficiente di correlazione.
Se calcoliamo sui dati riportati nel garfico seguente, il
coefficiente di correlazione sarà negativo. La presenza del punto
isolato in alto a sinistra condiziona fortemente il risultato. Se tale
punto non fosse stato osservato, probabilmente la nuvola comportava
un coefficiente nullo.
E’ opprotuno, partendo proprio dal grafico, comprendere se
siamo in presenza di un dato errato o se invece l’osservazione è
significativa.

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 7 di 7
ESERCITAZIONE SULLA
CORRELAZIONE
Maria Simona Andreano
Maria Simona Andreano “Esercitazione sulla correlazione”

Indice

1. ESERCIZIO 1 SU CORRELAZIONE----------------------------------------------------- 3
2. ESERCIZIO 2 SU CORRELAZIONE----------------------------------------------------- 6

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 2 di 8
Maria Simona Andreano “Esercitazione sulla correlazione”

1. ESERCIZIO 1 SU CORRELAZIONE

Sia data la seguente distribuzione di 6 appezzamenti di terreno


secondo la quantità di fertilizzante utilizzato ed il raccolto di grano.
Calcolare ρ.

X Fertilizzante Y Grano
(Kg) (qt)

12 7

10 6

8 4

9 4

5 3

2 2

Ricordiamo la formula del coefficiente di correlazione, nella sua


forma semplificata:
1
 n
 x y  x  y
  xy 
 x y 1 1
n
 x2  x2
n
 y2  y2

Dobbiamo quindi determinare le seguenti sommatorie:




 x,  y,  x  y,  x ,  y 2 2

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 3 di 8
Maria Simona Andreano “Esercitazione sulla correlazione”

Aggiungiamo allora alla tabella dei dati 3 colonne: una relativa


ai quadrati di X, una ai quadrati di Y e una con i prodotti tra X e Y.

X
Fertilizzante Y
(Kg) X2 Grano (qt) Y2 XY

12 144 7 49 84

10 100 6 36 60

8 64 4 16 32

9 81 4 16 36

5 25 3 9 15

2 4 2 4 4

46 418 26 130 231

Una volta ricavate queste tre colonne, riportiamo nell’ultima


riga le rispettive sommatorie. Inseriamo quindi i valori così ottenuti
nella formula introdotta in precedenza:

1
231  7,67  4,33
 6  0.941
1 1
418  7,67 2
130  4,332

6 6



Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 4 di 8
Maria Simona Andreano “Esercitazione sulla correlazione”

- Il coefficiente di correlazione è positivo, quindi c'è concordanza


tra i due caratteri analizzati. Possiamo dire che all’aumentare di X,
aumenta Y e al diminuire di X, diminuisce Y.

- Il coefficiente di correlazione è prossimo al suo valore


massimo, pertanto c'è quasi perfetta correlazione. Ossia il legame tra
X e Y quasi perfettamente lineare. Infatti sappiamo che il coefficiente
di correlazione può variare tra -1 e +1.

8
7
Produzione grano

6
5
4
3
2
1
0
0 2 4 6 8 10 12 14
Fertilizzante

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 5 di 8
Maria Simona Andreano “Esercitazione sulla correlazione”

2. ESERCIZIO 2 SU CORRELAZIONE

In 5 città italiane è stato rilevato il numero di giorni con


pioggia (nel mese corrente) e il livello di smog espresso con
l'indicatore Y:

X Y

5 3

10 1

0 6

9 2

1 8

25 20

Calcoliamo il coefficiente di correlazione, per determinare se


esiste un legame tra le due variabili analizzate.

1
 n
 x y  x  y
  xy 
 x y 1 1
n
 x2  x2
n
 y2  y2



Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 6 di 8
Maria Simona Andreano “Esercitazione sulla correlazione”

X X2 Y Y2 XY

5 25 3 9 15

10 100 1 1 10

0 0 6 36 0

9 81 2 4 18

1 1 8 64 8

25 207 20 114 51

Abbiamo calcolato le sommatorie che servono al fine della


determinazione del coefficiente di correlazione. Otteniamo quindi:

1
51  5  4 10,2  20
 5  
1 1 16,4  6,8
207  5 2
114  4 2

5 5

9,8
 0.92
4,05 2,61


- Il coefficiente di correlazione è negativo, pertanto i due
caratteri sono discordanti: all’aumentare di X, Y
diminuisce; al diminuire di X, Y aumenta.
- Il legame è inverso.

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 7 di 8
Maria Simona Andreano “Esercitazione sulla correlazione”

- Il coefficiente di correlazione è vicino al suo estremo


inferiore, pertanto il legame è quasi perfetto inverso.

Grafico di dispersione dello smog in funzione del numero di


giorni di pioggia:

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 8 di 8
LA RETTA DI
REGRESSIONE
Maria Simona Andreano
Maria Simona Andreano “La retta di regressione”

Indice

1. INTRODUZIONE ALLA RETTA DI REGRESSIONE ---------------------------- 3


2. I MINIMI QUADRATI ------------------------------------------------------------------------- 7
3. INTERPRETAZIONE DELLA RETTA -------------------------------------------------- 9

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 2 di 10
Maria Simona Andreano “La retta di regressione”

1. INTRODUZIONE ALLA RETTA DI REGRESSIONE

Analisi della correlazione:


- interdipendenza X  Y
- coefficiente correlazione ρ

Il coefficiente di correlazione permette di individuare


l’esistenza di una relazione reciproca tra due variabili quantitative X
e Y, ma non definisce la direzione di tale relazione.

Obiettivo della regressione, invecem è quello di definire un


legame di dipendenza, ossia di individuare un nesso di causalità che
va da una variabile (X) ad un’altra (Y).

Analisi della regressione:


- dipendenza di una variabile sull’altra
- relazione causale tra le variabili

L’analisi è sempre di tipo bivariata, ma ora presupponiamo


l’esistenza di una relazione di tipo funzionale tra i due caratteri X e Y,
secondo cui è possibile stabilire quale sia la variabile indipendente e
quale quella dipendente.

Scopo della regressione è quello di definire una relazione del tipo:

Y  f X 

dove X è la variabile indipendente e Y la variabile dipendente.




Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 3 di 10
Maria Simona Andreano “La retta di regressione”

Tale funzione matematica f(.) può assumere qualunque forma


(quadratica, esponenziale, ecc.).
Nella nostra analisi della regressione ci limiteremo a trattare il
caso della relazione lineare del tipo:

Y   0  1X

Attenzione! Questo materiale  didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 4 di 10
Maria Simona Andreano “La retta di regressione”

- dove β0 rappresenta l’intercetta, mentre β1 è il coefficiente


angolare, ossia ci dà la pendenza della retta.

E’ per questo che parleremo di retta di regressione, poichè la


funzione presa in considerazione è una retta.

Avendo rappresentato i nostri punti su uno scatterplot, sulla


nuvola di punti osservati si deve determinare la retta che possa
descrivere al meglio la relazione tra X e Y:

Prezzo vs Consumo pro-capite


160

140
Consumo pro-capite del gas

120

100

80

60

40

20

0
20 30 40 50 60 70 80 90 100 110

Prezzo del gas

Ma come troviamo la retta “migliore”, nel senso che meglio


approssima e descrive i nostri dati?

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 5 di 10
Maria Simona Andreano “La retta di regressione”

160
140
120
100
80
60
40
20
0
0 20 40 60 80 100 120

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 6 di 10
Maria Simona Andreano “La retta di regressione”

2. I MINIMI QUADRATI

Il problema di trovare la “migliore” retta è risolto attraverso il


metodo dei minimi quadrati.
In corrispondenza di Xi abbiamo il valore osservato Yi e il
valore teorico Yi* che si trova sulla retta.

Per identificare univocamente la migliore retta matematica che


“spiega” il fenomeno, sarà necessario rendere minime le differenze (al
quadrato) tra i valori osservati Yi e quelli teorici Yi*, per tutti i punti
osservati. In questo modo, risolvendo il problema di minimizzazione,
si identificano i due parametri incogniti β0 e β1, che identificano la
retta di regressione.

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 7 di 10
Maria Simona Andreano “La retta di regressione”

In pratica si minimizza la seguente espressione:

 
n
min  Yi  Yi* Yi*   0  1 X i
2

 0 , 1
i 1

Il metodo in considerazione viene detto dei “minimi quadrati”.


La soluzione di tale problema di ottimizzazione porta
all'individuazione dei parametri della retta secondo le seguenti
formule:

 1
n

  xi yi  x y
 xy
ˆ  n i1
  2
 1
1
n
x
 
n i1
x i2  x 2


ˆ ˆx
  y  
0 1

Pertanto 
il coefficiente 1 è dato dal rapporto tra la covarianza
e la varianza della variabile indipendente. Mentre l’intercetta viene
specificata dopo aver individuato il coefficiente di regressione 1.

Una volta stimati i coefficienti e sostituiti nell’equazione della


retta è immediato disegnare la retta di regressione:

Y *  ˆ0  ˆ1 X

¢Il termine ̂1 prende il nome di coefficiente di regressione.

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 8 di 10
Maria Simona Andreano “La retta di regressione”

3. INTERPRETAZIONE DELLA RETTA

Una volta stimata la retta di regressione, dobbiamo


interpretare correttamente tutte le informazioni fornite da questa.
Innanzi tutto notiamo che deve essere sempre verificata la
condizione di uguaglianza del segno tra ρ e 1.
Infatti se ρ> 0 significa che siamo in presenza di relazione
diretta e questo si evidenzia con una retta crescente: 1> 0.

Se ρ< 0 significa, invece, che siamo in presenza di relazione


inversa e questo si evidenzia con una retta decrescente: 1< 0.

Il valore del coefficiente di regressione 1 esprime la variazione


di Y al variare di una unità della X.

Esempio
Y = 0,5 + 0,65*X
Se X aumenta di 1, Y aumenta di 0,65
Se X diminuisce di 1, Y diminuisce di 0,65

Il coefficiente 0 esprime invece la parte di Y indipendente da


X, ossia il valore di Y, quando X = 0.

Esempio
Y = 0,5 + 0,65*X

Anche quando X = 0, la Y presenta un valore pari a 0,5

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 9 di 10
Maria Simona Andreano “La retta di regressione”

Dalla retta di regressione è possibile calcolare i valori teorici di


Y in funzione di X, ossia quelli che io avrei dovuto osservare in
mancanza di effetti disturbanti sui dati.
Per ricavarsi i valori teorici basta inserire nell’espressione della
retta di regressione stimata i valori della X e, attraverso i calcoli,
ricavarsi i valori che sono sulla retta.

Inoltre posso usare la retta di regressione per ricavarmi dati


non osservati. In questo caso eseguo un’analisi di interpolazione.

Esempio
Y = 0,5 + 0,65*X
Y*=0,5 + 0,65*(2,450) = 1,593

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 10 di 10
LA BONTÀ DI
ADATTAMENTO
Maria Simona Andreano
Maria Simona Andreano “La bontà di adattamento”

Indice

1. SCOMPOSIZIONE DELLA VARIANZA ------------------------------------------------ 3


2. IL COEFFICIENTE DI DETERMINAZIONE ---------------------------------------- 6
3. INTERPRETAZIONE E CALCOLO DI R2 -------------------------------------------- 8
4. ESERCIZI ----------------------------------------------------------------------------------------- 11

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 2 di 11
Maria Simona Andreano “La bontà di adattamento”

1. SCOMPOSIZIONE DELLA VARIANZA

Una volta stimata la retta di regressione è necessario valutare


quanto effettivamente questa riesca a spiegare i nostri punti
osservati. Dobbiamo pertanto passare ad eseguire un’analisi della
bontà di adattamento.

Per arrivare a definire un indice che possa esprimere tale bontà


di adattamento del modello ai dati osservati, dobbiamo scomporre il
dato teorico in due componenti:

Yi  Yˆi  ei

Dove Yˆi con si indica la parte spiegata dalla retta (che



ritroviamo in corrispondenza di Xi sulla retta) e ei è la parte residua,
non spiegata dalla retta.


Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 3 di 11
Maria Simona Andreano “La bontà di adattamento”

Sulla base di tale scomposizione di Yi otteniamo una analoga


scomposizione della variabilità:

Var(Y)  Var(Yˆ ) Var(e)

Dove:
 1
 Yi  y 
2
Var(Y )  y2 
n
1
Var(e)  e2   ei  0
2

n
1

Var(Yˆ )  y2ˆ   Yˆi  y 
2

Quindi la prima varianza si riferisce ai valori osservati della Y,



la seconda ai residui e la terza ai valori teorici sulla retta di
regressione.

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 4 di 11
Maria Simona Andreano “La bontà di adattamento”

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 5 di 11
Maria Simona Andreano “La bontà di adattamento”

2. IL COEFFICIENTE DI DETERMINAZIONE

Sulla base di tale scomposizione si costruisce un indice che


esprima la Bontà di adattamento, espressa dalla retta.

Tale indice viene chiamato di determinazione, ma è


comunemente conosciuto come R2.

R2 indica quanta parte della variabilità di Y è spiegata dalla


varianza di regressione.

L’accostamento sarà tanto migliore quanto maggiore sarà la


var(Y^). Su la base di tale considerazione abbiamo che l’indice di
determinazione R2 è pari a:

R2 = Var(Y^) / Var(Y) = 1 – [Var(e) / Var(Y)]

ossia:
y2ˆ e2
R2   1 
y2 y2


E’ facile dimostrare matematicamente che: 0  R2  1.

0 quando Var(e)  Var(Y )


R 2

1 quando Var(Yˆ )  Var(Y)


Attenzione! Questo materiale didattico è per uso personale dello studente ed è
coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 6 di 11
Maria Simona Andreano “La bontà di adattamento”

- R2 esprime quanto la retta di regressione riesce a descrivere i


dati osservati.
- Il valore di R2 viene letto in forma percentuale (Esempio: R2 =
0.65 significa che la retta spiega il 65%).
- R2 deve essere superiore a 0.5 per avere un grado di
accostamento accettabile.
- Nel caso R2 = 0, la variabilità della Y è spiegata totalmente
dal residuo, quindi la regressione non riesce a spiegare nulla dei
valori osservati.
- Nel caso R2 = 1, la variabilità della Y coincide con quella dei
valori teorici e pertanto la retta di regressione spiega perfettamente i
nostri punti.

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 7 di 11
Maria Simona Andreano “La bontà di adattamento”

3. INTERPRETAZIONE E CALCOLO DI R2

Vediamo attraverso un esempio come calcolare l'indice di


determinazione R2 e come interpretare il risultato ottenuto.
Supponiamo di aver osservato la seguente tabella doppia di dati
(X,Y):

xi yi

1 5

2 7,5

3 12

4 15,5

Su tali dati applichiamo le formule dei minimi quadrati che ci


forniscono le seguenti stime:

ˆ0 1,
 ˆ1  3,6


Quindi la nostra retta di regressione sarà:




Yˆ 1  3,6X

Passiamo ora a determinare l’indice R2 e per fare questo



dobbiamo calcolare la variabilità delle Y teoriche e la variabilità dei
residui.

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 8 di 11
Maria Simona Andreano “La bontà di adattamento”

Dobbiamo quindi aggiungere le seguenti colonne:

4
1
yˆ   y  40 /4  10
4 i1 i

1 4 1 4
 y   y i  yˆ    y i 10  16,375

2 2 2

n i1 4 i1
4
1
 y i  y * i   0,175
2
 e2 
n i1

e2 0,175
 R2  1  2 1  1  0,011  0,989
y 16,375

In realtà esistono diverse formule, tutte equivalenti tra loro,



per calcolare R2:

 xy2
R   2 2
2 2

 x  y

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 9 di 11
Maria Simona Andreano “La bontà di adattamento”

Var(Yˆ )  yˆ
2

R 
2

Var(Y )  y2

Var(e)  e2
R 12
1 2
 Var(Y) y

 Probabilmente la prima è la più comoda e diffusa. Infatti


usualmente, prima di arrivare a stimare la retta di regressione, si
effettua il calcolo del coefficiente di correlazione per valutare
l’esistenza o meno di un legame lineare tra le due variabili X e Y. In
questo caso R2 si riduce semplicemente al quadrato del coefficiente di
correlazione.

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 10 di 11
Maria Simona Andreano “La bontà di adattamento”

4. ESERCIZI

[R2=0.49, r = 0,70]

[14%]

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 11 di 11
ESERCITAZIONE SULLA RETTA DI
REGRESSIONE
STIMA DELLA RETTA
Su n= 20 famiglie sono stati osservati il
consumo pro-capite di gas (Y) e il prezzo pagato
per il gas (X):
Prezzo
(X) 30 31 37 42 43 45 50 54 54 57 58 58 60 73 88 89 92 97 100 102

Consumo
pro-
capite (Y) 134 112 136 109 105 87 56 43 77 35 65 56 58 55 49 39 36 46 40 42

I due caratteri possono essere rappresentati in


uno scatterplot, che evidenzia una relazione
decrescente, ossia all’aumentare del prezzo il
consumo diminuisce.
STIMA DELLA RETTA
Prezzo vs Consumo pro-capite
160

140
Consumo pro-capite del gas

120

100

80

60

40

20

0
20 30 40 50 60 70 80 90 100 110

Prezzo del gas


STIMA DELLA RETTA
Calcoliamo la retta dei minimi quadrati che meglio
descrive l'andamento della nuvola di punti
osservati:

 1
N
1
N

  (x i  x )(y i  y )

 xi yi  x y
ˆ  n i1
 xy
 2 
n i1
 1 1
N
 1
N

 
n i1
(x i  x ) 2 x

n i1
x 2
i  x 2


ˆ  y  
 ˆx
0 1


STIMA DELLA RETTA
Ai fini dei calcoli consideriamo soltanto 7 famiglie:
Consumo
Prezzo
(X)
pro-capite (x i  x ) (x i  x ) 2 (y i  y ) (x i  y )(yi  x )
(Y)
30 134 -9,7 94,4 28,4 -276,2
31 
112 -8,7
 
75,9 6,4 -56,0
37 136 -2,7 7,4 30,4 -82,6
42 109 2,3 5,2 3,4 7,8
43 105 3,3 10,8 -0,6 -1,9
45 87 5,3 27,9 -18,6 -98,2
50 56 10,3 105,8 -49,6 -509,9

327,4 -1016,9
STIMA DELLA RETTA
n
n 1
1
x   x i  278 /7  39,7 y   y i  739/7 105,6
n i1 n i1
n
1
n
(x i  x )(y i  y ) 145,3
ˆ  i1

 1 n   3,1
1 46,8
 (x
n i1 i
 x ) 2

ˆ  y  
 ˆ x 105,6  (3,1) 39,7  228,7
0 1




STIMA DELLA RETTA
 La retta di regressione sarà quindi:

Yˆ  228,7  3,1X
160

140


120
consumo pro capite

100

80

60

40

20

0
20 25 30 35 40 45 50 55
prezzo gas
STIMA DELLA RETTA
Possiamo impostare i calcoli considerando le
formule semplificate:
Consumo
Prezzo
pro-capite X2 XY
(X)
(Y)
30 134 900,0 4020,0
31 112 961,0 3472,0
37 136 1369,0 5032,0
42 109 1764,0 4578,0
43 105 1849,0 4515,0
45 87 2025,0 3915,0
50 56 2500,0 2800,0
STIMA DELLA RETTA
 Inseriamo i dati ricavati nella precedente tabella
nelle formule semplificate:
n
1
 X iYi  x y 28332  39,7 105,6
ˆ  n i1
  7  3,1
1
1 n
11368
X  x
n i1 i
2 2
7
 39,7 2

 Da cui ricaviamo sempre

 Yˆ  228,7  3,1X


STIMA DELLA RETTA

Il fatto che abbiamo un coefficiente di regressione


negativo evidenzia una relazione inversa tra le
due variabili.
In particolare abbiamo che all’aumentare di 1 unità
di X (prezzo gas) diminuisce di 3,1 unità Y (il
consumo di gas).
BONTÀ DI ADATTAMENTO
 A partire dalla retta di regressione è possibile
ricavarsi i valori teorici. Questi possono essere ricavati
rispetto ai valori X osservati:
Consumo
Prezzo
pro-capite Y^ Y-Y^
(X)
(Y)
30 134 135,7 -1,7
31 112 132,6 -20,6
37 136 114 22
42 109 98,5 10,5
43 105 95,4 9,6
45 87 89,2 -2,2
50 56 73,7 -17,7
BONTÀ DI ADATTAMENTO
 I valori sono ricavati direttamente, in corrispondenza
delle X osservate i valori che escono fuori dalla retta
di regressione: Yˆ  228,7  3,1X
 Possiamo usare la retta anche in modo predittivo e
ricavarsi i valori in corrispondenza di Xi non
osservate.

 Per esempio, in riferimento all’esercizio precedente,
tra i dati non figura il prezzo del gas X = 40. Possiamo
usare la retta per determinare quale valore aspettarsi
di consumo pro capite Y associato a X = 40:
Y * (40)  228,7  3,1 40  104,9
BONTÀ DI ADATTAMENTO
 A questo punto vogliamo misurare la bontà di
adattamento della retta, per comprendere anche se
i valori teorici calcolati sono affidabili.

 A tale fine calcoliamo l'indice di determinazione R2.


 La diverse formule utili per calcolare R2, avendo
già determinato nella tabella precedente gli errori,
usiamo: 2
e
R2  1 
y2


BONTÀ DI ADATTAMENTO
 Dobbiamo quindi aggiungere alla tabella il calcolo
degli errori al quadrato e Y2:
Consu
Pre mo
zzo pro- Y^ Y2 Y-Y^ e2
(X) capite
(Y)
30 134 135,7 17956 -1,7 2,9
31 112 132,6 12544 -20,6 424,4
37 136 114 18496 22 484
42 109 98,5 11881 10,5 110,3
43 105 95,4 11025 9,6 92,1
45 87 89,2 7569 -2,2 4,8
50 56 73,7 3136 -17,7 313,3
BONTÀ DI ADATTAMENTO
 Sommando l'ultima colonna, otteniamo:
1 1 1
  ei   1431,9  204,6 y  82607 105,62  649,6
2
e
2 2

7 7 7

 Da cui ricaviamo R2:

204,6
R 1
2
 0,69
649,6

 La retta spiega il 69% della variabilità.



APPROFONDIMENTI
SULLA RETTA DI
REGRESSIONE
Maria Simona Andreano
Maria Simona Andreano “Approfondimenti sulla retta di regressione”

Indice

1. I RESIDUI -------------------------------------------------------------------------------------------- 3
2. EFFETTO DEGLI OUTLIER -------------------------------------------------------------------- 7
3. INTERPRETAZIONE INDICI ------------------------------------------------------------------- 9

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 2 di 11
Maria Simona Andreano “Approfondimenti sulla retta di regressione”

1. I RESIDUI

La retta di regressione permette di calcolare i valori teorici del


fenomeno Y e i residui che si sono osservati rispetto a questi:

Yi  Yˆi  ei

Una attenta analisi dei residui può mettere in rilievo la bontà


di adattamento della retta edeventuali anomalie.
Graficamente partiamo dalla nuvola dei punti (X,Y):

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 3 di 11
Maria Simona Andreano “Approfondimenti sulla retta di regressione”

Sulla quale riportiamo la retta di regressione stimata:

I residui non sono altro che le differenze, in corrispondenza di


ciascun X, tra le Y osservate e quelle che ricavo tramite la retta. Posso
quindi riportare su un grafico i vari residui osservati rispetto alle X:

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 4 di 11
Maria Simona Andreano “Approfondimenti sulla retta di regressione”

Dei residui “buoni” devono disporsi in modo più o meno


uniforme al di sopra e al di sotto della retta nulla e non devono
presentare una tendenza o persistenza nell’andamento grafico. La
figura sopra mostra una distribuzione conforme ad una buona stima
della retta di regressione.

Se invece, una volta ricavati i residui, i grafici hanno un


andamento come segue:

Allora la retta di regressione non spiega correttamente i dati


osservati. Infatti in queste due situazioni vediamo che per alcuni dati
la retta tende sistematicamente a sottostimare i valori teorici e per
altre fasce di valori, a sovrastimarli. Questo indica un’adattamento
della retta insoddisfacente.

Oltre a fare il grafico dei residui rispetto alle X osservate,


possiamo eseguire un’altra analisi grafica: l’istogramma.

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 5 di 11
Maria Simona Andreano “Approfondimenti sulla retta di regressione”

Dei "buoni" residui hanno un istogramma approssimativamente:

Ossia con andamento campanulare, simmetrico e addensato


rispetto al valore centrale nullo.

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 6 di 11
Maria Simona Andreano “Approfondimenti sulla retta di regressione”

2. EFFETTO DEGLI OUTLIER

Un problema molto frequente nella stima della retta di


regressione è la presenza di outlier. Questi possono fortemente
condizionare e falsare la retta stimata, portando a conclusioni
analitiche errate del fenomeno.
Consideriamo il seguente esempio, Dove si considerano prima
solo 4 osservazioni e poi a queste se ne aggiunge una quinta:

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 7 di 11
Maria Simona Andreano “Approfondimenti sulla retta di regressione”

Vediamo che l’aggiunta di n solo punto fa passare la retta di


regressione da un’inclinazione negativa ad una positiva. La relazione
viene completamente cambiata in presenza dell’ultimo punto. E’
necessario in questo caso valutare attentamente tale punto, per
comprendere se è un’osservazione “errata” e quindi da eliminare, o se
va considerata ai fini della stima della regressione.
Nei seguenti grafici vediamo come uno stesso coefficiente di
correlazione può corrispondere a situazioni fortemente diversificate.
L’analisi grafica preliminare, accompagnata da un approfondimento
sui residui, può aiutare a comprendere se la stima effettuata si adatta
correttamente ai dati osservati.

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 8 di 11
Maria Simona Andreano “Approfondimenti sulla retta di regressione”

3. INTERPRETAZIONE INDICI

Se le due variabili X e Y non sono correlate, allora si avrà una


covarianza nulla e questo comporta automaticamente, date le formule
introdotte precedentemente, che:

 0 ˆ1  0

In questo caso quindi la retta di regressione si riduce


semplicemente a:

Y *  ̂ 0

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 9 di 11
Maria Simona Andreano “Approfondimenti sulla retta di regressione”

Interpretazione
La Y è costante al variare di X
La X è costante al variare di Y
 non è possibile spiegare una variabile rispetto all’altra.
 non esiste un legame (lineare) tra le due variabili.

Un’altra situazione che si può incontrare è quella della


presenza di un legame non lineare. Nei seguenti due grafici vediamo
che l’andamento dei punti potrebbe essere spiegato da una parabola,
ma la retta non si adatta correttamente alla nuvola.
Purtroppo il coefficiente di correlazione e di determinazione
sono costruiti tutti sotto l’ipotesi di linearità e quindi non riescono a
“capire” se il legame è non lineare.
Questo però può essere compreso in via preliminare da una
semplice analisi grafica dello scatterplot.

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 10 di 11
Maria Simona Andreano “Approfondimenti sulla retta di regressione”

Attenzione! Questo materiale didattico è per uso personale dello studente ed è


coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche
parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n.
633)

Pag. 11 di 11

Potrebbero piacerti anche