Sei sulla pagina 1di 328

Statistica

Corso C
Anno accademico 2020/21

Prof. Stefano Marchetti

Dipartimento di Economia e Management, Università di Pisa


Informazioni sul corso

I Docente: Stefano Marchetti, email stefano.marchetti@unipi.it


I Ricevimento prenotabile da link presente su e-learning
I Portale di e-learning:
I Sezione: Corsi di Laurea (Triennali) – Primo Anno e Mezzo Comune
I Corso: Statistica 2020/21 – Corso C
I Testo di riferimento per l’esame: Simone Borra e Agostino Di
Ciaccio, Statistica III edizione – metodologie per le scienze
economiche e sociali, Ed. McGraw–Hill Education (Italy)
I Testo per approfondimenti: Domenico Piccolo, Statistica – Ed. Il
Mulino
I Esercizi per prepararsi alla prova scritta:
I Compiti svolti disponibili sulla piattaforma e-learning
I Esercizi svolti disponibili sulla piattaforma e-learning
I Esercizi presenti sul testo di riferimento
Informazioni sul corso

Modalità di svolgimento dell’esame


I L’esame è orale (come da regolamento di Ateneo per gli esami a
distanza)
I Si accede all’orale tramite un test (a distanza) a risposta chiusa
I Il primo appello è strutturato su due prove: un test in itinere (6-10
aprile) e un test di completamento (fine maggio)
I Le prova in itinere sarà formata da due parti: esercizi e teoria
I Chi supera la prova in itinere - ottenendo la sufficienza su esercizi e
teoria - può accedere alla prova di completamento
I Chi supera la prova di completamento sosterrà un breve colloquio
orale relativo solo agli argomenti del completamento
Informazioni sul corso

Sperimentazione “Diario di Studio”


I Obiettivi della sperimentazione
I Monitorare il proprio studio nel tempo con lo scopo di passare l’esame
I Capire quanto e quando studiano gli studenti per la preparazione
dell’esame
I Per gli studenti del corso C sarà obbligatorio tenere il diario
I Al momento il diario è una web app (accessibile da qualunque
browser, anche mobile) in cui dovete inserire le lezioni seguite e le
ore di studio relative all’insegnamento di Statistica
Informazioni sul corso

Per rendere il corso più coinvolgente gli studenti sono “invitati” a


rispondere (anomimamente) ad un questionario seguendo il link presente
su e-learning (Questionario iniziale - Statistica corso C)
I Altri dati potranno essere comunque usati durante il corso
Informazioni sul corso: tutoraggio

Tutors:
I To be defined
Nozioni preliminari

Nozioni preliminari
Introduzione
Caratteri (o variabili) statistici
Distribuzioni di frequenza
Rappresentazioni grafiche
Medie e variabilità

Le medie
Medie analitiche
Medie di posizione

Variabilità
Definizione di variabilità
Variabilità rispetto ad un valore medio
Variabilità rispetto alle osservazioni
Associazione tra due variabili

L’associazione tra due variabili


Distribuzioni doppie di frequenza
Associazione tra due variabili qualitative
Associazione tra una variabile qualitativa e una quantitativa
Associazione tra due variabili quantitative

Interpolazione lineare
Schema del corso
Statistica – corso C 2013 - 2014

STATISTICA
I Parte Concetti generali II Parte

Dati di Dati campionari


popolazione
Statistica
Statistica Inferenziale
Descrittiva

Seconda parte
Distribuzioni di Relazioni tra 2 del corso
frequenza Medie Variabilità variabili

Aritmetica, Moda, Mediana, Quantitative Qualitative


Varianza, CV Qualitativa e
Geometrica, Quantili quantitativa
Quadratica,
Armonica
Interpolazione e
correlazione Indice di
connessione (V)
lineare Indice di
correlazione di
Pearson (!)

5
Parte I

Nozioni preliminari
Perché è utile conoscere la statistica

I Leggendo un giornale (anche sportivo) si incontra inevitabilmente la


statistica
I Viviamo nell’era dei dati, essi sono costantemente prodotti da
ognuno di noi tramite social networks, gps, acquisti digitali,
navigazione su internet, etc
I La statistica ci fornisce strumenti rigorosi per l’analisi dei dati e la
corretta interpretazione dei risultati
I Se i dati sono raccolti correttamente allora essi tramite le statistiche
possono aiutare a capire i problemi e/o a prendere decisioni
consapevoli
I La statistica può aiutare a sostenere o confutare una teoria o un’idea
La statistica per un economista e una persona “comune”

I Per un economista: la statistica fornisce gli strumenti indispensabili


per analizzare, misurare e interpretare i fenomeni economici, sia a
livello sociale che aziendale
I Per chiunque: aiuta a filtrare e recepire in modo critico l’enorme
mole di dati che ci vengono costantemente comunicati attraverso i
mezzi di informazione

Accade di frequente (molto più di quanto si pensi) che tali dati


vengano comunicati in modo parziale o inesatto al fine di far credere
una cosa diversa da ciò che in realtà significano

La manipolazione e l’uso scorretto (strumentale) dell’informazione è


una pratica comune in politica, economia, pubblicità e non solo...
Definizione formale di statistica

La statistica è la materia che si occupa della raccolta dei dati e


della loro elaborazione a fini conoscitivi per quanto riguarda le
caratteristiche della variabile su quella popolazione statistica
o per quanto riguarda le relazioni tra variabili

La statistica trasforma le informazioni in conoscenza


Definizione (in)formale di statistica

I In pratica la statistica è una disciplina di carattere metodologico che


ha per oggetto l’analisi dei fenomeni collettivi dotati di variabilità
I Un fenomeno collettivo è un fenomeno il cui studio riguarda una
pluralità di soggetti o oggetti detti unità statistiche
I Esempi:
I il motivo della presenza di turisti in una certa località
I il grado di soddisfazione degli utenti di un’azienda rispetto al servizio
erogato
I il reddito e il consumo delle famiglie italiane
I il numero dei tifosi di una certa squadra di clacio
Esempi: Tasso di occupazione (Eurostat)

55
Esempi: Tasso di occupazione femminile (Eurostat)
Esempi: Costo dell’energia al consumatore
Esempi: Produzione energia solare
Concetti generali

I Unità statistiche: unità elementari omogenee che costituiscono


l’oggetto di osservazione e di analisi
I Esempi:
I individui (clienti di un albergo, turisti, studenti, dipendenti di
un’azienda, ecc...)
I oggetti (automobili, aziende, prodotti di consumo, ecc...)
I aggregati territoriali (stati, regioni, province, comuni, altro ancora)
I unità temporali (anni, mesi, giorni, altro ancora)
Caratteri (o variabili) statistici

I Sono caratteristiche delle unità analizzate che vengono rilevate (cioè


osservate) e studiate in relazione ad un determinato fenomeno
I Esempi di caratteri rilevabili se l’unità statistica è un individuo:
I statura, stato civile, cittadinanza, peso, colore dei capelli, età ,
reddito percepito, etc
I Esempi di caratteri rilevabili se l’unità statistica è una azienda:
I numero di dipendenti, fatturato, utile netto, ragione sociale, settore
di attività , etc
Modalità dei caratteri (o variabili) statistici

I Modalità : valori o attributi specifici che può assumere un carattere


su un’unità statistica
Le modalità devono essere:
I Esaustive: devono rappresentare tutti i possibili modi in cui si
manifesta il carattere
I Non sovrapposte: ad ogni unità statistica si può associare una sola
modalità
Quando su una unità statistica si rileva un carattere che assume quindi
una certa modalità siamo in presenza di un dato statistico
Modalità dei caratteri (o variabili) statistici

Esempio di unità statistiche, caratteri (o variabili o mutabili) e dati


statistici:
Genere Eta Diploma Matematica
Femmina 19 ITC 30
Femmina 19 ITC 30
Femmina 19 ITC 18
Femmina 19 LA 19
Femmina 21 LS Non superato
Classificazione delle variabili (o caratteri) statistici

Le variabili statistiche possono essere


I qualitative: se la variabile presenta modalità non numeriche
I sconnesse (o nominali): le modalità non si possono ordinare
I ordinate: le modalità presentano un ordine logico
I quantitative: se la variabile presenta modalità numeriche
I discrete: scaturiscono da un conteggio
I continue: scaturiscono da una misurazione
Nota: nella pratica statistica, la classificazione tra variabili discrete e
continue non è rigida. Talvolta alcune variabili continue sono trattate
come discrete e viceversa.
Classificazione delle variabili (o caratteri) statistici

Tabella: Esempio della classificazione di alcune variabili statistiche

Variabile Modalità Tipologia della variabile


Genere M,F,M . . . qualitativa nominale
Età 19,19,20 . . . quantitativa discreta
Diploma LS,LC,ITC . . . qualitativa nominale
Matematica 18,24,Non superato . . . qualitativa ordinata
Aziendale I Non superato, 30, 19 . . . qualitativa ordinata
Voto diploma 80,75,73 . . . quantitativa discreta
Le frequenze

I Frequenza assoluta (ni ): numero di volte in cui la i-esima modalità


di una variabile viene osservata nel collettivo
I Frequenza relativa (fi ): frazione di volte in cui la i-esima modalità di
una variabile viene osservata nel collettivo
I Frequenza percentuale (pi ): percentuale di volte in cui la i-esima
modalità di una variabile viene osservata nel collettivo
Posto N la numerosità del collettivo risulta evidente che
ni
fi = ; pi = fi · 100
N
Distribuzione di una variabile statistica

Distribuzione di frequenza assoluta


Funzione che associa alla modalità di una variabile, sia essa
quantitativa o qualitativa, le corrispondenti frequenze assolute
osservate in un collettivo statistico

Distribuzione di frequenza relativa (o percentuale)


Funzione che associa alla modalità di una variabile, sia essa
quantitativa o qualitativa, le corrispondenti frequenze relative (o
percentuali) osservate in un collettivo statistico
Distribuzione di una variabile statistica

Tabella: Distribuzione di frequenza della variabile Diploma

ni fi
LC 16 0.069
LS 68 0.292
LA 36 0.155
ITC 82 0.352
ITA 22 0.094
IP 7 0.030
A 2 0.009
- 233 1.000
Distribuzione di una variabile statistica
Frequenza assoluta cumulata
La frequenza assoluta cumulata di una modalità è pari alla som-
ma della frequenza assoluta della modalità considerata con le
frequenze assolute delle modalità precedenti

j
X
Nj = ni = n1 + n2 + . . . + nj
i=1

Frequenza relativa (percentuale) cumulata


La frequenza relativa (percentuale) cumulata di una modalità
è pari alla somma della frequenza relativa (percentuale) della
modalità considerata con le frequenze relative (percentuali) delle
modalità precedenti

j
X j
X
Fj = fi = f1 + f2 + . . . + fj Pj = pi = p1 + p2 + . . . + pj
i=1 i=1
Distribuzione di una variabile statistica

I Le frequenze cumulate hanno senso solo per variabili quantitave o


ordinali

Tabella: Distribuzione di frequenza della popolazione Italiana di età maggiore


15 anni per titolo di studio (valori in migliaia), 2017. Fonte: ISTAT

Titolo di Studio ni fi pi Nj Fj Pj
Lic. Elementare - Nessuno 9238 0.18 18 9238+0=9238 0.18 18
Lic. Media 16 804 0.32 32 16804+9238=26042 0.32+0.18=0.50 32+18=50
Diploma 18 656 0.36 36 18656+26042=44698 0.36+0.50=0.86 36+50=86
Laurea e Post-laurea 7355 0.14 14 7355 + 44698 = 52053 0.14+0.86=1 14+86=100
Totale 52 053 1 100 – – –

I La frequenza assoluta/relativa/percentuale cumulata della modalità i-esima esprime il numero/frazione/percentuale di unità del
collettivo che hanno un valore  al valore della i-esima modalità
I Es. dai valori N3 , F3 , P3 deduciamo rispettivamente che 45720, una frazione di 0.88 di, l’88% degli individui hanno un titolo di
studio di Diploma o inferiore
I Dall’a↵ermazione precedente si deduce anche che 52171-45720, una frazione di 1-0.88 di, il 100-88% degli individui hanno un
titolo di studio migliore del Diploma
Suddivisioni in classi di una variabile quantitativa

I Quando una variabile quantitativa presenta molte modalità distinte


risulta controproducente organizzare i dati con una distribuzione di
frequenza
I In questi casi è utile raggruppare le modalità (i valori) in classi
I Le classi sono intervalli di valori tra loro disgiunti (cioè che non si
sovrappongono). La dimensione dell’intervallo è detta ampiezza della
classe
I Non esiste una regola per fissare il numero di classi, il buonsenso
vuole che siano comprese tra 4 e 20 (ma non è una regola)
I Non è necessario che le classi abbiano la medesima ampiezza e non
vi è una regola per fissare l’ampiezza ottima per ogni classe
I Spesso le classi sono formate in modo da avere la stessa ampiezza
che è pari a: = max(X ) k min(X ) , dove X è la variabile, è
l’ampiezza e k il numero di classi
Suddivisioni in classi di una variabile quantitativa

I Raggruppamento in classi della stessa ampiezza del voto all’esame di


matematica generale (si esclude la modalità “Non sostenuto”)
I Voto esame matematica:
30,30,18,19,22,18,21,27,22,28,30,27,28,26,22,30,19,29,20,20
22,25,22,22,22,28,30,23,25,27,18,23,30,18,18,24,23,30,22,21
24,27,21,22,25,24,28,30,28,19,26,23,19,30,18,28,18,19,27,21
27,24,18,19,26,23,25,26,18,27,26,26,20,21,21,22,19,24,30,24
18,19,30,21,18,18,21,18,23,30,30,24,18,19,21,18,22,21,24,30
22,20,29,20,30,22,24,18,21,20,24,23,24,18
Suddivisioni in classi di una variabile quantitativa

Tabella: Distribuzione di frequenza (non per classi)

Voto ni

18 17
19 9
20 6
21 11
22 13
23 7
24 11
25 4
26 6
27 7
28 6
29 2
30 15
Tot 114
Suddivisioni in classi di una variabile quantitativa

Posto X variabile Voto a matematica, per la distribuzione in esame


risulta
I min(X ) = 18
I max(X ) = 30 (trascuriamo la lode)
I Si decide di suddividere la variabile in 3 classi di pari ampiezza,
quindi k = 3
I Ampiezza di classe
30 18
= =4
3
I Dunque ogni classe ha ampiezza 4
Suddivisioni in classi di una variabile quantitativa

Esempio

Tabella: Distribuzione di frequenza (per classi)

Voto ni Ni fi Fi
[18 22) 43 43 0.377 0.377
[22 26) 35 78 0.307 0.684
[26 30] 36 114 0.316 1.000
Serie storiche

I In statistica descrittiva, una serie storica si definisce come un insieme


di variabili ordinate rispetto al tempo
I Essa esprime la dinamica di un certo fenomeno nel tempo
I Le serie storiche sono studiate per interpretare un fenomeno,
individuando componenti di trend, ciclicità , stagionalità ,
accidentalità
I Lo studio più avanzato delle serie storiche nell’inferenza statistica
permette anche di cercare di prevedere l’andamento futero di una
serie storica
Serie storiche, esempio

Tabella: Popolazione italiana dall’unità al 2011 (dati in migliaia). Fonte:


ISTAT, Censimenti
Anno Popolazione
1861 26 328
1871 28 151
1881 29 791
1891 NA
1901 33 778
1911 36 921
1921 37 856
1931 41 043
1936 42 399
1941 NA
1951 47 516
1961 50 624
1971 54 137
1981 56 557
1991 56 778
2001 58 008
2011 59 434

Curiosità : nel 1891 il Censimento non fu fatto a causa di difficoltà finanziarie. Il 1941 si commenta da solo...
Micro-dati e dati raggruppati

I dati relativi ad una o più variabili possono trovarsi nelle seguenti forme
I Micro-dati o distribuzione semplice (tutte le variabili, nessuna
perdita di informazione)
I Distribuzione di frequenza (variabili qualitative e quantitative
discrete, nessuna perdita di informazione)
I Distribuzione di frequenza per classi (variabili quantitative continue
e discrete, perdita di informazione)
Nota: la maggior parte dei dati sono rilasciati sotto forma di distribuzioni
di frequenza, è molto raro trovare disponibilità di micro-dati, tuttavia un
cambiamento in questa direzione è in atto
Rappresentazioni grafiche

I Una variabile statistica sia essa in forma “grezza” sia essa in forma di
distribuzione di frequenza può essere rappresentata anche in forma
grafica
I La rappresentazione grafica ha una grande efficacia comunicativa
I Consente una visualizzazione immediata della struttura della
distribuzione
I Agevola il confronto tra più distribuzioni
I Consente di mettere in evidenza i dati anomali (o outlaiers)
I E’ migliore per scopo divulgativi
Elementi di una rappresentazione grafica

I Titolo (e sottotitolo): enuncia la/le variabili di studio, il collettivo di


riferimento, il tempo a cui ci si riferisce e la fonte dei dati; se il
grafico è inserito in un testo o in una slide il titolo va nella didascalia
del grafico
I Etichette degli assi: indicano i valori (modalità ) della/delle variabili
I Legenda: in alcuni casi serve ad identificare i diversi oggetti presenti
nel grafico
I Note (campo opzionale): serve a dare informazioni aggiuntive utili
per la lettura del grafico, talvolta si riporta anche la fonte dei dati
(che può andare anche nel titolo)
Esempi di rappresentazioni grafiche: grafico a barre

120

80
count

40

0
Maschio Femmina
Genere
Esempi di rappresentazioni grafiche: grafico a barre

50

40

30 Genere
count

Maschio
20 Femmina

10

0
LC LS LA ITC ITA IP A
Diploma
Esempi di rappresentazioni grafiche: grafico a torta
Da evitare (usare il grafico a barre)

Diploma
0
LC
200
1 LS
50 LA
ITC
ITA
150
IP
100
A
count
Esempi di rappresentazioni grafiche: grafico a torta

Cleveland, W. S. (1985) The Elements of Graphing Data. Wadsworth:


Monterey, CA, USA
Data that can be shown by pie charts always can be shown by
a dot chart. This means that judgements of position along a
common scale can be made instead of the less accurate angle
judgements.
(I dati che possono essere rappresentati con un grafico a torta
possono essere sempre rappresentati con un grafico a barre. Ciò
significa che si può valutare una posizione su una scala comune
al posto della valutazione di un angolo, che è meno accurata.)
Questa frase è basata sugli studi di Cleveland e sugli studi degli psicologi
della “percezione”.
Esempi di rappresentazioni grafiche: coordinate polari
Ot

2012 Se No
2013

Ag Di

Lu 0 50 100 150 200 250 Ge

Gi Fe

Mag Mar

Ap

Figura: Totale precipitazioni (mm) per il comune di Pisa, anno 2012 e 2013.
Fonte: www.meteopisa.it
Esempi di rappres. grafiche: istogramma (basi uguali)

40

30
Frequenza

20

10

0
150 160 170 180 190 200
Altezza.in.cm

Figura: Istogramma dell’altezza degli studenti del corso C


Esempi di rappres. grafiche: istogramma (basi diverse)

0.03
Densita di frequenza

0.02

0.01

0.00
140 160 180 200
Altezza.in.cm

Figura: Istogramma dell’altezza degli studenti del corso C


Esempi di rappres. grafiche: diagramma a dispersione

100

Peso.in.kg

80

60

150 160 170 180 190 200


Altezza.in.cm

Figura: Altezza e peso degli studenti del corso C


Esempi di rappres. grafiche: diagramma a dispersione

100

Peso.in.kg

80 Genere
Maschio
Femmina

60

150 160 170 180 190 200


Altezza.in.cm

Figura: Altezza e peso degli studenti del corso C


Esempi di rappres. grafiche: diagramma a dispersione

48 51 54 57
Popolazione Residente in Italia (Milioni)

33 36 39 42
27
22

1861 1881 1901 1921 1936 1951 1971 1991 2011

Anno

Figura: Serie storica della popolazione italiana rilevata nei censimenti. Fonte:
ISTAT.
Esempi di rappresentazioni grafiche: cartogramma

Figura:
Rappresentazione del
PIL procapite nominale
per regioni in euro,
anno 2016.
Fonte:Eurostat
Istogramma

L’istogramma è un tipo di rappresentazione grafica moto di↵usa (spesso


è erroneamente scambiata con il grafico a barre)

L’istogramma è un grafico costituito da barre non distanziate, dove ogni


barra possiede un’area proporzionale alla frequenza della classe
I Ogni frequenza della distribuzione viene rappresentata da una barra
(rettangolo)
I Ogni barra ha una base uguale all’ampiezza della classe che
rappresenta
I Le barre sono unite tra loro
I L’area di ogni barra è proporzionale alla frequenza della classe !
l’altezza di ogni barra è proporzionale al rapporto tra frequenza e
ampiezza della classe
Istogramma

I Sia
i = lim. sup. classei lim. inf. classei
l’ampiezza della classe i
I Sia
hi = f i / i

la densità di frequenza della classe i


I La barra (il rettangolo) dell’istogramma relativo alla classe i ha
I Base= i
I Altezza=hi
I Operando in questo modo l’area totale dell’istogramma è pari a 1
Istogramma

Costruzione di un istogramma con basi di diversa ampiezza. Dati di


partenza: classi e frequenza assoluta

Tabella: Distribuzione di frequenza dell’altezza

Altezza ni hi (ni ) fi hi (fi )


(135, 160] 30 1.200000 0.1287554 0.0051502
(160, 165] 35 7.000000 0.1502146 0.0300429
(165, 170] 44 8.800000 0.1888412 0.0377682
(170, 175] 39 7.800000 0.1673820 0.0334764
(175, 180] 42 8.400000 0.1802575 0.0360515
(180, 210] 43 1.433333 0.1845494 0.0061516
Istogramma – ERRATO

Se per disegnare un istogramma come altezze si usassero le frequenze relative, fi (o assolute ni ), otterremmo una figura errata, ovvero
una figura che non rappresenta correttamente la distribuzione della variabile

0.189
0.185
0.18
0.167

0.15

0.129
Frequenza relativa

150 170 190 210


Altezza.in.cm
Istogramma – CORRETTO

Usando, invece, le densità di frequenza come altezze (hi ) si ottiene una corretta rappresentazione della distribuzione

0.038
0.036
0.033

0.03
Densita di frequenza (relativa)

0.006
0.005

150 170 190 210


Altezza.in.cm
Rappresentazione grafiche

Per ogni tipo di variabile statistica vi sono rappresentazioni grafiche


idonee. Segue un breve sunto per le rappresentazioni grafiche più di↵use
I Barre: variabile qualitative e quantitative discrete
I Istogramma: variabile quantitativa continue
I Coordinate polari: variabili qualitative o quantitative discrete che
esprimono una ciclicità
I Torta: variabili qualitative o quantitative discrete. Nota: questa
rappresentazione è da evitare, meglio usare il grafico a barre
I Cartogramma: qualunque variabile, da usare quando i dati sono
georiferiti
Nota: nel noto foglio di calcolo “Excel” il grafico a barre è erroneamente chiamato istogramma. Attenzione, l’output NON è un
istogramma!
Parte II

Le medie e la variabilità
Le medie

I Le medie forniscono una sintesi (estrema) di una variabile statistica


I Una media è un singolo valore cui si attribuisce rappresentatività del
fenomeno osservato
Principali medie:
I Medie analitiche ! si usano solo per variabili quantitative
I Aritmetica
I Quadratica
I Geometrica
I Medie di posizione ! si usano per variabili sia quantitative sia
qualitative
I Moda
I Mediana
I Quantili
Le medie analitiche

I La media di un insieme è un qualsiasi valore compreso tra il minimo


e il massimo
I Da ciò si evince che si possono avere molti tipi di medie
I La media è un’invariante, essa è definita come segue:
Definizione
Si può chiamare media di una distribuzione x1 , . . . , xN , rispetto ad una
funzione f (x1 , . . . , xN ), quella quantità ✓ che sostituita alle xi nella
funzione f () lascia invariato il risultato
La media aritmetica

I La media aritmetica rappresenta il baricentro di una distribuzione di


dati
I La media aritmetica è invariate rispetto alla somma:
Definizione
Si definisce media aritmetica di una distribuzione x1 , . . . , xN quel valore µ
tale che, sostituito ai dati, lascia invariata la loro somma

x1 + x2 + . . . + xN = µ + µ + . . . + µ = N · µ

I Dalla definizione segue che


N
x1 + x2 + . . . + xN 1 X
µ= = xi
N N
i=1
La media aritmetica

Commenti sulla notazione


PN
I i=1 xi = x1 + . . . + xN
P
I Il simbolo “ ” significa sommatoria
I E’ un modo compatto per identificare la somma di un insieme di
elementi
P
I Solitamente il simbolo ha come pedice un indice a cui si assegna
un valore e come apice l’estremo valore che assumerà tale indice
P
I Nella scrittura N i=1 i è l’indice che “scorre” da 1 fino ad N
I Tramite questo indice si identificano diversi elementi (per
convenzione recanti in pedice l’indice)
P
I Tutti gli elementi che seguono la scrittura N i=1 devono essere
sommati
La media aritmetica

Esempi sulla notazione


P4
I i=1 xi = x1 + x2 + x3 + x4
P4
I i=1 xi ni = x1 n1 + x2 n2 + x3 n3 + x4 n4
P4
I i=1 i = 1 + 2 + 3 + 4
P4
I i 1 2
i=1 2 = 2 + 2 + 2 + 2
3 4
P4
I i 1 2 3
i=1 xi = x1 + x2 + x3 + x4
4
P4
I i=1 a = a + a + a + a = 4a
P4
I i=3 xi /i = x3 /3 + x4 /4
La media aritmetica

Calcolare la media dell’altezza dei 6 studenti più alti.


I Dati: 202 200 198 195 195 190
N
1 X
µ= xi = (202 + 200 + 198 + 195 + 195 + 190)/6 = 196.67
N
i=1
La media aritmetica per distribuzioni di frequenza

I In caso di distribuzione di frequenza i valori (le modalità ) che


assume la variabile oggetto di studio si ripetono più volte nel
collettivo
I Come noto, in una distribuzione di frequenza le modalità xi si
ripetono ni volte, per i = 1, . . . , k dove k indica il numero delle
modalità
I In questo caso la condizione di invarianza della media diventa

x1 n1 + x2 n2 + . . . + xk nk = µn1 + µn2 + . . . + µnk

I Segue che
Pk
x1 n1 + x2 n2 + . . . + xk nk xi ni
µ= = Pi=1
k
n1 + n2 + . . . + nk i=1 ni
La media aritmetica per distribuzioni di frequenza

Pk
I Posto che per definizione i=1 ni = N segue che
k
1 X
µ= xi ni
N
i=1

I Da cui si ricava facilmente la formulazione basata sulle frequenze


relative
k k k k
1 X X 1 X ni X
µ= xi ni = xi ni = xi = xi fi
N N N
i=1 i=1 i=1 i=1

dato che per definizione fi = ni /N


La media aritmetica per distribuzioni di frequenza

Tabella: Numero di giorni necessari per la traversata da Sydney ad Hobart


dall’imbarcazione vincitrice della regata “Sydney–Hobart” dal 1945 al 2017

Giorni (xi ) Imbarcazioni (ni )


1 7
2 22
3 22
4 13
5 7
6 2
Totale 73
6
1 X 1 · 7 + 2 · 22 + 3 · 22 + 4 · 13 + 5 · 7 + 6 · 2
µ= xi ni = = 2.959
N 73
i=1
La media aritmetica per distribuzioni di frequenza per classi

I Qualora la distribuzione di frequenza abbia i valori raggruppati in


classi non è possibile calcolare esattamente la media aritmetica
I E’ possibile calcolarne una approssimazione utilizzando il valore
centrale di ogni classe
I Il valore centrale di una classe è pari alla semisomma dei valori
estremi della classe (lim. inf classei + i /2)
I L’approssimazione è tanto migliore quanto più piccole sono le classi
e quanto più piccole sono le frequenze in ogni classe
La media aritmetica per distribuzioni di frequenza per classi

Tabella: Altezza degli studenti del corso C

Altezza ni ci
(135, 160] 30 147.5
(160, 165] 35 162.5
(165, 170] 44 167.5
(170, 175] 39 172.5
(175, 180] 42 177.5
(180, 210] 43 195.0
La media aritmetica per distribuzioni di frequenza per classi

I Media dell’altezza calcolata a partire dalla distribuzione di frequenza


per classi (riportata nella slide precedente)
(147.5*30+162.5*35+167.5*44+172.5*39+177.5*42+195*43)/233=171.89

I Media dell’altezza calcolata sui valori della distribuzione (micro-dati)

N
1 X
µ= xi = (158 + 158 + 165 + 175 + ...)/233 = 172.52
N
i=1
La media aritmetica ponderata

I La condizione di invarianza della media aritmetica ponderata è la


stessa della media per distribuzioni di frequenza
I L’unica di↵erenza consiste nel fatto che al posto delle frequenze (ni )
ci sono dei pesi (wi )

x1 w1 + x2 w2 + . . . + xk wk = µw1 + µw2 + . . . + µwk

I Segue che
Pk
x1 w1 + x2 w2 + . . . + xk wk xi wi
µ= = Pi=1
k
w1 + w2 + . . . + wk i=1 wi

I I pesi wi possono assolvere la funzione delle frequenze assolute, ni , o


relative fi ma più in generale servono a considerare l’“importanza”
che ogni modalità apporta alla media
La media aritmetica ponderata. Esempio

Tabella: PIL procapite a parità di potere d’acquisto e popolazione residente per


5 paesi della EU, anno 2015. Fonte: Eurostat

Paese PIL procapite Popolazione


Germany 36 047 81 197 537
France 30 617 66 488 186
Cyprus 23 543 847 008
Luxembourg 77 019 562 958
Netherlands 37 072 16 900 726
Calcolare il PIL procapite medio
La media aritmetica ponderata. Esempio

Calcolare il PIL procapite medio per i 5 paesi considerati nella tabella


precedente
I Metodo ERRATO (media aritmetica semplice)

36047 + 30617 + 23543 + 77019 + 37072


µ= = 40 859.60
5
I Metodo CORRETTO (media aritmetica ponderata)
36047 ⇥ 81197537 + 30617 ⇥ 66488186 + 23543 ⇥ 847008 + 77019 ⇥ 562958 + 37072 ⇥ 16900726
µ =
81197537 + 66488186 + 847008 + 562958 + 16900726
= 34 051.76

Essendo il PIL procapite un valore riferito all’individuo è impensabile dare


al Lussemburgo la stessa importanza (lo stesso peso) di Francia o
Germania. Il peso ideale, in questo caso, è la popolazione residente nel
paese.
Proprietà della media aritmetica

La media aritmetica (semplice o ponderata) gode delle seguenti proprietà


:
1. min(x)  µ  max(x) (internalità )
PN
2. i=1 xi = Nµ (somma dell x pari a N ⇥ µ)
PN
3. i=1 (xi µ) = 0 (somma degli scarti pari a 0)
PN
4. min 2R i=1 (xi )2 ! = µ (min. somma scarti al quadrato)
PH
5. µ = N1 h=1 µh Nh µh media sottoinseime h (associatività )
6. y = a + bx ! µy = a + bµx (omogeneità e tralsatività )
Internalità

Dimostrazione: min(x)  µ  max(x)


I Senza perdita di generalità si ordinano in modo crescente i valori
osservati x1  x2  . . .  xN
I Si ipotizza che tutte le N osservazioni abbiano valore x1 (min(x))
I µ = Nx1 /N = x1
I Possiamo a↵ermare che µ x1
I Analogamente si ipotizza che le N osservazioni abbiano valore xN
(max(x))
I µ = NxN /N = xN
I Possiamo quindi a↵ermare che µ  xN
I Risulta quindi evidente che x1  µ  xN ovvero

min(x)  µ  max(x)
Somma delle osservazioni uguale a N volte µ

PN
Dimostrazione: i=1 xi = Nµ
I Partendo dalla definizione di media aritmetica la dimostrazione è
immediata
N N
1 X X
µ= xi ! Nµ = xi
N
i=1 i=1
Somma degli scarti dalla media uguale a 0

PN
Dimostrazione: i=1 (xi µ) = 0
PN
I Utilizzando la proprietà per cui i=1 xi = Nµ la dimostrazione è
immediata
N
X N
X N
X N
X
(xi µ) = xi µ= xi Nµ = 0
i=1 i=1 i=1 i=1

PN
Nota: i=1 µ = µ + µ + . . . + µ = Nµ
Minimo della somma degli scarti al quadrato

PN
Dimostrazione: min 2R i=1 (xi )2 ! = µ
I Si ha la funzione in (non in x, le x sono costanti numeriche):

N
X
f( )= (xi )2 = (x1 )2 + . . . + (xN )2
i=1

I Un punto 0 2 A si dice di minimo assoluto per f su A se


f ( ) f ( 0) 8 2 A
Minimo della somma degli scarti al quadrato
I Individuazione del punto critico:
I Derivare la funzione f ( ):

N
X
f 0( ) = 2(x1 ) + . . . + ( )2(xN )= 2 (xi )
i=1

I Porre f 0 ( ) = 0
N
X
2 (xi )=0
i=1
N
X
(xi )=0
i=1
N
X N
X
xi =0
i=1 i=1
N
X
xi N =0
i=1
N
1 X
= xi = µ = 0
N i=1
Minimo della somma degli scarti al quadrato

I Determinare tramite lo studio di f 00 ( ) se il punto critico è un


massimo, un minimo, un flesso, nulla
I Si riscriva la derivata prima in forma più conveniente
N
X N
X N
X N
X
f 0( ) = 2 (xi )= 2 xi + 2 = 2 xi + 2N
i=1 i=1 i=1 i=1

I A questo punto la derivata secondo si ottiene immediatamente

f 00 ( ) = 2N N 1 per definizione

I Essendo f 00 ( ) > 0 8 ed essendo la funzione quadratica allora µ è


un punto di minimo assoluto
Associatività

Se un collettivo è diviso in H sottogruppi di numerosità Nh con media


aritmetica µh (h = 1, . . . , H) allora la media aritmetica di tutto il
collettivo, µ, è
H
1 X
µ= µh Nh
N
h=1

Dimostrazione:
PNh
I Sia µh = N1 i=1 xi , allora
h

H H Nh
! H Nh N
1 X 1 X 1 X 1 XX 1 X
µh Nh = xi Nh = xi = xi = µ
N N Nh N N
h=1 h=1 i=1 h=1 i=1 i=1

P H P Nh
Infatti la scrittura h=1 i=1 xi significa sommare le xi in tutto il
gruppo per tutti gli H gruppi, ovvero sommare le xi per tutto il
collettivo
Traslatività e omogeneità

Dimostrazione: y = a + bx ! µy = a + bµx
I Si consideri per ogni osservazione xi la trasformazione yi = a + bxi ,
con a e b costanti note
I Sia µx la media aritmetica relativa alla variabile x e sia µy quella
relativa alla variabile trasformata y . Per definizione risulta:
N N N N
1 X 1 X 1 X 1 X
µy = yi = (a + bxi ) = a+ bxi
N N N N
i=1 i=1 i=1 i=1
N
X
1 1
= Na + b xi = a + bµx
N N
i=1
La media quadratica

I La media quadratica è la radice quadrata della media aritmetica dei


quadrati dei valori dati
I La media quadratica è invariate rispetto alla somma dei quadrati:
Definizione
Si definisce media quadratica “al quadrato” di una distribuzione x1 , . . . , xN
quel valore Q 2 tale che, sostituito ai dati, lascia invariata la somma dei
quadrati

x12 + x22 + . . . + xN2 = Q 2 + Q 2 + . . . + Q 2 = N · Q 2

I Dalla definizione segue che la media quadratica è


r v
u N
2 2 2
x1 + x2 + . . . + xN u1 X
Q= =t xi2
N N
i=1
La media quadratica

Calcolare la media quadratica del peso dei 6 studenti più leggeri.


I Dati: [1] 46 47 47 47 48 48
v
u N
u1 X
Q= t xi2
N
i=1

r
(462 + 472 + 472 + 472 + 482 + 482 )
= = 47.17
6
Osservazione: è sempre vero che µ  Q
La media quadratica ponderata

I La condizione di invarianza della media quadratica ponderata è

x12 w1 + x22 w2 + . . . + xk2 wk = Q 2 w1 + Q 2 w2 + . . . + Q 2 wk

I Dati dei pesi wi , che possono essere anche frequenze assolute o


relative, la media quadratica ponderata è
s v
u Pk
2 2 2
x1 w1 + x2 w2 + . . . + xk wk u xi2 wi
Q= = t Pi=1
k
w1 + w2 + . . . + wk i=1 wi

I Nel caso di distribuzione per classi per il calcolo della media


quadratica si procede in modo analogo a quanto visto per la media
aritmetica
La media geometrica

I La media geometrica è invariate rispetto al prodotto:


Definizione
Si definisce media geometrica di una distribuzione x1 , . . . , xN quel valore
G tale che, sostituito ai dati, lascia invariato il prodotto

x1 · x2 · . . . · xN = G · G · . . . · G = G N

I Dalla definizione segue che la media geometrica è


v
uN
p uY
G = x1 · x2 · . . . · xN = t
N N
xi
i=1

I La media geometrica è definita solo per valori strettamente positivi


(xi > 08i)
La media geometrica

Calcolare la media geometrica del peso dei 6 studenti più leggeri.


I Dati: 46 47 47 47 48 48
v
uN
uY
G= t N
xi
i=1

p
6
= 46 ⇥ 47 ⇥ 47 ⇥ 47 ⇥ 48 ⇥ 48 = 47.16
Osservazione: è sempre vero che G  µ
La media geometrica ponderata

I La condizione di invarianza della media geometrica ponderata è

x1w1 · x2w2 · . . . · xkwk = G w1 · G w2 · . . . · G wk

I Dati dei pesi wi , che possono essere anche frequenze assolute o


relative, la media geometrica ponderata è
v
q u k
Pk uY
G = w1 +w2 +...+wk x1w1 · x2w2 · . . . · xkwk = i=1 wt
i
xiwi
i=1

I Raramente si applica la media geometrica ad una distribuzione per


classi
I Per il calcolo della media geometrica è comodo usare le frequenze
Pk
relative, infatti sostituendo wi con fi e ricordando che i=1 fi = 1 si
Qk
ha G = i=1 xifi
Quale media utilizzare?

I Nella maggioranza dei casi il valore medio corretto è la media


aritmetica poiché spesso si ricerca l’invarianza rispetto alla somma
I Tuttavia non sono rari i casi in cui l’utilizzo della media aritmetica è
errato e bisogna ricorrere ad un tipo di↵erente di media (analitica)
I La media quadratica si utilizza per mettere in evidenza l’esistenza di
valori che si scostano molto dai valori centrali
I La media geometrica si utilizza quando ha senso moltiplicare fra loro
i dati statistici (quando i dati variano in progressione geometrica);
ad esempio per determinare il tasso d’incremento medio
Quale media utilizzare? Quadratica

I Posto che la media quadratica rispetto alle altre medie è la più


influenzata dai valori molto piccoli o molto grandi della distribuzione,
raramente è usata come valore riassuntivo di una distribuzione
I Essa risulterà utile in seguito, quando saranno introdotte le misure di
variabilità
Quale media utilizzare? Geometrica

Esempio in cui è errato usare la media aritmetica ed è corretto usare la


media geometrica
I Un investimento in azioni ha prodotto in 10 anni il seguente
rendimento
Tabella: Sintesi del finanziamento

Tasso (ij ) Tempo (tj ) (anni)


0.25 5
0.18 3
0.06 2
I Calcolare il tasso medio di rendimento
Nota: si ricorda che il montante di una unità monetaria dopo t anni
equivale a (1 + i)t
Quale media utilizzare? Geometrica

I Il montante al termine del decimo anno è dato dal capitale iniziale


moltiplicato i coefficienti di incremento, (1 + i), per ogni anno
dell’investimento

M = C (1 + i1 )(1 + i1 )(1 + i1 )(1 + i1 )(1 + i1 )(1 + i2 )(1 + i2 )(1 + i2 )(1 + i3 )(


= C (1 + i1 )5 (1 + i2 )3 (1 + i3 )2

I Il coefficiente medio di incremento è quel valore che applicato per


tutti e 10 gli anni permette di ottenere il medesimo montante

M = C (1 + imedio )10

I Risulta evidente che il principio di invarianza è rispetto al prodotto


del coefficiente di incremento (1 + i), dunque il tasso d’interesse
medio si ottiene dalla media geometrica dei coefficienti di incremento
Quale media utilizzare? Geometrica

I Il tasso medio si ottiene dalla media geometrica ponderata dei


coefficienti di incremento:
v
u k k
uY X
G= t T
(1 + ij )tj dove T = tj
j=1 j=1
p
= 10
(1 + 0.25)5 · (1 + 0.18)3 · (1 + 0.06)2 = 1.188723

I Il tasso medio dell’investimento è 1.188723 1 = 0.188723 (ovvero


circa il 18.87%)
I “Riprova”: per 1 euro investito dopo 10 anni si ha un montante di
1 · (1 + 0.25)5 · (1 + 0.18)3 · (1 + 0.06)2 = 5.63388 euro. Applicando
il tasso medio per 10 anni ad 1 euro si deve ottenere lo stesso
montante, infatti: 1 · (1 + 0.188723)10 = 5.63388, c.v.d.
Quale media utilizzare? Geometrica

I Se avessi usato la media aritmetica, adeguatamente ponderata, avrei


ottenuto il seguente tasso medio

(0.25 · 5 + 0.18 · 3 + 0.06 · 2)/(5 + 3 + 2) = 0.191

I Applicando tale tasso per 10 anni ad 1 euro si produrrebbe un


montante di 1 · (1 + 0.191)10 = 5.74272 6= 5.63388 (dove 5.63388 è
il valore del montante calcolato correttamente).
I Per un investimento da 1 000 000 di euro commetterei una
sovrastima di 108 836.7 euro: un errore maggiore del 10% rispetto
alla cifra investita!
NOTA: se si calcola la media aritmetica degli ij , oppure degli (1 + ij ) il tasso
medio non cambia. È comunque sbagliato calcolare la media dei tassi con la
media aritmetica.
Relazione tra le medie analitiche

I La relazione tra le medie analitiche è la seguente:

min(x)  G  µ  Q  max(x)

dove vale il segno di eguale solo nel caso in cui i dati siano tutti
eguali fra loro
I Le medie analitiche (ponderate) presentate possono essere
sintetizzate con una formula generale
Pk ! 1r
r
r i=1 xi wi
µ = Pk
i=1 wi

I per r = 1 µr è la media aritmetica (µ)


I per r = 2 µr è la media quadratica (Q)
I per r ! 0 µr tende alla media geometrica (G )
I per r = 1 µr è la media armonica (A) Non trattata nel corso
Le medie di posizione

Si ricorda che le medie di posizione trattate nel corso sono:


I la moda ! qualsiasi tipo di variabile
I la mediana ! variabili quantitative o qualitative ordinate
I i quantili (di cui la mediana è un caso particolare) ! variabili
quantitative o qualitative ordinate
La moda

Definizione di moda per variabili qualitative sconnesse


Definizione
La moda di una variabile qualitativa sconnessa è quella modalità che si
osserva con maggiore frequenza. Se la frequenza maggiore è posseduta
da due o più modalità della variabile allora la moda non esiste
La moda

I Determinare la moda della seguente distribuzione di frequenza

Tabella: Distribuzione di frequenza della variabile Diploma

ni fi
LC 16 0.069
LS 68 0.292
LA 36 0.155
ITC 82 0.352
ITA 22 0.094
IP 7 0.030
A 2 0.009
I La frequenza maggiore è n4 = 82
I Quindi la moda della variabile “Diploma” è ITC
La moda

Definizione di moda per variabili quantitative discrete o qualitative


ordinate
Definizione
La moda di una variabile quantitativa discreta o qualitativa ordinata è
data da ogni valore o modalità interno all’intervallo (min(x); max(x)),
tale che la sua frequenza assoluta n(i) verifichi simultaneamente le
seguenti disuguaglianze:

n(i) > n(i 1) n(i) > n(i+1) ,

dove n(·) indica la frequenza assoluta nella distribuzione ordinata rispetto


alla variabile X
Nota: la moda non può trovarsi all’inizio o al termine della distribuzione
La moda

I Ordinare i valori: x1 , x2 , . . . , xN ! x(1) , x(2) , . . . , x(N)


I I valori possono essere ordinati in modo non decrescente o non
crescente
I Dato l’ordinamento delle osservazioni, in una distribuzione di
frequenze si ottengono le modalità ordinate con le relative frequenze:
x1 , n1 ; x2 , n2 ; . . . , xk , nk ! x(1) , n(1) ; x(2) , n(2) ; . . . , x(k) , n(k)
I Es. x1 = 5, n1 = 10; x2 = 7, n2 = 15; x3 = 2, n3 = 20 ! x(1) =
2, n(1) = 20; x(2) = 5, n(2) = 10; x(3) = 7, n(3) = 15
La moda

I Determinare la/le moda/e della seguente distribuzione di frequenza


(assumendo un ordinamento tra le modalità del titolo si studio)

Tabella: Popolazione Italiana ( 15 anni) per titolo di studio (valori in migliaia),


febbraio 2017. Fonte: ISTAT

Titolo di Studio ni
Lic. Elementare - Nessuno 9238
Lic. Media 16 804
Diploma 18 656
Laurea e Post-laurea 7355
Totale 52 053
I La distribuzione risulta già ordinata, per cui ni ⌘ n(i)
I L’unica frequenza che soddisfa le condizioni n(i) > n(i 1) e
n(i) > n(i+1) è n(3) , infatti n(3) > n(2) e n(3) > n(4)
I Dunque la modalità 3 corrisponde alla moda, Mo = Diploma
La moda

I Determinare la/le moda/e della seguente distribuzione di frequenza

Tabella: Età per gli ultra ottantenni presi tra i 201 individui più ricchi al
mondo, anno 2016 (Forbes)
Età 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 99
ni 3 5 2 3 2 3 4 5 1 2 2 2 1 1 1 1

I La distribuzione è già ordinata (n(i) ⌘ ni )


I La distribuzione oggetto di studio è plurimodale
I Le mode sono Mo = 81, Mo = 83, Mo = 87
I Infatti risulta [n(2) > n(1) ; n(2) > n(3) ], [n(4) > n(3) ; n(4) > n(5) ] etc.
La moda

I Attenzione a non confondere la moda con la frequenza che identifica


la moda. Questo è un errore comune, prestare sempre attenzione
I Controllare che la distribuzione sia ordinata rispetto ai valori di X
I La moda, se esiste, è sempre pari ad una modalità (un valore) della
variabile, mai alla frequenza
I E’ possibile utilizzare le frequenze relative al posto delle frequenze
assolute (non cambia niente)
I La moda può non esistere
I La moda è sempre un valore interno della distribuzione
I L’eccessiva plurimodalità rende non informativo questo tipo di media
La moda

Calcolo approssimativo della moda per variabili quantitative continue o


discrete divise in classi
I Classi di uguale ampiezza: è il valore centrale della classe che
soddisfa le condizioni n(i) > n(i 1) e n(i) > n(i+1)
I Classi di diversa ampiezza: è il valore centrale della classe che
soddisfa le condizioni h(i) > h(i 1) e h(i) > h(i+1) , dove h(i) è la
densità di frequenza della classe i-esima nella distribuzione ordinata
I La classe che soddisfa le condizioni sopra esposte prende il nome di
classe modale
I In entrambi i casi (classi con uguale o diversa ampiezza) la classe
modale non può essere agli estremi della distribuzione
La moda
I Determinare la/le moda/e della distribuzione di frequenza
dell’altezza
Altezza ni hi (ni ) fi hi (fi )
(140, 160] 30 1.500000 0.1287554 0.0064378
(160, 165] 35 7.000000 0.1502146 0.0300429
(165, 170] 44 8.800000 0.1888412 0.0377682
(170, 175] 39 7.800000 0.1673820 0.0334764
(175, 180] 42 8.400000 0.1802575 0.0360515
(180, 210] 43 1.433333 0.1845494 0.0061516
I La distribuzione è ordinata
I Le densità di frequenza di una classe interna che soddisfano le
condizioni h(i) > h(i 1) e h(i) > h(i+1) sono h3 h5
I La/le classe/i modale/i è /sono (165, 170] (175, 180]
I La/le moda/e è /sono banalmente il/i valore/i centrale/i della/e
classe/i mediana/e
La mediana

La mediana è una media di posizione e rappresenta il valore centrale della


distribuzione quando i dati sono ordinati.
Definizione
Siano x(1) , x(2) , . . . , x(N) i valori ordinati in senso non decrescente, si dice
mediana, Me, il valore che bipartisce la distribuzione, ossia il valore non
inferiore a metà dei valori e non superiore all’altra metà
Nota 1: dalla definizione è evidente che la mediana può essere
determinata solo per variabili quantitative o qualitative ordinati
Nota 2: per convenzione, quando il pedice di un valore è tra parentesi
(es. x(8) ) significa che si fa riferimento ad una serie ordinata in senso non
decrescente
La mediana

Come determinare la mediana (Me)


1. Ordinare i valori in modo non decrescente:
x1 , x2 , . . . , xN ! x(1) , x(2) , . . . , x(N)
2-a. N dispari:
Me = x( N+1 )
2

2-b. N pari:
x( N ) + x( N +1)
2 2
Me =
2
La mediana

Determinare la mediana dell’altezza di 7 studenti presi a caso


I Dati: x1 = 168 x2 = 187 x3 = 195 x4 = 171 x5 = 160 x6 = 160
x7 = 174
1 . Ordinare la distribuzione in modo non decrescente: x(1) = 160
x(2) = 160 x(3) = 168 x(4) = 171 x(5) = 174 x(6) = 187 x(7) = 195
2. N = 7 ! dispari

Me = x( N+1 ) = x( 7+1 ) = x(4) = 171


2 2
Interpretazione della mediana

I La mediana è quel valore che divide in due parti uguali una


distribuzione
I Ciò implica che il 50% delle unità della distribuzione considerata ha
un valore della variabile oggetto di studio inferiore o al più uguale
alla mediana
I Analogamente, il 50% delle unità della distribuzione considerata ha
un valore della variabile oggetto di studio maggiore o al più uguale
alla mediana
I La mediana non è influenzata da valori estremi nella distribuzione, si
dice che è una statistica resistente
La mediana per distribuzioni di frequenza

I Anche se la forma di rappresentazione dei dati cambia da


distribuzione semplice a distribuzione di frequenza il metodo per
determinare la mediana non cambia
I La di↵erenza nella determinazione della mediana consiste nel tener
conto delle frequenze per individuare l’osservazione mediana nella
distribuzione ordinata
I Lo strumento ideale sono le frequenze cumulate assolute
I Tramite le frequenze cumulate si individua la modalità
dell’osservazione mediana
I Per le distribuzioni di frequenza per classi occorre fare delle
approssimazioni che approfondiremo nelle prossime slides
La mediana per distribuzioni di frequenza

Determinare la mediana dei giorni impiegati per vincere la regata


Sydney–Hobart data la seguente distribuzione

Tabella: Numero di giorni necessari per la traversata da Sydney ad Hobart


dall’imbarcazione vincitrice della regata “Sydney–Hobart” dal 1945 al 2017

Giorni (xi ) Imbarcazioni (ni )


1 7
2 22
3 22
4 13
5 7
6 2
Totale 73

1. La serie risulta già ordinata


La mediana per distribuzioni di frequenza

2. N = 73 ! dispari, quindi Me = x( N+1 ) = x 73+1 = x(37)


2 2

3. Bisogna trovare la modalità (il valore) della variabile “giorni” per la


37-esima osservazione nella serie ordinata
Giorni (xi ⌘ x(i) ) Imbarcazioni (ni ) Ni
1 7 7
2 22 29
3 22 51
4 13 64
5 7 71
6 2 73
Totale 73 –
4. Dalla frequenza cumulata si evince che le osservazioni dalla 30-esima
alla 51-esima hanno modalità 3, dunque Me = x(37) = 3
Nota: l’estensione al caso di N pari è di immediata comprensione e non verrà fatto un
esempio
La mediana per distribuzioni di frequenza per classi

I Nel caso di distribuzione di frequenza per classi sono necessarie


alcune ipotesi per determinare il valore mediano
I L’individuazione della classe a cui appartiene l’osservazione mediana
avviene in due modi
a. come nel caso di distribuzioni di frequenza (non per classi)
b. utilizzando le frequenze cumulate relative, in cui la mediana è sempre
nella posizione 0.5 (metodo consigliato)
I Individuata la classe mediana si deve trovare un modo per dare un
valore alla mediana all’interno della classe
I Il metodo proposto è quello di ipotizzare che le osservazioni siano
distribuite linearmente all’interno della classe
I In questo modo è possibile determinare un valore per la mediana che
tenga conto sia dell’ampiezza della classe sia del numero di
osservazioni presenti nella classe
La mediana per distribuzioni di frequenza per classi

Approssimazione lineare all’interno della classe mediana per determinare


un valore mediano
I Sia Fi la frequenza cumulata relativa della classe i-esima
I Sia Fm la frequenza cumulata relativa della classe mediana
I Sia Fm 1 la frequenza cumulata relativa della classe precedente la
classe mediana
I Tra le frequenze cumulate relative la mediana è sempre nella
posizione 0.5
I Sia xxm 1 l’estremo inferiore della classe mediana
I Sia xm l’estremo superiore della classe mediana
La mediana per distribuzioni di frequenza per classi

Freq. cum.

B’
Fm
B
0.5
A
Fm-1 H H’

Xm-1 Me Xm X

Figura: Approssimazione lineare per la determinazione della mediana

I I triangoli ABH e AB 0 H 0 sono simili ) AH AH 0


BH
= B0H0
⇣ ⌘
I Dunque Me xm 1
=
xm xm 1
! Me = xm 1 +
0.5 Fm 1
(xm xm 1)
0.5 Fm 1 Fm Fm 1 Fm Fm 1
La mediana per distribuzioni di frequenza per classi

Riepilogo: ✓ ◆
0.5 Fm 1
Me = xm 1+ m
Fm Fm 1

I 0.5 è la posizione centrale nella distribuzione delle frequenze relative


ordinate
I xm 1 è il limite inferiore della classe mediana
I Fm 1 è la frequenza cumulata relativa della classe precedente la
classe mediana
I Fm è la frequenza cumulata relativa della classe mediana
I m = xm xm 1 è l’ampiezza della classe mediana
Nota: l’approssimazione presentata utilizza le frequenze relative.
L’estensione per l’uso delle frequenze assolute è immediata e non verrà
presentata
La mediana per distribuzioni di frequenza per classi

Determinare la mediana della variabile Altezza

Tabella: Distribuzione di frequenza dell’altezza

Altezza ni Ni fi Fi
(135, 160] 30 30 0.1287554 0.1287554
(160, 165] 35 65 0.1502146 0.2789700
(165, 170] 44 109 0.1888412 0.4678112
(170, 175] 39 148 0.1673820 0.6351931
(175, 180] 42 190 0.1802575 0.8154506
(180, 210] 43 233 0.1845494 1.0000000
La mediana per distribuzioni di frequenza per classi

1. Ordinare la distribuzione ! si presenta già ordinata


2. Individuare la classe mediana l’osservazione mediana
a. N = 233! dispari, quindi Me = x( N+1 ) = x(117) Non conoscendo
2
esattamente il valore dell’osservazione mediana si identifica la classe
a cui appartiene e si procede tramite approssimazione lineare alla
determinazione della mediana.
La classe mediana è (170, 175]
b. Nella distribuzione relativa il posto mediano è 0.5.
Dalle frequenze cumulate relative risulta che 0.5 (il posto mediano)
appartiene alla classe (170, 175]
La mediana per distribuzioni di frequenza per classi

3. La mediana dell’altezza è
✓ ◆
0.5 Fm 1
Me = xm 1 + m
Fm Fm 1
✓ ◆
0.5 0.468
= 170 + ⇥ (175 170) = 170.962
0.635 0.468
I Il valore trovato è una approssimazione della vera mediana, che può
essere determinata solo conoscendo tutti i valori che formano la
distribuzione oggetto di studio
I Utilizzando i valori della distribuzione la vera mediana è
Me = x(117) = 173
I Per distribuzioni di frequenza non per classi il calcolo della mediana
è esatto
Proprietà della mediana

I min(x)  Me  max(x)
P
I min 2R N i=1 |xi | ! = Me
I Esiste sempre per variabili quantitative e qualitative ordinali
I quantili

Definizione
Il quantile Qq è quel valore della variabile x che suddivide la distribuzione
in due parti, lasciando a sinistra una frazione q delle osservazioni e a
destra il restante 1 q, con q 2 [0, 1]
Il quantile estende il concetto di mediana ad un qualunque punto della
distribuzione.
Cosı̀ come la mediana (Me) è quel valore che divide in due parti uguali la
distribuzione, il quantile (Qq ) è quel valore che la divide la distribuzione
in due parti di proporzioni q e 1 q
I quantili

Utilizzando alcuni quantili la sintesi della distribuzione risulta molto più precisa rispetto all’utilizzo
di un unico valore centrale
I Quartili:
1. Primo quartile Q0.25 : è quel valore che lascia a sinistra il 25% dei casi e a destra il
75% dei casi
2. Secondo quartile Q0.50 : è quel valore che lascia sia a sinistra sia a destra il 50% dei
casi, quindi Q0.50 = Me
3. Terzo quartile Q0.75 : è quel valore che lascia a sinistra il 75% dei casi e a destra il
25% dei casi
I Decili:
1. Primo decile Q0.10 : è quel valore che lascia a sinistra il 10% dei casi e a destra il 90%
dei casi
2. Secondo decile Q0.20 : è quel valore che lascia a sinistra il 20% dei casi e a destra
l’80% dei casi
.
.
.
5. Quinto decile Q0.50 : è quel valore che lascia sia a sinistra sia a destra il 50% dei casi,
quindi Q0.50 = Me
.
.
.
9. Nono decile Q0.90 : è quel valore che lascia a sinistra il 90% dei casi e a destra il 10%
dei casi
I quantili

Determinazione del quantle Qq , q 2 [0, 1]


1. Ordinare i valori in modo non decrescente:
x1 , x2 , . . . , xN ! x(1) , x(2) , . . . , x(N)
x(qN) +x(qN+1)
2-a. Se qN è intero allora Qq = 2
2-b. Se qN non è intero allora Qq = x(bqNc+1) , dove b · c indica la parte
intera

Nota 1: per le distribuzioni di frequenza si procede come nel caso della


mediana per identificare la modalità corrispondente alla posizione
desiderata ((bqNc) o (bqNc + 1))
Nota 2: per le distribuzioni di frequenza per classi, una volta identificata
la classe a cui appartiene il quantile, si procede alla sua determinazione,
come nel caso della mediana, con una approssimazione lineare
I quantili

Determinare i quartili del voto all’esame di Aziendale 1 di 10 studenti


presi a caso

I Dati: x1 = 18 x2 = 29 x3 = 21 x4 = 22 x5 = 22 x6 =
27 x7 = 18 x8 = 27 x9 = 18 x10 = 18
I quantili

1. Ordinare la distribuzione in modo non decrescente:


x(1) = 18 x(2) = 18 x(3) = 18 x(4) = 18 x(5) = 21 x(6) =
22 x(7) = 22 x(8) = 27 x(9) = 27 x(10) = 29

2. Detrminazione dei quartili: Q0.25 , Q0.50 e Q0.75 (q = 0.25, q = 0.50


e q = 0.75)
a. Q0.25 : qN = 0.25 · 10 = 2.5 ! qN non è intero, quindi
Q0.25 = x(bqNc+1) = x(b2.5c+1) = x(2+1) = x(3) = 18
b. Q0.50 = Me: qN = 0.50 · 10 = 5 ! qN è intero, quindi
x +x x +x
Q0.50 = (qN) 2 (qN+1) = (5) 2 (6) = (21 + 22)/2 = 21.5
c. Q0.75 : qN = 0.75 · 10 = 7.5 ! qN non è intero, quindi
Q0.75 = x(bqNc+1) = x(b7.5c+1) = x(7+1) = x(8) = 27
I quantili

Interpretazione del risultato ottenuto:


a. Il 25% del collettivo analizzato ha un voto  a 18 mentre il restante
75% ha un voto superiore
b. Il 50% del collettivo analizzato ha un voto  a 21.5 mentre il
restante 50% ha un voto superiore
c. Il 75% del collettivo analizzato ha un Patrimonio  a 27 mentre il
restante 25% ha un voto superiore
I quantili per distribuzioni di frequenza

I Anche se la forma di rappresentazione dei dati cambia da


distribuzione semplice a distribuzione di frequenza il metodo per
determinare i quantili non cambia
I La di↵erenza nella determinazione dei quantili consiste nel tener
conto delle frequenze relative per individuare l’osservazione
desiderata nella distribuzione ordinata
I Lo strumento ideale sono le frequenze cumulate assolute
I Tramite le frequenze cumulate si individua la modalità
dell’osservazione desiderata
I Per le distribuzioni di frequenza per classi è immediato estendere ai
quantili la formulazione fornita per la mediana
I quantili per distribuzioni di frequenza

Determinare il primo quartile (q=0.25) e il settimo decile (q=0.7) dei


giorni impiegati per vincere la regata Sydney–Hobart

Tabella: Numero di giorni necessari per la traversata da Sydney ad Hobart


dall’imbarcazione vincitrice della regata “Sydney–Hobart” dal 1945 al 2017

Giorni (xi ) Imbarcazioni (ni )


1 7
2 22
3 22
4 13
5 7
6 2
Totale 73
I quantili per distribuzioni di frequenza

1. La serie risulta già ordinata correttamente

2-a. Q0.25 : qN = 0.25 · 73 = 18.25 ! qN non è intero, quindi


Q0.25 = x(b18.25c+1) = x(19)

2-b. Q0.70 : qN = 0.7 · 73 = 51.1 ! qN non è intero, quindi


Q0.70 = x(b51.1c+1) = x(52)
I quantili per distribuzioni di frequenza

3. Bisogna trovare la modalità (il valore) della variabile “giorni” per la


19-esima e per la 52-esima osservazione nella serie ordinata
Giorni (xi ⌘ x(i) ) Imbarcazioni (ni ) Ni
1 7 7
2 22 29
3 22 51
4 13 64
5 7 71
6 2 73
Totale 73 –
4-a. Dalla frequenza cumulata si evince che le osservazioni dalla 8a alla
29-esima hanno modalità 2, dunque Q0.25 = x(19) = 2
4-b. Dalla frequenza cumulata si evince che le osservazioni dalla 52-esima
alla 64-esima hanno modalità 4, dunque Q0.70 = x(52) = 4
Nota: in generale per fini applicativi bisogna calcolare tutti i quartili o tutti/alcuni
decili e non limitarsi ad un solo quartile e decile!
I quantili per distribuzioni di frequenza per classi
L’approssimazione lineare per un quantile partendo da una distribuzione
di frequenza per classi risulta:
✓ ◆
q Fq 1
Q q = xq 1 + q
Fq Fq 1

I q 2 [0, 1] è la posizione desiderata nella distribuzione delle frequenze


relative ordinate
I xq 1 è il limite inferiore della classe a cui appartiene il quantile
I Fq 1 è la frequenza cumulata relativa della classe precedente la
classe a cui appartiene il quantile
I Fq è la frequenza cumulata relativa della classe a cui appartiene il
quantile
I q = xq xq 1 è l’ampiezza della classe a cui appartiene il quantile
I La classe a cui il quantile appartiene si identifica come nel caso di
distribuzioni di frequenza non per classi
I quantili per distribuzioni di frequenza per classi

Determinare il primo quartile e il quantile 0.35 (detto anche 35-esimo


percentile) della variabile altezza nella seguente distribuzione

Tabella: Distribuzione di frequenza dell’altezza

Altezza ni Ni fi Fi
(135, 160] 30 30 0.1287554 0.1287554
(160, 165] 35 65 0.1502146 0.2789700
(165, 170] 44 109 0.1888412 0.4678112
(170, 175] 39 148 0.1673820 0.6351931
(175, 180] 42 190 0.1802575 0.8154506
(180, 210] 43 233 0.1845494 1.0000000
I quantili per distribuzioni di frequenza per classi

1. Ordinare la distribuzione ! si presenta già ordinata correttamente

2 Per identificare la classe desiderata si usano le frequenze cumulate


relative (Fi ); infatti q esprime la posizione desiderata nella
distribuzione delle frequenze relative.
3 Dalle frequenze relative cumulate si evince
q = 0.25 2 (0.1288, 0.279] e q = 0.35 2 (0.279, 0.4678], le posizioni
relative corrispondenti rispettivamente alle classi (160, 165]e
(165, 170]
I quantili per distribuzioni di frequenza per classi

4. I quantili desiderati si ottengono tramite approssimazione lineare


all’interno delle rispettive classi:
✓ ◆
0.25 Fq 1
Q0.25 = xq 1 + q
Fq Fq 1
✓ ◆
0.25 0.129
= 160 + ⇥ (165 160) = 164.036
0.279 0.129
✓ ◆
0.35 0.279
Q0.35 = 165 + ⇥ (170 165) = 166.881
0.468 0.279
I I valori trovatoi sono una approssimazione di quelli veri, che possono
essere determinati solo conoscendo tutti i valori che formano la
distribuzione oggetto di studio
I Utilizzando tutti i valori della variabile altezza si ha
Q0.25 = x(59) = 165 e Q0.35 = x(82) = 168
I I quantili possono essere determinati in molti modi diversi
La variabilità

I La statistica è una disciplina di carattere metodologico che ha per


oggetto l’analisi dei fenomeni collettivi dotati di variabilità
I Quindi la peculiarità delle variabili statistiche è quella di presentare
modalità (valori) diversi per parte o per tutte le unità del collettivo
I Da questi concetti segue una definizione di variabilità

Definizione
La variabilità è l’attitudine delle variabili ad assumere di↵erenti modalità
La variabilità

Data una variabile x osservata su N unità , x1 , . . . , xN , una funzione


V (x1 , . . . , xN ) degli N dati osservati è una misura di variabilità se
soddisfa i seguenti assiomi:
I V (x1 , . . . , xN ) 0
I V (k, k, . . . , k) = 0
I V (x1 + k, . . . , xN + k) = V (x1 , . . . , xN )
I Se V (x1 , . . . , xN ) aumenta ) aumenta il grado di diversità tra le
modalità della distribuzione
La variabilità

Le misure di variabilità si posso definire:


I rispetto ad un valore caratteristico del fenomeno considerato
(“media”)
I rispetto alle singole osservazioni

Nota: in questo corso sarà trattata solo la variabilità per variabili


quantitative
La varianza

Si considerino le età dei calciatori titolari delle squadre A e B:


A: 25 25 25 25 25 25 25 25 25 25 25
B: 20 21 22 23 24 25 26 27 28 29 30

I µA = 25; MeA = 25
I µB = 25; MeB = 25

Se conoscessimo solo la media aritmetica o la mediana saremmo portati a


pensare che l’età dei giocatori nelle due squadre sia molto simile
L’utilizzo di un valore centrale come unica sintesi di una distribuzione è
fuorviante. E’ quindi necessario affiancarvi un indice di variabilità
La variabilità : il pollo di Trilussa

La leggenda della media di Trilussa nasce dalla poesia La Statistica:


Sai ched’è la statistica? è ’na cosa
che serve pe fa un conto in generale
de la gente che nasce, che sta male,
che more, che va in carcere e che sposa.
Ma pé me la statistica curiosa
è dove c’entra la percentuale,
pé via che, là , la media è sempre eguale
puro co’ la persona bisognosa.
Me spiego: da li conti che se fanno
seconno le statistiche d’adesso
risurta che te tocca un pollo all’anno:
e, se nun entra nelle spese tue,
t’entra ne la statistica lo stesso
perché c’è un antro che ne magna due
(Carlo Alberto Salustri, in arte Trilussa, 1871–1950, La Statistica)
La variabilità : il pollo di Trilussa

I Il componimento di Trilussa non fa altro che a↵ermare che se


qualcuno mangia due polli, e qualcun altro no, in media hanno
mangiato un pollo a testa
I Con questa poesia Trilussa anticipa un tema attuale, vista la
di↵usione dell’informazione statistica per fini di promozione politica,
economica e altro:
I la media è un dato che può essere fuorviante, perchè mal interpretato
I risulta evidente che la media deve essere sempre accompagnata da
un indice di variabilità
La deviazione standard

I L’indice di variabilità da associare alla media aritmetica è la


deviazione standard (o scarto quadratico medio):

Definizione
La deviazione standard di N valori di una variabile X con media
aritmetica µ è
v
u N
u1 X
=t (xi µ)2 per distribuzioni semplici
N
i=1
v
u N
u1 X
=t (xi µ)2 ni per distribuzioni di frequenza
N
i=1

Nota: l’estensione del calcolo della deviazione


qP standard con l’uso di frequenza
N
relative (o percentuali) è immediato = i=1 (xi µ)2 fi
Deviazione standard, varianza e devianza

Definizioni per distribuzioni semplici


q P
I = N1 N i=1 (xi µ)2 è la deviazione standard
P
I 2 = N1 N i=1 (xi µ)2 è la varianza
PN
I DEV = i=1 (xi µ)2 è la devianza

Definizioni per distribuzioni di frequenza


q P qP
I = N1 N i=1 (xi
2
µ) ni =
N
i=1 (xi µ)2 fi è la deviazione
standard
P PN
I 2 = N1 N i=1 (xi µ)2 ni = i=1 (xi µ)2 fi è la varianza
P
I DEV = N i=1 (xi µ)2 ni è la devianza
Deviazione standard, varianza e devianza

Tra deviazione standard, varianza e devianza esiste la seguente relazione


r
p DEV
= 2 =
N
La deviazione standard è pari alla radice quadrata della varianza che a

sua volta è pari alla devianza fratto N


Deviazione standard, varianza e devianza

I La varianza è la media degli scarti al quadrato dalla media aritmetica


I L’unità di misura della varianza è elevata al quadrato rispetto
all’unità di misura della media, al contrario l’unità di misura della
deviazione standard coincide con quella della media
I La varianza e la deviazione standard verificano i requisiti degli indici
di variabilità :
I 0e 2 0
I Se x1 = x2 = . . . = xN = k allora = 0 e 2
=0
I Posto yi = xi + k risulta y = x e y2 = 2
x
Deviazione standard, varianza e devianza

Dimostrazione per cui 0 e 2 0.


P
I Per definizione 2 = N1 N i=1 (xi µ)2 , dunque la varianza è la media
di una somma di quadrati
I Essendo un quadrato un valore sempre 0 risulta evidente che una
somma di quadrati è sempre anch’essa 0
P
I Quindi DEV = N i=1 (xi µ)2 0 ) 2 = DEV /N 0 8 N > 0
p
) = 2 0
Deviazione standard, varianza e devianza

2
Dimostrazione per cui se x1 = x2 = . . . = xN = k allora = 0 e =0
P
I Posto x1 = . . . = xN = k risulta µ = N1 N 1
i=1 k = N Nk = k
P P
I 2 = N1 N i=1 (xi
N
µ)2 = N1 i=1 (k k)2 = 0
p
I Essendo 2 = 0 ) = 0 = 0
Deviazione standard, varianza e devianza

Dimostrazione per cui posto yi = xi + k risulta y = x e y2 = x2


I Essendo yi = xi + k risulta che ⇣P
PN PN N PN ⌘
µy = N1 i=1 yi = N1 i=1 (xi + k) = N1 i=1 xi + i=1 k =
1
P N 1
P N 1
N i=1 xi + N i=1 k = µx + N Nk = µx + k
PN P 2
I DEVy = i=1 (yi µy )2 = N i=1 xi + k (µx + k) =
PN 2 P N
i=1 xi + k µx k = i=1 (xi µx )2 = DEVx
I Essendo DEVy = DEVx risulta y2 = DEVy /N = DEVx /N = x2
q p
I Infine avendo dimostrato che y2 = x2 ) 2
y =
2
x ) y = x
Deviazione standard, varianza e devianza

I Varianza ( 2 ) e devianza (DEV ) non hanno altri appellativi


I la deviazione standard ( ), essendo l’indice di variabilità che si
associa alla media aritmetica, è un indice molto usato e per questo è
noto anche con il nome di:
I Scarto quadratico medio
I Deviazione standard (da non confondersi con la devianza)
I Standard error
I Standard deviation
Deviazione standard

Calcolare media ed deviazione standard del peso di 8 studenti scelti a


caso
I Dati: 61 75 100 68 55 65 58 73
I Media: µ = 69.375 kg

N
2 1 X
= (xi µ)2
N
i=1
1
= [(61 69.375)2 + (75 69.375)2 + (100 69.375)2
8
(68 69.375)2 + (55 69.375)2 + (65 69.375)2
(58 69.375)2 + (73 69.375)2 = 176.2344 kg2
p
= 176.2344 = 13.28 kg
La deviazione standard per distribuzioni di frequenza

Calcolare media e deviazione standard per la seguente distribuzione di


frequenza

Tabella: Numero di giorni necessari per la traversata da Sydney ad Hobart


dall’imbarcazione vincitrice della regata “Sydney–Hobart” dal 1945 al 2017

Giorni (xi ) Imbarcazioni (ni )


1 7
2 22
3 22
4 13
5 7
6 2
Totale 73

µ = 2.959 (calcolata precedentemente)


La deviazione standard per distribuzioni di frequenza

Calcolo della deviazione standard


k
2 1 X
= (xi µ)2 ni
N
i=1
1
= [(1 2.959)2 7 + (2 2.959)2 22 + (3 2.959)2 22
73
+ (4 2.959)2 13 + (5 2.959)2 7 + (6 2.959)2 2] = 1.491
p
= 1.491 = 1.221
La deviazione standard per distribuzioni di frequenza per
classi

Calcolare media ed deviazione standard della seguente distribuzione di


frequenza

Tabella: Altezza degli studenti del corso C

Altezza ni fi ci
(135, 160] 30 0.1287554 147.5
(160, 165] 35 0.1502146 162.5
(165, 170] 44 0.1888412 167.5
(170, 175] 39 0.1673820 172.5
(175, 180] 42 0.1802575 177.5
(180, 210] 43 0.1845494 195.0
La deviazione standard per distribuzioni di frequenza per
classi

I Media: µ = 171.89 (calcolata precedentemente)


I Calcolo della deviazione standard
k
X
2
= (ci µ)2 fi
i=1

= (147.5 171.89)2 0.129 + (162.5 171.89)2 0.15 + (167.5 171.89)2 0.189


+ (172.5 171.89)2 0.167 + (177.5 171.89)2 0.18 + (195 171.89)2 0.185
= 197.7751
p
= 197.7751 = 14.06325

I Come per la media, anche nel calcolo della deviazione standard si


commette un errore di approssimazione dovuto alle classi
I Utilizzando i micro-dati (distribuzione semplice) si ottiene
µ = 172.52 e = 9.52
La deviazione standard: formula alternativa

La deviazione standard si ottiene anche come radice quadrata della

di↵erenza tra i quadrati delle medie quadratica (Q) e aritmetica (µ)


p
= Q2 µ2
La deviazione standard: formula alternativa
p
Dimostrazione per cui = Q2 µ2
p
I Se = Q 2 µ2 ) 2
= Q 2 µ2
PN 2
I Ricordiamo che Q 2 = 1
N i=1 xi

N N
2 1 X 1 X 2
= (xi µ)2 = (xi + µ2 2µxi )
N N
i=1 i=1
N N N
1 X 2 1 X 2 1 X
= xi + µ 2µ xi
N N N
i=1 i=1 i=1

1 ⇣1 X
N ⌘
= Q2 + Nµ2 2µ xi = Q 2 + µ2 2µµ
N N
i=1
= Q 2 + µ2 2µ2 = Q 2 µ 2
La deviazione standard: considerazioni

I La deviazione standard è un indice di variabilità da associare alla


media aritmetica di una distribuzione
I Esso rappresenta uno scostamento medio dei valori della
distribuzione dalla media aritmetica
I Più piccolo è la deviazione standard migliore è il potere di sintesi
della media aritmetica
P
I Poichè la media aritmetica minimizza N i=1 (xi )2 (vedere le
proprietà della media aritmetica) allora la media aritmetica
minimizza anche varianza ed deviazione standard
Confrontare la variabilità

E’ possibile confrontare la variabilità di due variabili statistiche


utilizzando la deviazione standard? NO, infatti:
I la deviazione standard è espresso nell’unità di misura della media,
dunque non si possono confrontare due variabili rilevate con misure
di↵erenti (es. confrontare dollari con euro, o fatturato con numero
di addetti)
I anche per variabili che hanno la stessa unità di misura, la deviazione
standard risente dell’ordine di grandezza della media
Da ciò si deduce che tramite la deviazione standard non è possibile
e↵ettuare un confronto sulla variabilità di due o più distribuzioni
Confrontare la variabilità : coefficiente di variazione

Per confrontare la variabilità di due o più distribuzioni si utilizza il


coefficiente di variazione:
CV =
|µ|

I Il CV ci dice quanto misura rispetto alla media (µ)


I All’aumentare di rispetto a µ, diminuisce la rappresentatività di µ
I Il CV è una misura relativa poiché non risente ne delle unità di
misura ne dell’ordine di grandezza della media
Confrontare la variabilità : coefficiente di variazione

Confrontare la variabilità dei tempi di percorrenza dell’imbarcazione vincitrice


della regata Sydney–Hobart per gli anni dal 1945 al 1949 (x) e gli anni dal
2004 al 2008 (y )
Tempo (min) (1945–1949) (xi ) 9502 7373 7383 6061 7833
Tempo (min) (2004–2008) (yi ) 3840 2560 3412 2724 2674

I µx = 7630.4 µy = 3042
I x = 1107.65 y = 498.51 ! x > y

I CVx = 1107.65
7630.4
= 0.145 CVy = 498.51
3042
= 0.164
I Essendo CVx < CVy i tempi dal 1945 al 1949 sono meno variabili rispetto
ai tempi dal 2004 al 2008 (la x è meno variabile della y )
I Se avessimo erroneamente considerato la deviazione standard per
confrontare le due distribuzioni, avremmo dedotto che i tempi dal 1945 al
1949 sono più variabili rispetto ai tempi dal 2004 al 2008 (la x più
variabile della y , ERRORE)
Statistiche chiave per descrivere una distribuzione statistica

Per sintetizzare una distribuzione statistica rispetto ad una variabile


quantitativa x è utile calcolare:
I min(x) = Q0 (valore minimo)
I Q0.25 (primo quartile)
I Me = Q0.5 (mediana)
I µ e (media ed deviazione standard)
I Q0.75 (terzo quartile)
I max(x) = Q1 (valore massimo)
Statistiche chiave per descrivere una distribuzione statistica

Esempio: sintesi della distribuzione del peso degli studenti di statistica


min Q0.25 Me µ( ) Q0.75 max
46 57 67 66.22 ( 11.43 ) 74 100

Esempio: sintesi della distribuzione del tempo impiegato (minuti)


dall’imbarcazione vincitrice della regata Sidney-Hobart dal 1945 al 2017
min Q0.25 Me µ( ) Q0.75 max
1995 3794 4546 4908.07 ( 1607.26 ) 6010 9502

Qual è la distribuzione più variabile?


11.43 1607.26
CVPeso = = 0.17 CVTempi = = 0.33
66.22 4908.07
Teorema di Chebyshev

E’ utile conoscere quanti elementi della distribuzione stanno entro k


(k > 1) errori standard dalla media, cioè quanti elementi sono contenuti
nelliintervallo [µ k ; µ + k ].
A questo scopo risponde il famoso teorema di Chebyshev
Teorema
Sia g (·) una funzione che restituisce la frequenza relativa dei valori di una
variabile x che soddisfano delle condizioni (argomento della funzione).
Per una distribuzione di valori xi , i = 1, . . . , N per cui è nota solo la
media µ e la deviazione standard e dato un valore reale k > 0, si può
a↵ermare che
1
g (µ k  xi  µ + k ) 1
k2
Teorema di Chebyshev

I Dal teorema di Chebyshev si deduce che la frazione di osservazioni


che appartengono all’intervallo [µ k ; µ + k ] è pari a 1 1/k 2
I Esempio: per k = 1.5 è noto che almeno il
1 k12 = 1 1.5 1
2 = 0.555 = 55.5% delle osservazioni è contenuto

nell’intervallo [µ 1.5 ; µ + 1.5 ]


I Esempio: almeno il 55.5% del voto al diploma degli studenti di
statistica corso C appartiene all’intervallo
[82.62 1.5 ⇥ 11.9; 82.62 + 1.5 ⇥ 11.9], ovvero [64.78; 100.47].
I Verifica: considerando i voti in questione risulta che il 93.1% di
questi è compreso nell’intervallo [64.78; 100.47], cvd.
Teorema di Chebyshev

Dal teorema di Chebyshev risulta che per ogni distribuzione di N unità


relativa ad una variabile quantitativa x
I il 75% delle xi 2 [µ 2 ; µ + 2 ] (k = 2)
I l’89% delle xi 2 [µ 3 ; µ + 3 ] (k = 3)
I il 95% delle xi 2 [µ 4.5 ; µ + 4.5 ] (k = 4.5)
I il 99% delle xi 2 [µ 10 ; µ + 10 ] (k = 4.5)
I dove i = 1, . . . , N
Teorema di Chebyshev: dimostrazione

I Si consideri una distribuzione x con N osservazioni xi , i = 1, . . . , N


I Sia g () una funzione che restituisce la frequenza relativa dei valori di
una variabile x che soddisfano delle condizioni predeterminate
I Sia Sk = {xi |µ k  xi  µ + k }, k > 0
P PN
I 2 = N1 N i=1 (xi µ)2 ! N 2 = i=1 (xi µ)2
I Dividendo le N osservazioni tra quelle che appartengono all’insieme
Sk (xi 2 Sk ) e quelle che non vi appartengono (xi 2 / Sk ), si può
scrivere X X
N 2= (xi µ)2 + (xi µ)2
i2Sk i 2S
/ k
P P
I Essendo i2Sk (xi µ)2 0e / k (xi
i 2S µ)2 0 si può scrivere
X
2
N (xi µ)2
i 2S
/ k
Teorema di Chebyshev: dimostrazione

I 8i2
/ Sk vale
I xi µ + k ! xi µ k ! (xi µ)2 k 2 2
I xi  µ k ! xi µ  k ! (xi µ)2 k 2 2

I Essendo (xi µ)2 k 2 2 è vero anche che


P P
/ k (xi
i 2S µ)2 / k k
i 2S
2 2
P P
I Quindi N 2 / k (xi
i 2S µ)2 / k k
i 2S
2 2

I La frazione (alias frequenza relativa) degli elementi appartenenti a


Sk è data da g (µ k  xi  µ + k )
I La frequenza assoluta degli elementi appartenenti a Sk è per
definizione Ng (µ k  xi  µ + k )
I Quindi la frequenza assoluta degli elementi non appartenenti a Sk è
N Ng (µ k  xi  µ + k )
P
I Essendo N 2 / k k
i 2S
2 2

I Risulta N 2
N Ng (µ k  xi  µ + k ) k 2 2
Teorema di Chebyshev: dimostrazione

I Per semplicità , si scriva g () al posto di g (µ k  xi  µ + k )


I N 2 N Ng () k 2 2
I N 2
N(1 g ())k 2 2
2 2
I
2 N(1 g ())k
N
N 2k2 N 2k2
I 1
k2 1 g ()
I Da cui risulta g () 1 1
k2
I Cvd:
1
g (µ k  xi  µ + k ) 1
k2
Teorema di Markov

Tramite il teorema di Markov si definiscono dei limiti per le frequenze


relative conoscendo solo la media di una distribuzione
Teorema
Sia g (·) una funzione che restituisce la frequenza relativa dei valori di una
variabile x che soddisfano delle condizioni (argomento della funzione).
Per una distribuzione di valori xi , i = 1, . . . , N non negativi (xi 0 8 i),
per cui è nota solo la media µ, dato un qualsiasi valore a > 0, si può
a↵ermare che
µ
g (xi a) 
a
Teorema di Markov

I Dal teorema di Markov si ricava la frazione massima di unità


(frequenza relativa) con modalità pari o superiori ad un valore soglia
arbitrario
I Il teorema si può applicare solo per variabili che presentano valori
non negativi (xi 0)
I Di conseguenza il valore soglia deve essere positivo (a > 0)
I Esempio: posto che la media del voto al diploma degli studenti del
corso C è µ = 82.6, si può a↵ermare che gli studenti che hanno un
voto di almeno 90 sono al più il 91.8%, infatti:
82.6
g (xi 90)  = 91.8
90
Teorema di Markov: dimostrazione

I Si consideri una distribuzione x con N osservazioni non negative


xi , i = 1, . . . , N, xi 0 8 i
I Sia g () una funzione che restituisce la frequenza relativa dei valori di
una variabile x che soddisfano delle condizioni predeterminate
I Sia Sa = {xi |xi a}, a > 0
P P P
I µ = N1 N i=1 xi = N
1
xi + N1 i 2S xi
P i2Sa P / a
I Poiché xi 0 ) i2S xi 0 e i 2S / a xi 0
a
P
I Quindi µ N i2S xi 1
a
P P
I Per definizione se xi 2 Sa ) xi a ) i2S xi i2Sa a
a
P P
I Quindi µ N i2S xi 1 1
N i2Sa a
a
Teorema di Markov: dimostrazione

I In Sa ci sono Ng (xi a) elementi


P
I Quindi µ N1 i2S a ! µ N1 Ng (xi a)a
a
I Da cui risulta µ g (xi a)a, ed infine
µ
g (xi a) 
a
Cvd
Variabilità rispetto alle osservazioni: non in programma

I Non presente nel programma


I Questo argomento (molto importante) può essere un argomento per
la tesina di laurea
I Uno degli indici principali di variabilità rispetto alle osservazioni è il
coefficiente di concentrazione di Gini, un indice largamento usato in
tutto il mondo
Parte III

L’associazione tra due variabili


Associazione tra due variabili

I Ci siamo limitati sinora all’analisi di una singola variabile alla volta


I Tuttavia si reputa di grande interesse analizzare la relazione tra due
o più variabili
I Per esempio, considerando il collettivo degli studenti di statistica
corso C ci si chiede che relazione esiste
I tra voto al diploma e genere
I tra capacità nell’uso di un foglio di calcolo e tipo di diploma
I tra peso e altezza
I ...
I La relazione tra due variabili statistiche è nota come associazione
Associazione tra due variabili

I Le variabili statistiche possono essere quantitative o qualitative


I Considerando due variabili alla volta esistono tre possibili
combinazioni (con ripetizione):
I Qualitativa e qualitativa
I Quantitativa e qualitativa
I Quantitativa e quantitativa
I Per ogni combinazione proporremo un indice per misurare il grado di
associazione tra le due variabili

Nota: prima di presentare questi indici è utile introdurre il concetto di


distribuzione di frequenza doppia
Distribuzioni doppie di frequenza

I Distribuzione unitaria (o semplice o monovariata) della variabile x:


x1 , x2 , . . . , xN
I Distribuzione doppia delle variabili x e y :
(x1 , y1 ), (x2 , y2 ), . . . , (xN , yN )
I Esempio: distribuzione semplice della variabile “Età ” (x) e
distribuzione doppia delle variabili “Età ” (x) e “Diploma” (y ) degli
studenti del corso C:
I x1 = 19, x2 = 19, x3 = 19, . . . , x2 33 = 21
I (x, y ) : (x1 = 19, y1 = ITC ), (x2 = 19, y2 = ITC ), (x3 = 19, y3 =
ITC ), . . . , (x233 = 21, y233 = LA)
Distribuzioni doppie di frequenza

I Distribuzione semplice ! distribuzione di frequenza


I Distribuzione doppia ! distribuzione doppia di frequenza
I Si supponga che le variabili X e Y assumano rispettivamente k e h
modalità distinte
I La tabella di frequenza doppia avrà dimensione k ⇥ h (righe per
colonne) considerando X e Y rispettivamente come variabili di riga e
di colonna
Distribuzioni doppie di frequenza

Distribuzione doppia di frequenza

Tabella: Distribuzione doppia di frequenza

X Y y1 y2 ... yj ... yh
x1 n11 n12 ... n1j ... n1h n1.
x2 n21 n22 ... n2j ... n2h n2.
.. .. .. .. .. .. .. ..
. . . . . . . .
xi ni1 ni2 ... nij ... nih ni.
.. .. .. .. .. .. .. ..
. . . . . . . .
xk nk1 nk2 ... nkj ... nkh nk.
n.1 n.2 ... n.j ... n.h N
Distribuzioni doppie di frequenza: frequenze congiunte

Tabella: Distribuzione doppia di frequenza

X Y y1 y2 ... yj ... yh
x1 n11 n12 ... n1j ... n1h n1.
x2 n21 n22 ... n2j ... n2h n2.
.. .. .. .. .. .. .. ..
. . . . . . . .
xi ni1 ni2 ... nij ... nih ni.
.. .. .. .. .. .. .. ..
. . . . . . . .
xk nk1 nk2 ... nkj ... nkh nk.
n.1 n.2 ... n.j ... n.h N

I Le frequenze in rosso sono le frequenze congiunte


I Per esempio nij indica la frequenza assoluta delle unità che hanno
modalità xi e yj
Distribuzioni doppie di frequenza: frequenze condizionate

Tabella: Distribuzione doppia di frequenza

X Y y1 y2 ... yj ... yh
x1 n11 n12 ... n1j ... n1h n1.
x2 n21 n22 ... n2j ... n2h n2.
.. .. .. .. .. .. .. ..
. . . . . . . .
xi ni1 ni2 ... nij ... nih ni.
.. .. .. .. .. .. .. ..
. . . . . . . .
xk nk1 nk2 ... nkj ... nkh nk.
n.1 n.2 ... n.j ... n.h N

I Le frequenze condizionate (in rosso) indicano la distribuzione


unitaria della X per Y = yj
Distribuzioni doppie di frequenza: frequenze condizionate

Tabella: Distribuzione doppia di frequenza

X Y y1 y2 ... yj ... yh
x1 n11 n12 ... n1j ... n1h n1.
x2 n21 n22 ... n2j ... n2h n2.
.. .. .. .. .. .. .. ..
. . . . . . . .
xi ni1 ni2 ... nij ... nih ni.
.. .. .. .. .. .. .. ..
. . . . . . . .
xk nk1 nk2 ... nkj ... nkh nk.
n.1 n.2 ... n.j ... n.h N

I Le frequenze condizionate (in rosso) indicano la distribuzione


unitaria della Y per X = xi
Distribuzioni doppie di frequenza: frequenze marginali

Tabella: Distribuzione doppia di frequenza

X Y y1 y2 ... yj ... yh
x1 n11 n12 ... n1j ... n1h n1.
x2 n21 n22 ... n2j ... n2h n2.
.. .. .. .. .. .. .. ..
. . . . . . . .
xi ni1 ni2 ... nij ... nih ni.
.. .. .. .. .. .. .. ..
. . . . . . . .
xk nk1 nk2 ... nkj ... nkh nk.
n.1 n.2 ... n.j ... n.h N

I Le frequenze marginali (in rosso) indicano la distribuzione di


frequenza semplice della X
Distribuzioni doppie di frequenza: frequenze marginali

Tabella: Distribuzione doppia di frequenza

X Y y1 y2 ... yj ... yh
x1 n11 n12 ... n1j ... n1h n1.
x2 n21 n22 ... n2j ... n2h n2.
.. .. .. .. .. .. .. ..
. . . . . . . .
xi ni1 ni2 ... nij ... nih ni.
.. .. .. .. .. .. .. ..
. . . . . . . .
xk nk1 nk2 ... nkj ... nkh nk.
n.1 n.2 ... n.j ... n.h N

I Le frequenze marginali (in rosso) indicano la distribuzione di


frequenza semplice della Y
Distribuzioni doppie di frequenza

Distribuzione doppia di frequenza per diploma e genere

Maschio Femmina Tot


LC 9 7 16
LS 49 19 68
LA 6 30 36
ITC 40 42 82
ITA 16 6 22
IP 4 3 7
A 0 2 2
Tot 124 109 233

I Dalla tabella è possibile conoscere


I le frequenze congiunte
I le frequenze condizionate
I le frequenze marginali
Distribuzioni doppie di frequenza

Esempio: distribuzione condizionata di diploma per genere = Femmine

Diploma Femmine
x
LC 7
LS 19
LA 30
ITC 42
ITA 6
IP 3
A 2
Tot 109
Distribuzioni doppie di frequenza

Esempio: distribuzione condizionata del genere per diploma = ITC

Genere ITC
x
Maschio 40
Femmina 42
Tot 82
Distribuzioni doppie di frequenza

Maschio Femmina Tot


LC 9 7 16
LS 49 19 68
LA 6 30 36
ITC 40 42 82
ITA 16 6 22
IP 4 3 7
A 0 2 2
Tot 124 109 233

I La distribuzione marginale per diploma altro non è che la distribuzione di


frequenza semplice della variabile diploma
I La distribuzione marginale per genere altro non è che la distribuzione di
frequenza semplice della variabile genere
Distribuzioni doppie di frequenza: notazione

Notazione sulle frequenze assolute di una distribuzione doppia di


frequenza:
P
I ni. = hj=1 nij , i = 1, 2, . . . , k frequenze marginali della X (della
variabile riga)
P
I n.j = ki=1 nij , j = 1, 2, . . . , h frequenze marginali della Y (della
variabile colonna)
P P P P
I N = ki=1 hj=1 nij = ki=1 ni. = hj=1 n.j

Nota: chiamare la variabile con le modalità messe per riga X e la


variabile con le modalità messe per colonna Y è una scelta arbitraria
(non è una convenzione)
Distribuzioni doppie di frequenza: frequenze relative

In una distribuzione doppia di frequenza si possono calcolare tre diversi


tipi di frequenze relative:
I Frequenze relative congiunte
I Frequenze relative di colonna
I Frequenze relative di riga
Distribuzioni doppie di frequenza: frequenze relative

Frequenze relative congiunte:

Tabella: Distribuzione doppia di frequenza

X Y y1 y2 ... yj ... yh
x1 f11 f12 ... f1j ... f1h f1.
x2 f21 f22 ... f2j ... f2h f2.
.. .. .. .. .. .. .. ..
. . . . . . . .
xi fi1 fi2 ... fij ... fih fi.
.. .. .. .. .. .. .. ..
. . . . . . . .
xk fk1 fk2 ... fkj ... fkh fk.
f.1 f.2 ... f.j ... f.h 1

I fij = nij
N
I Le frequenze relative congiunte rappresentano la frazione della
popolazione che presenta modalità xi e yj , i = 1, . . . , k e j = 1, . . . , h
Distribuzioni doppie di frequenza: frequenze relative
Frequenze relative di colonna:

Tabella: Distribuzione doppia di frequenza

X Y y1 y2 ... yj ... yh
x1 f11c f12c ... f1jc ... f1hc
f1.c
x2 f21c f22c ... f2jc ... f2hc
f2.c
.. .. .. .. .. .. .. ..
. . . . . . . .
xi fi1c fi2c ... fijc ... fihc fi.c
.. .. .. .. .. .. .. ..
. . . . . . . .
c c
xk fk1 fk2 ... fkjc ... fkhc fk.c
1 1 ... 1 ... 1 1

I fijc = nij
n.j
; fi.c = ni.
N

I Con le frequenze relative di colonna si possono confrontare a parità di


numerosità (1) le distribuzioni condizionate della X per ogni modalità
della Y (y1 , . . . , yh )
Distribuzioni doppie di frequenza: frequenze relative
Frequenze relative di riga:

Tabella: Distribuzione doppia di frequenza

X Y y1 y2 ... yj ... yh
x1 f11r f12r ... f1jr ... f1hr
1
x2 f21r f22r ... f2jr ... f2hr
1
.. .. .. .. .. .. .. ..
. . . . . . . .
xi fi1r fi2r ... fijr ... fihr 1
.. .. .. .. .. .. .. ..
. . . . . . . .
r r
xk fk1 fk2 ... fkjr ... fkhr 1
f.1r f.2r ... f.jr ... f.hr 1

I fijr = nij
ni.
; f.jr =
n.j
N
I Con le frequenze relative di riga si possono confrontare a parità di
numerosità (1) le distribuzioni condizionate della Y per ogni modalità
della X (x1 , . . . , xk )
Distribuzioni doppie di frequenza: freq relative congiunte

Distribuzione doppia di frequenze relative congiunte per diploma e genere degli studenti del corso C

Maschio Femmina Tot


LC 0.039 0.030 0.069
LS 0.210 0.082 0.292
LA 0.026 0.129 0.155
ITC 0.172 0.180 0.352
ITA 0.069 0.026 0.094
IP 0.017 0.013 0.030
A 0.000 0.009 0.009
Tot 0.532 0.468 1.000

I Es. f42 = 0.18 significa che lo 0.18 o (18%) del collettivo è femmina e ha diploma ITC
I Es. f.1 = 0.532 significa che lo 0.532 o (53.2%) del collettivo è maschio
I Es. f2. = 0.292 significa che lo 0.292 o (29.2%) del collettivo ha un diploma di LS
Distribuzioni doppie di frequenza: freq relative di colonna

Distribuzione doppia di frequenza relative di colonna per diploma e genere degli studenti del corso C

Maschio Femmina Tot


LC 0.073 0.064 0.069
LS 0.395 0.174 0.292
LA 0.048 0.275 0.155
ITC 0.323 0.385 0.352
ITA 0.129 0.055 0.094
IP 0.032 0.028 0.030
A 0.000 0.018 0.009
Tot 1.000 1.000 1.000

I Es. f42 = 0.385 significa che lo 0.385 o (38.5%) delle femmine ha un diploma ITC
I Es. f.1 = 1 (aiuta a capire che le frequenze relative si riferiscono alla distribuzione della
variabile diploma per genere = maschi o femmine)
I Es. f2. = 0.292 significa che lo 0.292 o (29.2%) del collettivo ha un diploma di LS
Distribuzioni doppie di frequenza: freq relative di riga

Distribuzione doppia di frequenza relative di riga per diploma e genere degli studenti del corso C

Maschio Femmina Tot


LC 0.562 0.438 1
LS 0.721 0.279 1
LA 0.167 0.833 1
ITC 0.488 0.512 1
ITA 0.727 0.273 1
IP 0.571 0.429 1
A 0.000 1.000 1
Tot 0.532 0.468 1

I Es. f42 = 0.512 significa che lo 0.512 o (51.2%) dei diplomati ITC è femmina
I Es. f.1 = 0.532 significa che lo 0.532 o (53.2%) del collettivo è maschio
I Es. f2. = 1 (aiuta a capire che le frequenze relative si riferiscono alla distribuzione della
variabile genere per le singole modalità di diploma)
Analisi dell’associazione tra due variabili qualitative

I Disponendo della distribuzione doppia di frequenza di due variabili, il


passo successivo consiste nell’analizzare il loro livello di associazione
I Esistono due situazioni possibili:
1. Dipendenza statistica: la conoscenza della modalità di una delle due
variabili migliora la “previsione” della modalità dell’altra
2. Indipendenza statistica: la conoscenza della modalità di una delle
due variabili non migliora la “previsione” della modalità dell’altra
Dipendenza statistica

I Dipendenza statistica: la conoscenza della modalità di una delle due


variabili migliora la “previsione” della modalità dell’altra
I In questo caso che distribuzione doppia di frequenza ci aspettiamo?
I Possiamo riconoscere qualche particolare disposizione delle frequenze
congiunte nella tabella?
I Si, è facile identificare dalle frequenze congiunte due situazioni:
a. Dipendenza perfetta di Y da X : ad ogni modalità di X è associata
una sola modalità di Y
b. Interdipendenza perfetta tra X e Y : a ogni modalità di una delle due
variabili corrisponde una e una sola modalità dell’altra e viceversa (ha
senso parlarne solo se X e Y hanno lo stesso numero di modalità )
Nota: Nell’analisi della dipendenza si studia come le modalità di una variabile
dipendano da quelle di un’altra, secondo un legame “unidirezionale”; nell’analisi
dell’interdipendenza invece si assume che le due variabili abbiano lo stesso ruolo, e che
i legami tra esse siano bidirezionali
Dipendenza statistica: dipendenza perfetta

I Si ha dipendenza perfetta di Y da X quando ad ogni modalità di X è associata


una sola modalità di Y
I Consideriamo il seguente esempio (fittizio) di dipendenza perfetta: 130 soggetti
sono stati classificati secondo i caratteri X “Zona di residenza” (modalità x1 =NO,
x2 =NE, x3 =C, x4 =S) e Y “Livello di reddito” (y1 =basso, y2 =medio, y3 =alto)

Y
X y1 y2 y3 Totale
x1 43 0 0 43
x2 0 0 15 15
x3 0 0 20 20
x4 0 52 0 52
Totale 43 52 35 130

I In questo caso conoscere quale modalità di X assume una unità statistica


“migliora” la conoscenza sulla modalità della Y
I Es: se una unità assume modalità x2 allora sicuramente assume anche modalità
y3 , ma non è vero il viceversa (se una unità assume modalità y3 non posso
sapere con esattezza che modalità assume per la variabile X )
Dipendenza statistica: interdipendenza perfetta

I Si ha interdipendenza perfetta tra X e Y se ad ogni modalità di una delle due


variabili corrisponde una e una sola modalità dell’altra e viceversa
I Consideriamo il seguente esempio (fittizio) di interdipendenza perfetta: 110
donne sono state classificate secondo i caratteri X “Livello di scolarità raggiunto”
(x1 =elementare, x2 =medio, x3 =superiore) e Y “Livello di scolarità del
compagno” (y1 = elementare, y2 = medio, y3 =superiore)

Y
X y1 y2 y3 Totale
x1 43 0 0 43
x2 0 0 15 15
x3 0 52 0 52
Totale 43 52 15 110

I In questo caso la conoscenza di quale modalità di X si è realizzata migliora la


conoscenza (predizione) sulla modalità di Y e viceversa!
I Es: se una unità assume modalità x2 allora sicuramente assume anche modalità
y3 , se assume modalità y2 allora sicuramente assume anche modalità x3
Indipendenza statistica

I Consideriamo adesso la situazione di indipendenza statistica


I Come già detto, si ha indipendenza statistica quando la conoscenza
della modalità di uno dei due caratteri non migliora la “previsione”
della modalità dell’altro
I Le frequenze congiunte della tabella a doppia entrata assumono dei
valori particolari quando c’è indipendenza
Definizione
Indipendenza statistica: due caratteri X e Y sono indipendenti se le
distribuzioni relative (o percentuali) condizionate sono uguali tra loro e
uguali alla distribuzione relativa (o percentuale) marginale
I Inoltre, dati due caratteri X e Y , si può dimostrare che, se X è
indipendente da Y , allora anche Y è indipendente da X . Quindi,
l’indipendenza statistica è sempre reciproca.
Indipendenza statistica: esempio

I Consideriamo il seguente esempio (fittizio) di indipendenza


statistica: 100 soggetti sono stati classificati secondo i caratteri X
“Zona di residenza” (modalità x1 =NO, x2 =NE, x3 =C, x4 =S) e Y
“Sport preferito” (y1 =sport A, y2 =sport B, y3 =sport C)

Y
X y1 y2 y3 Totale
x1 2 2 6 10
x2 4 4 12 20
x3 6 6 18 30
x4 8 8 24 40
Totale 20 20 60 100

I A prima vista ci accorgiamo solo che non siamo in una situazione di


dipendenza statistica
I Calcolando le distribuzioni condizionate (distribuzioni relative di riga
e di colonna) si verifica se siamo nella situazione di indipendenza
Indipendenza statistica: esempio
I Distribuzione condizionate relative del carattere X rispetto alle
modalità del carattere Y :
Y
X y1 y2 y3 Totale
x1 0.1 0.1 0.1 0.1
x2 0.2 0.2 0.2 0.2
x3 0.3 0.3 0.3 0.3
x4 0.4 0.4 0.4 0.4
Totale 1 1 1 1

I Le distribuzioni relative della variabile X sono uguali per ciascuna


modalità della variabile Y e sono uguali anche alla distribuzione
marginale di X
I In questo caso, la conoscenza su una unità della modalità assunta
dalla X non fornisce nessuna conoscenza sulla modalità assunta per
la variabile Y
I In altre parole questo significa che la zona di residenza (X ) non
di↵erisce in base allo sport favorito (Y )
Indipendenza statistica: esempio
I Distribuzione condizionate relative della variabile Y rispetto alle modalità della
variabile X :

Y
X y1 y2 y3 Totale
x1 0.2 0.2 0.6 1
x2 0.2 0.2 0.6 1
x3 0.2 0.2 0.6 1
x4 0.2 0.2 0.6 1
Totale 0.2 0.2 0.6 1

I Le distribuzioni relative della variabile Y sono uguali per ciascuna modalità della
variabile X e sono uguali anche alla distribuzione marginale di Y
I In questo caso, la conoscenza su una unità della modalità assunta dalla Y non
fornisce nessuna conoscenza sulla modalità assunta per la variabile X
I In altre parole questo significa che la squadra di calcio favorita (Y ) non di↵erisce
in base alla zona di residenza (X )
I Allora, poiché abbiamo mostrato che per i caratteri X e Y le distribuzioni
condizionate di riga, e quindi anche le distribuzioni condizionate di colonna, sono
uguali tra loro, possiamo a↵ermare che i due caratteri sono indipendenti
Frequenze congiunte teoriche in caso di indipendenza

I Esiste una regola generale per capire se le frequenze congiunte di


una tabella a doppia entrata corrispondono alla situazione di
indipendenza statistica?
I Ovvero, esiste una regola generale per capire se le frequenze
congiunte di una tabella a doppia entrata corrispondono a
distribuzioni (relative o percentuali) condizionate (di riga o di
colonna) uguali tra loro e uguali alle distribuzioni marginali?
I La risposta è si
I Frequenze congiunte teoriche in caso di indipendenza tra i caratteri
X e Y : se due caratteri X e Y fossero indipendenti, allora per
frequenze teoriche assolute (nij⇤ ) varrebbero

nij⇤ n.j nij⇤ ni. ni. · n.j


= oppure = ! nij⇤ =
n N n.j N N
| i. {z } | {z }
fijr (cond. Y ) fijc (cond. X )
Indipendenza statistica: esempio
I Verificare che le frequenze congiunte di X e Y riportate di seguito corrispondano
alle frequenze teoriche in caso di indipendenza:

Y
X y1 y2 y3 Totale
x1 2 2 6 10
x2 4 4 12 20
x3 6 6 18 30
x4 8 8 24 40
Totale 20 20 60 100

I n11 = 2 ⇤ =
n11 n1. ·n.1
= 10·20
=2
N 100
I n12 = 2 ⇤ =
n12 n1. ·n.2
= 10·20
=2
N 100
I ...
I n21 = 4 ⇤ =
n21 n2. ·n.1
= 20·20
=4
N 100
I ...
I n43 = 24 ⇤ =
n43 n4. ·n.3
= 40·60
= 24
N 100
I Essendo vero che nij = nij⇤ , i = 1, . . . , 4 e j = 1, . . . , 3 allora X e Y sono
indipendenti
Frequenze congiunte teoriche in caso di indipendenza
I Le frequenza congiunte teoriche nij⇤ hanno gli stessi totali di riga e di
colonna delle frequenze congiunte osservate nij :
k
X k
X
nij⇤ = nij = n.j
i=1 i=1
h
X h
X
nij⇤ = nij = ni.
j=1 j=1

I Dimostrazioni:
k
X k
X k
X k
ni. · n.j n.j n.j X n.j
nij⇤ = = ni. = ni. = · N = n.j
N N N N
i=1 i=1 i=1 i=1
h
X h
X h
X h
ni. · n.j ni. ni. X ni.
nij⇤ = = n.j = n.j = · N = ni.
N N N N
j=1 j=1 j=1 j=1
Analisi dell’associazione tra due caratteri
I Ricapitolando, abbiamo visto come si presentano le frequenze
congiunte della tabella a doppia entrata nel caso di:
I Dipendenza statistica perfetta (o interdipendenza perfetta)
I Indipendenza statistica
I Spesso le frequenze congiunte corrispondono a situazioni intermedie
rispetto a queste due condizioni estreme
I Con un indice che si basa sulle di↵erenze tra le frequenze congiunte
osservate (nij ) e le corrispondenti frequenze teoriche sotto l’ipotesi di
indipendenza (nij⇤ ) è possibile misurare il grado di dipendenza tra le
variabili X e Y
I Ovvero, si identifica se le frequenze sono più vicine alla situazione di
dipendenza perfetta o di indipendenza
I Il grado di associazione (connessione) tra le due variabili sarà tanto
maggiore quanto più le frequenze osservate saranno diverse dalle
frequenze teoriche (cioè quanto più la situazione osservata si
discosta da quella di indipendenza)
Analisi dell’associazione tra due caratteri

I L’indice di associazione è un indice sempre 0:


a. sarà pari a 0 quando la situazione osservata rispecchia esattamente
quella di indipendenza, ovvero quando nij⇤ = nij , 8(i, j)
b. cresce quanto più la situazione osservata si discosta da quella di
indipendenza, cioè quanto più le nij di↵eriscono dalle corrispondenti
nij⇤
c. deve assumere valore massimo quando tra i due caratteri c’è
dipendenza perfetta
L’indice Chi-quadrato ( 2 ) di Pearson
I L’indice 2 è dato dalla somma per ogni incrocio tra le modalità
delle due variabili del rapporto tra il quadrato della di↵erenza tra
frequenze osservate e frequenze teoriche (numeratore) e le frequenze
teoriche (denominatore):
k X
X h
2
(nij nij⇤ )2
=
nij⇤
i=1 j=1

a. L’indice 2 assume il valore 0 nel caso di indipendenza tra i due


caratteri, cioè se nij⇤ = nij , 8(i, j)
b. Cresce all’aumentare delle di↵erenze nij nij⇤
c. Il valore massimo che esso può assumere (nel caso di dipendenza
perfetta) non è fisso, ma dipende sia da N che dal numero di
modalità di X e di Y . Esso è pari a
2
max = N · min[(k 1), (h 1)]

Nota: Poiché X ha k modalità , Y ha h modalità , le frequenze congiunte e, di


conseguenza, i termini della sommatoria del 2 sono sempre k ⇥ h
2
L’indice di Pearson: esempio di indipendenza perfetta

I Verificare che 2 = 0 in caso di indipendenza (si usa i dati fittizi dell’esempio


precedente in cui si è verificato che nij = nij⇤ 8(i, j))

Y
X y1 y2 y3 Totale
x1 2 2 6 10
x2 4 4 12 20
x3 6 6 18 30
x4 8 8 24 40
Totale 20 20 60 100

I Indice 2:

2
k X
X h (n
ij nij⇤ )2 (2 2)2 (2 2)2 (6 6)2 (4 4)2
= = + + + +
i=1 j=1
nij⇤ 2 2 6 4

(24 24)2
+ ... + =0 cvd
24
Nota: In questo caso X ha k = 4 modalità , Y ha h = 3 modalità , quindi le
frequenze congiunte (e i termini della sommatoria del 2 ) sono 4 ⇥ 3 = 12
2
L’indice di Pearson: esempio di dipendenza perfetta
I Verificare che 2 = 2max nel caso di dipendenza perfetta (si usa i dati fittizi di
un esempio precedente in cui si è già verificata la perfetta dipendenza):
I Frequenze osservate nij :

Y
X y1 y2 y3 Totale
x1 43 0 0 43
x2 0 0 15 15
x3 0 0 20 20
x4 0 52 0 52
Totale 43 52 35 130
I Frequenze teoriche nij⇤ :

Y
X y1 y2 y3 Totale
43·43 43·52
x1 130
= 14.2 130
= 17.2 11.6 43
x2 5.0 6.0 4.0 15
x3 6.6 8.0 5.4 20
52·35
x4 17.2 20.8 130
= 14.0 52
Totale 43 52 35 130
2
L’indice di Pearson: esempio di dipendenza perfetta

I Allora:
k X
X h
2
(nij nij⇤ )2 (43 14.2)2 (0 17.2)2 (0 11.6)2
= = + +
nij⇤ 14.2 17.2 11.6
i=1 j=1

(0 5)2 (0 14)2
+ + ... + = 260
5 14
I 2
= N · min(k 1, h 1) = 130 · min(4 1, 3 1) = 130 · 2 = 260
max
I Si è verificato che nel caso di dipendenza perfetta 2 = 2max

Nota: La stessa cosa si verifica nel caso di interdipendenza perfetta


2
L’indice di Pearson: esempio

I Data la distribuzione del Sesso (Y ) rispetto al Titolo di studio (X ), calcolare l’indice 2

Tabella: Distribuzione doppia di frequenza (assoluta) di Sesso e Titolo di studio dei residenti
in Italia di età 25-34 anni, dati in migliaia (Fonte: ISTAT, anno 2013)
Sesso (Y )
Titolo di studio (X ) Maschio Femmina Totale
Elemntari - Nessuno 112 93 205
Licenza Media 1013 770 1783
Diploma 1848 1713 3561
Laurea - Post laurea 639 995 1634
Totale 3612 3571 7185

Tabella: Distribuzione doppia delle frequenze (assolute) teoriche sotto l’ipotesi di


indipendenza dei caratteri Titolo di studio e Sesso
Sesso (Y )
Titolo di studio (X ) Maschio Femmina Totale
Elemntari - Nessuno 103.09 101.91 205
Licenza Media 896.59 886.41 1783
Diploma 1790.66 1770.34 3561
Laurea - Post laurea 821.66 812.34 1634
Totale 3612 3571 7185
2
L’indice di Pearson: esempio

2
k X
X h (n
ij nij⇤ )2
=
i=1 j=1
nij⇤

(112 103.09)2 (93 101.91)2 (1013 896.59)2 (770 886.41)2


= + + +
103.09 101.91 896.59 886.41
(1848 1790.66)2 (1713 1770.34)2 (639 821.66)2 (995 812.34)2
+ + + +
1790.66 1770.34 821.66 812.34
= 117.33

I Il valore dell’indice 2 , essendo > 0, evidenzia la presenza di una relazione tra i


due caratteri (frequenze osservate 6= frequenze teoriche)
I 2
max = N · min(k 1, h 1) = 7158 · min(3; 1) = 7158 · 1 = 7158
I Dunque 0 < 2 < 2 .
max Come si può capire “la forza” della dipendenza tra le
due variabili?
L’indice V di Cramer

I Il valore del 2 dipende dalla numerosità del collettivo analizzato (in


genere, aumenta all’aumentare del collettivo)
I Il valore del 2 dipende anche da k (numero delle modalità di X ) e
da h (numero delle modalità di Y )
I Per ottenere un indice in grado di quantificare la “forza” della
relazione tra le due variabili, che non sia influenzato dalla numerosità
del collettivo, né dal numero delle modalità (k e h), si ricorre ad un
indice normalizzato (indice 2 [0, 1])
I L’indice V di Cramer è dato dalla radice quadrata del rapporto tra
l’indice 2 e il suo massimo valore teorico, 2max
v
s u Pk Ph (nij nij⇤ )2
u
2 t i=1 j=1 nij⇤
V = 2
=
max N · min[(k 1), (h 1)]

I L’indice V di Cramer è sempre compreso tra 0 e 1


L’indice V di Cramer

I V = 0 ) Indipendenza tra le due variabili ( 2 = 0, da cui V = 0)


I V = 1 ) Dipendenza perfetta ( 2 = 2max , da cui V = 1)
I Quindi valori dell’indice V di Cramer vicini a 0 corrispondono a
situazioni di bassa/moderata associazione, valori vicini a 1
corrispondono a situazioni di elevata associazione tra X e Y
I Nell’esempio precedente (Sesso vs Titolo di studio) si ha:
s r
2 117.33
V = 2
= = 0.128
max 7185

I Possiamo a↵ermare che tra il Sesso (Y ) ed il Titolo di studio (X )


esiste un livello di associazione basso
2
L’indice V di Cramer e l’indice

I Si consideri la seguente distribuzione doppia (fittizia) (denominata


a):
Sesso (Y )
X y1 y2 Totale
x1 10 30 40
x2 20 10 30
Totale 30 40 70
I Si consideri la stessa distribuzione ma con le frequenze moltiplicate
per cinque (denominata b)
Sesso (Y )
X y1 y2 Totale
x1 50 150 200
x2 100 50 150
Totale 150 200 350
2
L’indice V di Cramer e l’indice

I Calcolo del 2 per entrambe le distribuzioni (a e b)


I Frequenze teoriche della distribuzione doppia a
Sesso (Y )
X y1 y2 Totale
x1 17.14 22.86 40
x2 12.86 17.14 30
Totale 30 40 70
I Frequenze teoriche della distribuzione doppia b
Sesso (Y )
X y1 y2 Totale
x1 85.71 114.29 200
x2 64.29 85.71 150
Totale 150 200 350
2
L’indice V di Cramer e l’indice

2 (1017.14)2 (30 22.86)2 (20 12.86)2 (10 17.14)2


a = + + + = 12.153
17.14 22.86 12.86 17.14
2 (50 85.71)2 (150 114.29)2 (100 64.29)2 (50 85.71)2
b = + + + = 60.76
85.71 114.29 64.29 85.71

I Confrontando i due risultati è evidente che 2


b = 2
a · 5 (12.153 · 5 = 60.76)
2
L’indice V di Cramer e l’indice

I Calcolo del V di Cramer per entrambe le distribuzioni doppie a e b


I Calcolo 2max :
2
max,a = N · min(k 1, h 1) = 70 · min(1; 1) = 70
2
max,b = N · min(k 1, h 1) = 350 · min(1; 1) = 350

I Calcolo V di Cramer
s r
2 12.153
a
Va = 2
= = 0.417
max,a 70
s r
2
b 60.76
Vb = 2 = = 0.417
max,b 350
2
L’indice V di Cramer e l’indice

I Intuitivamente, moltiplicando tutte le frequenze per una costante


non ci si aspetta un cambio nella relazione tra le due variabili
I Ciò ex confermato dall’indice V di Cramer (che è un numero puro)
I L’indice 2 , invece, presenta valori diversi tra le distribuzioni doppie
a e b poiché è influenzato dalla dimensione del collettivo
I Si rimarca che moltiplicando tutte le frequenze per una costante
allora anche l’indice 2 è moltiplicato per la medesima costante:

Se nijb = nija · c 8(i, j) ) 2


b = 2
a ·c

dove nija indica la frequenza assoluta delle unità con modalità xi , yj


nella distribuzione doppia a
Analisi dell’associazione tra una variabile qualitativa e una
quantitativa

I Disponendo della distribuzione doppia di frequenza di una variabile


qualitativa e una quantitativa, il passo successivo consiste
nell’analizzare il loro livello di associazione
I Esistono due situazioni possibili:
1. Dipendenza in media: le modalità della variabile qualitativa
influiscono sulla media condizionata della variabile quantitativa
2. Indipendenza in media: le modalità della variabile qualitativa non
influiscono sulla media condizionata della variabile quantitativa. Ciò
implica che tutte le medie condizionate sono uguali tra loro e uguali
alla media generale
Media e varianza per distribuzioni doppie

I Si considera il caso di una distribuzione doppia di frequenza di due


variabili X e Y
I Y : variabile quantitativa
I X : variabile qualitativa (o quantitativo discreto)
I Si definisce media condizionata (di Y dato X ):

h
1 X
µY |X =xi = yj nij i = 1, . . . , k
ni.
j=1

I Si definisce varianza condizionata (di Y dato X ):

h
2 1 X
Y |X =xi = (yj µY |X =xi )2 nij i = 1, . . . , k
ni.
j=1

Nota: si ottengono k medie e varianze condizionate


Media e varianza condizionata: esempio

Si consideri la distribuzione doppia di genere e altezza degli studenti del


corso C

Altezza
(140,160] (160,165] (165,170] (170,175] (175,180] (180,210] Tot
Maschio 1 2 9 27 42 43 124
Femmina 29 33 35 12 0 0 109
Tot 30 35 44 39 42 43 233
Media e varianza condizionata: esempio

Per calcolare media e varianza condizionate si utilizza il valore centrale


della classe:

Altezza
150 162.5 167.5 172.5 177.5 195 Tot
Maschio 1 2 9 27 42 43 124
Femmina 29 33 35 12 0 0 109
Tot 30 35 44 39 42 43 233
Media e varianza condizionata: esempio

6
1 X 1
µY |X =M = yj n1j = (150 ⇥ 1 + 162.5 ⇥ 2 + 167.5 ⇥ 9
n1. j=1 124

+ 172.5 ⇥ 27 + 177.5 ⇥ 42 + 195 ⇥ 43) = 181.2903


6
1 X 1
µY |X =F = yj n2j = (150 ⇥ 29 + 162.5 ⇥ 33 + 167.5 ⇥ 35
n2. j=1 109

+ 172.5 ⇥ 12 + 177.5 ⇥ 0 + 195 ⇥ 0) = 161.8807


4
2 1 X 2 1 2 2
Y |X =M = (yj µY |X =M ) n1j = [(150 181.3) 1 + (162.5 181.3) 2
n1. j=1 124
2 2 2 2
+ (167.5 181.3) 9 + (172.5 181.3) 27 + (177.5 181.3) 42 + (195 181.3) 43] = 114.26
4
2 1 X 2 1 2 2
Y |X =F = (yj µY |X =F ) n2j = [(150 161.9) 29 + (162.5 161.9) 33
n2. j=1 109
2 2 2 2
+ (167.5 181.3) 35 + (172.5 181.3) 12 + (177.5 181.3) 0 + (195 181.3) 0] = 60.22
Dipendenza in media

I Dipendenza in media: le modalità della variabile qualitativa


influiscono sulla media condizionata della variabile quantitativa
I Dipendenza perfetta in media: caso limite in cui le medie
condizionate sono diverse tra loro e le varianze condizionate sono
uguali a 0
Dipendenza perfetta in media
Esempio fittizio: 110 individui distribuiti per titolo di studio (X ) e
numero di auto possedute (Y )
Auto possedute (Y )
Titolo di studio (X ) 1 2 5 Totale
Medie 43 0 0 43
Superiori 0 0 15 15
Laurea 0 52 0 52
Totale 43 52 15 110

Le medie di Y condizionate dalla X sono tre, una media condizionata di Y per ogni
modalità della X :
h
1 X 1
µY |X =Medie = yj nij = (1 · 43 + 2 · 0 + 5 · 0) = 1
ni. j=1 43
h
1 X 1
µY |X =Superiori = yj nij = (1 · 0 + 2 · 0 + 5 · 15) = 5
ni. j=1 15
h
1 X 1
µY |X =Laurea = yj nij = (1 · 0 + 2 · 52 + 5 · 0) = 2
ni. j=1 52
Dipendenza perfetta in media

Auto possedute (Y )
Titolo di studio (X ) 1 2 5 Totale
Medie 43 0 0 43
Superiori 0 0 15 15
Laurea 0 52 0 52
Totale 43 52 15 110

Le varianze di Y condizionate dalla X sono tre, una varianza condizionata di Y per


ogni modalità della X :
h
2 1 X 1
Y |X =Medie = (yj µY |X =xi )2 nij = [(1 1)2 · 43 + (2 1)2 · 0 + (5 1)2 · 0] = 0
ni. j=1 43
h
2 1 X 1
Y |X =Sup = (yj µY |X =xi )2 nij = [(1 5)2 · 0 + (2 5)2 · 0 + (5 5)2 · 15] = 0
ni. j=1 15
h
2 1 X 1
Y |X =Laurea = (yj µY |X =xi )2 nij = [(1 2)2 · 0 + (2 2)2 · 52 + (5 2)2 · 0] = 0
ni. j=1 52
Dipendenza perfetta in media

La media e la varianza di Y non condizionata dalla X sono:


h
1 X 1
µy = yj n.j = (1 · 43 + 2 · 52 + 5 · 15) = 2.02
N 110
j=1
h
2 1 X
y = (yj µy )2 n.j
N
j=1
1
= [(1 2.02)2 43 + (2 2.02)2 52 + (5 2.02)2 15] = 1.62
110
p
y = 1.62 = 1.27
Dipendenza perfetta in media

Il numero di auto possedute dipende perfettamente in media dal titolo di


studio, infatti
2
µY |X =Medie = 1 Y |X =Medie =0
2
µY |X =Sup = 5 Y |X =Sup =0
2
µY |X =Laurea = 2 Y |X =Laurea =0
2
µy = 2.02 y = 1.62

Questo è un caso limite!


Inipendenza in media
Esempio fittizio: 108 individui distribuiti per titolo di studio (X ) e
numero di auto possedute (Y )
Auto possedute (Y )
Titolo di studio (X ) 1 2 5 Totale
Medie 10 4 2 16
Superiori 19 5 4 28
Laurea 40 16 8 64
Totale 69 25 14 108

Le medie di Y condizionate dalla X sono tre, una media condizionata di Y per ogni
modalità della X :
h
1 X 1
µY |X =Medie = yj nij = (1 · 10 + 2 · 4 + 5 · 2) = 1.75
ni. j=1 16
h
1 X 1
µY |X =Superiori = yj nij = (1 · 19 + 2 · 5 + 5 · 4) = 1.75
ni. j=1 28
h
1 X 1
µY |X =Laurea = yj nij = (1 · 40 + 2 · 16 + 5 · 8) = 1.75
ni. j=1 64
Indipendenza in media

Auto possedute (Y )
Titolo di studio (X ) 1 2 5 Totale
Medie 10 4 2 16
Superiori 19 5 4 28
Laurea 40 16 8 64
Totale 69 25 14 108

Le varianze di Y condizionate dalla X sono tre, una varianza condizionata di Y per ogni modalità
della X :

h
2 1 X 2 1 2 2 2
Y |X =Medie = (yj µY |X =xi ) nij = [(1 1.75) · 10 + (2 1.75) · 4 + (5 1.75) · 2] = 1.69
ni. j=1 16
h
2 1 X 2 1 2 2 2
Y |X =Sup = (yj µY |X =xi ) nij = [(1 1.75) · 19 + (2 1.75) · 5 + (5 1.75) · 4] = 1.90
ni. j=1 28
h
2 1 X 2 1 2 2 2
Y |X =Laurea = (yj µY |X =xi ) nij = [(1 1.75) · 40 + (2 1.75) · 16 + (5 1.75) · 8] = 1.69
ni. j=1 64
Indipendenza in media

La media e la varianza di Y non condizionata dalla X sono:


h
1 X 1
µy = yj n.j = (1 · 69 + 2 · 25 + 5 · 14) = 1.75
N 108
j=1
h
2 1 X
y = (yj µy )2 n.j
N
j=1
1
= [(1 1.75)2 69 + (2 1.75)2 25 + (5 1.75)2 14] = 1.74
108
p
y = 1.74 = 1.32
Indipendenza in media

Il numero di auto possedute è indipendente in media dal titolo di studio,


infatti
2
µY |X =Medie = 1.75 Y |X =Medie = 1.69
2
µY |X =Sup = 1.75 Y |X =Sup = 1.90
2
µY |X =Laurea = 1.75 Y |X =Laurea = 1.69
2
µy = 1.75 y = 1.74

Le medie condizionate sono uguali tra loro e uguali alla media generale.
Questo è un caso limite!
Associazione tra una variabile qualitativa e una
quantitativa

I Si vuole costruire in indice in grado di misurare il grado di


dipendenza in media di Y da X
I Si vuole che tale indice assuma valore 0 quando c’è indipendenza
I Si vuole che l’indice aumenti all’aumentare della dipendenza in media
I Si vuole che tale indice assuma valore 1 quando c’è una perfetta
dipendenza in media
I Riepilogando per le situazioni limite vale:
I Dipendenze perfetta in media: le varianze condizionate sono pari a 0
I Indipendenza in media: le medie condizionate sono uguali tra loro e
uguali alla media generale
Scomposizione della varianza

La varianza di una variabile quantitativa Y si può scomporre in relazione


alle modalità della variabile qualitativa X :
2 2 2
y = Media(Y |X ) + Media( Y |X )
| {z } | {z }
Varianza delle medie condizionate Media delle varianze condizionate

La varianza di Y può essere espressa come somma tra la varianza delle


medie condizionate e la media delle varianze condizionate
Scomposizione della varianza

Varianza delle medie condizionate (varianza spiegata):


k
2 1 X
Media(Y |X ) = (µY |X =xi µy )2 ni.
N
i=1

Media delle varianze condizionate (varianza residua):


k
2 1 X 2
Media( Y |X ) = Y |X =xi ni.
N
i=1
Il rapporto di correlazione eta-quadro (⌘Y2 |X )

Definizione
Il rapporto di correlazione ⌘Y2 |X è definito come il rapporto tra la varianza
spiegata e la varianza totale:
2
Media(Y |X )
⌘Y2 |X = 2
y

Questo indice rispetta le condizioni desiderate, infatti


I 0  ⌘Y2 |X  1
I ⌘Y2 |X = 1 in caso di dipendenza perfetta in media
I ⌘Y2 |X = 0 in caso di indipendenza
Il rapporto di correlazione ⌘Y2 |X

Calcolo di ⌘Y2 |X nell’esempio fittizio di dipendenza perfetta. Si ricorda che:


2
µY |X =Medie = 1 Y |X =Medie =0
2
µY |X =Sup = 5 Y |X =Sup =0
2
µY |X =Laurea = 2 Y |X =Laurea =0
2
µy = 2.02 y = 1.62

Dunque risulta:
k
2 1 X
Media(Y |X ) = (µY |X =xi µy )2 ni.
N i=1
1
= [(1 2.02)2 43 + (5 2.02)2 15 + (2 2.02)2 52] = 1.62
110
2
Media(Y |X ) 1.62
⌘Y2 |X = 2
= =1 cvd
y 1.62
Il rapporto di correlazione ⌘Y2 |X

Calcolo di ⌘Y2 |X nell’esempio fittizio di indipendenza. Si ricorda che:


2
µY |X =Medie = 1.75 Y |X =Medie = 1.69
2
µY |X =Sup = 1.75 Y |X =Sup = 1.90
2
µY |X =Laurea = 1.75 Y |X =Laurea = 1.69
2
µy = 1.75 y = 1.74

Dunque risulta:
k
2 1 X
Media(Y |X ) = (µY |X =xi µy )2 ni.
N i=1
1
= [(1.75 1.75)2 16 + (1.75 1.75)2 28 + (1.75 1.75)2 64] = 0
108
2
Media(Y |X ) 0
⌘Y2 |X = 2
= =0 cvd
y 1.74
Il rapporto di correlazione ⌘Y2 |X : esempio
Calcolo di ⌘Y2 |X per le variabili genere e altezza

Altezza
150 162.5 167.5 172.5 177.5 195 Tot
Maschio 1 2 9 27 42 43 124
Femmina 29 33 35 12 0 0 109
Tot 30 35 44 39 42 43 233

2
µY |X =M = 181.3 Y |X =M = 114.26
2
µY |X =F = 161.9 Y |X =F = 60.22
2
µy = 172.2 y = 182.78

Dunque risulta:

k
2 1 X 2 1 2 2
Media(Y |X ) = (µY |X =xi µy ) ni. = [(181.3 172.2) 124 + (161.9 172.2) 109] = 93.7
N i=1 233
2
2 Media(Y |X ) 93.7
⌘Y |X = 2
= = 0.513
y 182.78
Il rapporto di correlazione ⌘Y2 |X e l’indice V di Cramer

I A livello algebrico su ogni distribuzione doppia di frequenza si può


calcolare l’indice V di Cramer
I Tuttavia quando una (o entrambe) variabile è quantitativa è più
“corretto” calcolare il rapporto di correlazione ⌘Y2 |X
I Per esempio, nel caso fittizio di indipendenza in media si è visto che
⌘Y2 |X = 0
I Sulla stessa distribuzione di frequenza si ottiene V = 0.05 e
2
= 0.6, ovvero si rileva una debolissima dipendenza. In altri casi
tale discrepanza può essere più marcata
Una nota sulla scomposizione della varianza

Varianza di Y per una distribuzione di frequenza doppia (Y variabile


“colonna”)
h
2 1 X
y = (yj µy )2 n.j
N
j=1

Scomposizione della varianza:


2 2 2
y = Media(Y |X ) + Media( Y |X )
k k
1 X 1 X
= (µY |X =xi µy )2 ni. + 2
Y |X =Xi
N N
i=1 i=1
Una nota sulla scomposizione della varianza

Denominazioni alternativa per le componenti della varianza:

I 2 2
Media(Y |X ) ! varianza spiegata ( Spiegata ), varianza tra gruppi ( 2
Tra
2 2
o Between ), varianza esterna ( Est )

I Media( Y2 |X ) ! varianza residua ( Res


2
), varianza entro i gruppi
2 2 2
( Entro o Within ), varianza interna ( Int )

I 2
y ! varianza, varianza totale
Alternativa per il calcolo di ⌘Y2 |X

Dalla scomposizione della varianza risulta (usando la denominazione


alternativa varianza esterna e interna):
2 2 2 2 2 2
= Est + Int ) Est = Int
2 2 2 2
⌘Y2 |X = Est
2
= 2
Int
=1 Int
2
Analisi dell’associazione tra due variabili quantitative

I Spesso le variabili quantitative assumono molte modalità distinte e


quindi vengono rappresentate da:
I distribuzioni doppie di frequenza per classi
I distribuzioni doppie semplici
I In questo corso si considerano solo due situazioni possibili:
1. Dipendenza lineare: si verifica quando esiste un legame lineare
2. Indipendenza lineare: si verifica quando non esiste un legame lineare
(può esistere un legame di altro tipo)
I Legame lineare: tra le due variabili sussiste una relazione del tipo
Y = a + bX oppure X = c + dY
Analisi dell’associazione tra due variabili quantitative

Rappresentazione della distribuzione di due variabili quantitative:


PRO CONTRO
Doppia per classi Forma concisa Perdita di informazioni
Doppia semplice Informazione completa Non presentabile

I Le variabili quantitative spesso si PRESENTANO in forma di


distribuzione doppia per classi
I Le variabili quantitative spesso si ANALIZZANO in forma di
distribuzione doppia semplice (ovvero utilizzando tutti i dati)
I Detto ciò , ci si focalizza in prima battuta sull’analisi
dell’associazione per dati in forma di distribuzione doppia semplice
I Per completezza nell’ultima parte di questa sezione si estenderanno i
risultati trovati ai dati rappresentati da distribuzioni doppie di
frequenza
Analisi dell’associazione tra due variabili quantitative
Rappresentazione grafica di due variabili quantitative (scatter plot)

X
Analisi dell’associazione tra due variabili quantitative

La distribuzione doppia presentata nel grafico precedente è la seguente:


X 1 1 2 2.5 1 1 2.5 1 2 2 2.5 1.5 1 0.5 0.5 0.5 1.5 1 1.5 1
Y 1 2 1 1.25 1 1.5 1 2.5 2.5 1.5 2 2.5 2 0.5 0.5 2.5 0.5 2.5 0.25 0.5

I Si considerino le variabili scarto xi⇤ = xi µx e yi⇤ = yi µy


I Dato µx = 0.175 e µy = 0.55, si ottiene la nuova distribuzione
X⇤ 0.825 0.825 1.825 2.325 1.175 1.175 2.675 0.825 1.825 1.825 2.675 1.675 1.175 0.675 0.675 0.325 1.325 0.825 1.675 0.825
Y⇤ 0.45 1.45 0.45 0.70 1.55 0.95 1.55 3.05 1.95 2.05 1.45 1.95 2.55 1.05 0.05 1.95 1.05 1.95 0.30 0.05

I Dalla proprietà traslativa risulta µx ⇤ = 0, µy ⇤ = 0

Nota: come si evince dai dati, una distribuzione doppia di frequenza


avrebbe poco senso (sia per X , Y sia per X ⇤ , Y ⇤ )!
Analisi dell’associazione tra due variabili quantitative
Rappresentazione grafica delle variabili scarto X ⇤ e Y ⇤

IV Y⇤ I

X⇤

III II
Analisi dell’associazione tra due variabili quantitative

I Dal grafico precedente si riesce ad identificare quali sono gli scarti


positivi o negativi (concordi) per entrambe le variabili e quali sono
gli scarti discordi
I I punti nel I e nel III quadrante indicano scarti concordi:
I quando xi⇤ = xi µx > 0 ) yi⇤ = yi µy > 0
I quando xi⇤ = xi µx < 0 ) yi⇤ = yi µy < 0
I I punti nel II e nel IV quadrante indicano scarti disconcordi:
I quando xi⇤ = xi µx > 0 ) yi⇤ = yi µy < 0
I quando xi⇤ = xi µx < 0 ) yi⇤ = yi µy > 0
Analisi dell’associazione tra due variabili quantitative

Rappresentazione grafica
delle variabili scarto X ⇤ e Y ⇤

I I punti in rosso indicano


IV Y⇤ I scarti concordi
I I punti in blu indicano
scarti discordi
I In base alla prevalenza
X⇤ di punti concordi o
discordi si identifica il
tipo di relazione tra le
due variabili

III II
Analisi dell’associazione tra due variabili quantitative

I Se c’è una prevalenza di punti concordi


I ) al crescere della variabile X cresce anche la Y , si parla di
concordanza
I Se c’è una prevalenza di punti discordi
I ) al crescere della variabile X la Y diminuisce, si parla di
discordanza
I Un indice che misura la concordanza o la discordanza è la covarianza
Covarianza

Definizione
La covarianza tra due variabili (quantitative) è definita come la media dei
prodotti degli scostamenti delle variabili X e Y dalle rispettive medie
N
1 X
xy = (xi µx )(yi µy )
N
i=1

Ovvero
1
xy = [(x1 µx )(y1 µy )+(x2 µx )(y2 µy )+. . .+(xN µx )(yN µy )]
N
Covarianza

I Quando gli scarti sono concordi risulta


I xi µx > 0 e yi µy > 0 ) (xi µx )(yi µy ) > 0
I xi µx < 0 e yi µy < 0 ) (xi µx )(yi µy ) > 0
I Quando gli scarti sono discordi risulta
I xi µx > 0 e yi µy < 0 ) (xi µx )(yi µy ) < 0
I xi µx < 0 e yi µy > 0 ) (xi µx )(yi µy ) < 0
I Se la somma degli scarti concordi è maggiore di quella degli scarti
discordi, ovvero se c’è una prevalenza degli scarti concordi (se X "
anche Y ") ) xy > 0
I Se la somma degli scarti concordi è minore di quella degli scarti
discordi, ovvero se c’è una prevalenza degli scarti discordi (se X "
allora Y #) ) xy < 0
Covarianza

I Se due variabili sono statisticamente indipendenti la loro covarianza


è 0 (condizione sufficiente)
I Se la covarianza è 0 non è detto che le due variabili siano
indipendenti
I Infatti la covarianza identifica una relazione di tipo lineare
(Y = a + bX ) tra le variabili

PN
Nota: il numeratore della covarianza (cioè i=1 (xi µx )(yi µy )) si
chiama codevianza
Covarianza, esempio

Si consideri la seguente distribuzione doppia (fittizia)

X -1 0 1 2
Y 1 2 2 3

1 1 1
µx = ( 1 + 0 + 1 + 2) = µy = (1 + 2 + 2 + 3) = 2
4 2 4
N
1 X
xy = (xi µx )(yi µy )
N
i=1
1
= [( 1 0.5)(1 2) + (0 0.5)(2 2)
4
3
+ (1 0.5)(2 2) + (2 0.5)(3 2)] =
4
Tra X e Y c’è concordanza ( xy > 0)
Coefficiente di correlazione lineare

Varianza e covarianza per variabili scarto xi⇤ = x µx e yi⇤ = yi µy :


N N N N
1 X ⇤ 1 X 1 X 1 X 1
µx ⇤ = xi = (xi µx ) = xi µx = µx Nµx = 0
N N N N N
i=1 i=1 i=1 i=1
µy ⇤ = 0
N N N
1 X ⇤ 1 X ⇤ 1 X ⇤
x⇤y ⇤ = (xi µx ⇤ )(yi⇤ µy ⇤ ) = (xi 0)(yi⇤ 0) = xi yi ⇤
N N N
i=1 i=1 i=1
N N N
2 1 X ⇤ 1 X ⇤ 1 X ⇤2
x⇤ = (xi µx ⇤ ) 2 = (xi 0)2 = xi
N N N
i=1 i=1 i=1
N
X
1
2
y⇤ = yi⇤2
N
i=1
Coefficiente di correlazione lineare
Disuguaglianza di Cauchy-Schwarz
Teorema
Nello spazio euclideo R2 si ha:

⇣X
N ⌘2 N
X N
X
zi wi  zi2 wi2
i=1 i=1 i=1

Posto zi = xi⇤ e wi = yi⇤ risulta

⇣X
N ⌘2 N
X N
X
xi⇤ yi⇤  xi⇤2 yi⇤2
i=1 i=1 i=1

Che, per quanto visto precedentemente, equivale a


2 2 2
x⇤y ⇤  x⇤ y⇤
Coefficiente di correlazione lineare

Più in generale si può a↵ermare che


2 2 2
xy  x y

visto che la traslazione (es. xi⇤ = xi µx ) non influenza il risultato del


teorema di Cauchy-Schwarz
Dalla relazione sovraesposta risulta
q q
2  2 2
xy x y

x y  xy  x y

poichè la covarianza può assumere valori positivi e negativi


Coefficiente di correlazione lineare

Dalla relazione trovata è facile ottenere un coefficiente normalizzato:

x y  xy  x y
x y xy x y
 
x y x y x y
xy
1 1
x y
Coefficiente di correlazione lineare

Definizione
Il coefficiente di correlazione lineare tra due variabili quantitative X e Y ,
è il rapporto tra la covarianza e il prodotto degli errori standard
xy
rxy = ,
x y

con rxy 2 [ 1, 1].


Nota: il coefficiente di correlazione lineare misura esclusivamente la
relazione di tipo lineare che esiste tra due variabili
Coefficiente di correlazione lineare: esempio
Calcolare il coefficiente di correlazione lineare per la seguente
distribuzione fittizia
X -1 0 1 2
Y 1 2 2 3

xy = 3/4 = 0.75 calcolato precedentemente


r
1
x = [( 1 0.5)2 + (0 0.5)2 + (1 0.5)2 + (2 0.5)2 ]
4
p
= 1.25 = 1.12
r
1
y = [(1 2)2 + (2 2)2 + (2 2)2 + (2 3)2 ]
4
p
= 0.5 = 0.71
xy 0.75
rxy = = = 0.943 relazione lineare positiva fortissima
x y 1.12 · 0.71
Coefficiente di correlazione lineare

I rxy = 1 ) i dati della distribuzione doppia sono allineati su una


retta con pendenza negativa
I rxy = 1 ) i dati della distribuzione doppia sono allineati su una retta
con pendenza positiva
I rxy = 0 ) i dati della distribuzione doppia non sono in relazione
lineare tra loro
I Valori intermedi rappresentano situazioni intermedie!
Coefficiente di correlazione lineare

Perfetta correlazione lineare


positiva I rxy = 1
I In questo caso la
relazione tra le variabili
X e Y è perfettamente
lineare
I I punti, identificati dalle
coppie della
distribuzione doppia
(xi , yi ) giacciono su una
retta inclinata
positivamente
Coefficiente di correlazione lineare

Perfetta correlazione lineare


negativa I rxy = 1
I In questo caso la
relazione tra le variabili
X e Y è perfettamente
lineare
I I punti, identificati dalle
coppie della
distribuzione doppia
(xi , yi ), giacciono su una
retta inclinata
negativamente
Coefficiente di correlazione lineare

Assenza di correlazione
lineare
I rxy = 0
I In questo caso non vi è
relazione tra le variabili
X eY
I I punti identificati dalle
coppie della
distribuzione doppia
(xi , yi ) sono sparsi
Coefficiente di correlazione lineare

Assenza di correlazione
lineare
I rxy = 0
I In questo caso la
relazione tra le variabili
X e Y è di tipo
parabolico e non di tipo
lineare
I I punti identificati dalle
coppie della
distribuzione doppia
(xi , yi ) giacciono su una
parabola
Coefficiente di correlazione lineare: esempio

Vediamo un esempio numerico in cui tra i dati X e Y vi è una perfetta


relazione non lineare
X -2 -1 1 2
Y 8 2 2 8

µx = ( 2 1 + 1 + 2)/4 = 0 µy = (8 + 2 + 2 + 8)/4 = 5
xy = [( 2 0)(8 5) + ( 1 0)(2 5) + (1 0)(2 5) + (2 0)(8 5)]/4 = 0
x 6= 0 y 6= 0
xy 0
rxy = = = 0 relazione lineare assente
x y x y

Tuttavia risulta yi = 2xi2 , esiste una relazione perfetta non lineare!


Formule alternative per il calcolo della covarianza

PN
I xy = 1
N i=1 (xi µx )yi

N N
1 X 1 X
xy = [(xi µx )(yi µy )] = [yi (xi µx ) µy (xi µx )]
N N
i=1 i=1
N N
1 X 1 X
= yi (xi µx ) µy (xi µx )
N N
i=1 i=1
N N N
1 X 1 X 1 X
= yi (xi µx ) µy (xi µx ) = yi (xi µx )
N N N
i=1 i=1 i=1
| {z }
=0

PN
I xy = 1
N i=1 (yi µy )xi (si dimostra in modo analogo)
Formule alternative per il calcolo della covarianza

PN
I xy = 1
N i=1 xi yi µx µy

N N
1 X 1 X
xy = [(xi µx )(yi µy )] = yi (xi µx )
N N
i=1 i=1
N N N
1 X 1 X 1 X
= (yi xi yi µ x ) = yi xi yi µ x
N N N
i=1 i=1 i=1
N N N
1 X 1 X 1 X
= xi yi µx yi = xi yi µx µy
N N N
i=1 i=1 i=1
| {z }
=µy
Coefficiente rxy : esempio
Per gli studenti del corso C sono note le seguenti statistiche della
distribuzione doppia per peso (X ) e altezza (Y ):
PN
I i=1 xi yi = 2679562
I µx = 66.2, µy = 172.5
PN 2 PN 2
I i=1 xi = 1052416, i=1 yi = 6955947
Calcolo di rxy :
N
1 X 1
xy = xi yi µx µy = 2679562 66.2 ⇥ 172.5 = 75.49
N 233
i=1

2 1052416 p
x = Qx2 µ2x = 66.22 = 131.3 ! x = 131.3 = 11.46
233
2 6955947 p
y = Qy2 µ2y = 172.52 = 90.94 ! y = 90.94 = 9.54
233
xy 75.49
rxy = = = 0.69
x y 11.46 ⇥ 9.54
Interpolazione lineare

I Concetto di interpolazione
I Interpolazione lineare con il metodo dei minimi quadrati
I Modello di regressione (cenni)
I In questa parte del corso X e Y sono sempre variabili quantitative
Interpolazione matematica

I Problema tipico: dati N punti di coordinate (xi , yi ), si vuole trovare


l’equazione di una curva che passi esattamente per tutti gli N punti
Interpolazione matematica

I Il metodo più semplici per risolvere il problema esposto è quello di


utilizzare una funzione polinomiale di grado N 1:

y = a0 + a1 x + a2 x 2 + . . . + aN 1x
N 1

I Infatti si ricorda che per N punti passa una e una sola curva
polinomiale di grado N 1

y = a0 + a1 x

y = a0 + a1 x + a2 x 2
Interpolazione matematica

I Considerazione: trovare una curva passante per N punti ha senso


solo se i punti sono pochi
I Se N è grande la funzione interpolante i punti avrà N coefficienti,
che essendo cosı̀ numerosi fanno perdere alla funzione la sua forza
interpretativa della relazione tra X e Y
I Per esempio se N = 1000 allora il polinomio passante per tutti i
punti avrà 1000 coefficienti (a0 , a1 , . . . , a999 ), un numero troppo
elevato per poter dare una interpretazione della relazione tra X e Y
I Se per esempio N = 3 allora il polinomio sarà composto da 3
coefficienti e la funzione risultante sarà di facile lettura poiché si
tratta di una parabola
Interpolazione statistica

I Problema tipico: dati N punti di coordinate (xi , yi ), si vuole trovare


l’equazione di una funzione data che passi “il più vicino possibile” agli
N punti

Interpolazione matematica Interpolazione statistica


Interpolazione statistica

I L’obiettivo dell’interpolazione statistica è quello di determinare i


parametri di una funzione scelta a priori in modo che tale funzione
sia il più vicino possibile ai punti di coordinate (xi , yi )
I Steps per una interpolazione statistica:
1. Farsi una prima idea della relazione esistente tra X e Y ; tale idea può
scaturire osservando uno scatter plot oppure da conoscenze a priori
2. Individuare una funzione appropriata per tale relazione (es. retta,
parabola, iperbole, etc.)
3. Determinare i parametri della funzione in modo che essa sia quanto
più possibile prossima alle osservazioni (xi , yi )
4. Verificare come la funzione si adatta ai dati (quanto è “vicina” alle
osservazioni)
1. Supporre una relazione tra X e Y

I Rappresentare le coppie (xi , yi ) come punti in un piano cartesiano


(scatter plot)
I Verificare nella letteratura scientifica se siano già state identificate
delle relazioni tra le variabili X e Y oggetto di studio
I Avvalersi delle opinioni di esperti del settore scientifico oggetto di
analisi (aziendalisti, economisti, biologi, medici, etc)
I Utilizzare metodi di analisi più complessi che esulano dall’interesse di
questo corso
2. Scelta della funzione

I Deve avere la capacità di descrivere la relazione supposta al punto 1


I Deve essere semplice, ovvero avere pochi parametri; l’aggiunta di
parametri alla funzione migliora l’adattamento ai dati, ma pregiudica
la possibilità di interpretare la relazione tra le variabili
I La funzione più semplice è la retta y = a0 + a1 x o in alternativa
y = a + bx (funzione lineare)
I Esistono alternative alla scelta di una singola funzione che si adatti a
tutti i dati; ciò esula dall’interesse di questo corso
3. Determinazione dei parametri

I Esistono in letteratura scientifica moltissimi metodi per determinare i


parametri di una funzione che deve interpolare (interpolazione
statistica) N dati
I Uno dei metodi più utilizzati è il metodo dei minimi quadrati
I Tale metodo si basa sulla minimizzazione delle distanze al quadrato
tra gli N punti e una funzione data
I Il metodo dei minimi quadrati è spesso denominato con l’acronimo
OLS (dall’inglese Ordinary Least Squares)
Il metodo dei minimi quadrati

I Siano dati N punti di coordinata (xi , yi ) con i = 1, . . . , N


I Tali punti rappresentano N unità statistiche su cui sono state
rilevate le variabili X e Y
I Si consideri una funzione f (x) appropriata a descrivere la relazione
tra X e Y
y = f (x) con parametri a0 , a1 , . . . , ak
I Il metodo dei minimi quadrati consiste nel ricavare i parametri della
funzione f (x) –a0 , . . . , ak – tale che la somma delle distanze al
quadrato tra yi (ordinate empiriche) e funzione (f (xi ), ordinate
teoriche) sia minima:
N
X 2
min yi f (xi )
(a0 ,...,ak )2R
i=1
Il metodo dei minimi quadrati: rappresentazione grafica

= |yi f (xi )|

f (xi )

yi

xi
PN
Obiettivo: minimizzare i=1 (yi f (xi ))2 rispetto ai parametri a0 , . . . , ak
Il metodo dei minimi quadrati

Funzione da minimizzare:
N
X 2
S(a0 , . . . , ak ) = yi f (xi )
i=1

S è una funzione convessa su R, quindi ogni punto critico di S è un


punto di minimo assoluto:
8 @S
< @a0 = 0
>
Condizioni del I ordine: ..
> .
: @S
@ak = 0

Il vettore di parametri â0 , . . . , âk che soddisfa le condizioni del I ordine


identifica quella funzione f (x) che passa “il più vicino possibile” alle N
coppie (xi , yi )
Il metodo dei minimi quadrati

I Metodo dei minimi quadrati per determinare i parametri (a, b) della


funzione lineare f (x) = a + bx
I Funzione da minimizzare:
N
X N
X N
X
S(a, b) = (yi f (xi ))2 = (yi (a + bxi ))2 = (yi a bxi )2
i=1 i=1 i=1

I Condizioni del I ordine:


8 @S 8 PN
< @a = 0 < 2 i=1 (yi a bxi ) = 0
!
: @S : PN
@b = 0 2 i=1 (yi a bxi )xi = 0
Il metodo dei minimi quadrati

La soluzione alle condizioni del I ordine è un minimo assoluto (poiché S è


convessa):
8 PN 8 PN P
< 2 i=1 (yi a bxi ) = 0 < i=1 yi Na b N i=1 xi = 0
!
: P : PN P P
2 Ni=1 (yi a bxi )xi = 0 i=1 yi xi a Ni=1 xi b N 2
i=1 xi = 0

8 PN PN
< Na + b i=1 xi = i=1 yi
! ! In forma matriciale:
: PN PN PN
a i=1 xi + b i=1 xi2 = i=1 yi xi

2 PN 32 3 2 PN 3
N i=1 xi a i=1 yi
!4 54 5=4 5
PN PN 2 PN
i=1 xi i=1 xi
b i=1 yi xi
Il metodo dei minimi quadrati

In forma matriciale compatta il sistema si può scrivere come:

Xp = y

Dove
2 PN 3 2 3 2 PN 3
N i=1 xi a i=1 yi
X=4 5 p=4 5 y=4 5.
PN PN PN
i=1 xi i=1 xi
2 b i=1 yi xi

X è una matrice di costanti note, p è il vettore delle incognite e y è un


vettore di costanti note

Nota: in matematica generalmente si scrive Ax = b, con A e b noti e x


incognito. Nel caso in questione le variabili x e y sono variabili statistiche
e sono valori noti (sono numeri), mentre i parametri a e b (vettore p)
sono le incognite del sistema
Il metodo dei minimi quadrati

I X è una matrice quadrata simmetrica di ordine 2


I rk(X) = 2 poiché |X| =
6 0
I rk(X|y) = rk(X)
I Per il teorema di Rouchè -Capelli poiché rk(X|y) = rk(X) ) il
sistema ammette soluzioni
I Inoltre, essendo rk(X) = 2 ed essendo il numero di equazioni pari a
2 il sistema ammette un’unica soluzione
I La soluzione del sistema è p = X 1 y
Il metodo dei minimi quadrati
Avendo dimostrato che esiste un’unica soluzione si propone di utilizzare
la Regola di Cramer per risolvere il sistema
PN PN
yi xi
Pi=1
N Pi=1
N 2 PN PN PN PN
i=1 yi xi i=1 xi
2
i=1 yi i=1 xi i=1 xi i=1 yi xi
a= PN = PN 2 PN 2
N xi N i=1 xi i=1 xi
PN Pi=1
N 2
i=1 xi i=1 xi

PN
N yi
PN Pi=1
N PN PN PN
i=1 xi i=1 yi xi N i=1 xi yi i=1 xi i=1 yi
b= PN = PN PN 2
N xi N i=1 xi2 i=1 xi
PN Pi=1
N 2
i=1 xi i=1 xi
Il metodo dei minimi quadrati

Dopo alcuni passaggi e sfruttando una proprietà algebrica (che non si


dimostra) dei parametri ottenuti con il metodo dei minimi quadrati, si
ottiene:
1
PN PN
xy (xi µx )(yi µy ) i=1 (xi µx )(yi µy )
b = 2 = N 1i=1 PN = PN
x (x µ ) 2 (x µx ) 2
N i=1 i x i=1 i

a = µy bµx

La proprietà algebrica di cui sopra è la seguente: i parametri a e b di una


retta di equazione y = a + bx ottenuti con il metodo dei minimi quadrati
garantiscono che la retta passi per il punto (µx , µy ) ) µy = a + bµx
Interpolazione lineare: interpretazione dei parametri
I Retta interpolante y = a + bx
I X è detta variabile indipendente
I Y è detta variabile dipendente
I Data una distribuzione doppia di valori (xi , yi ), i = 1, . . . , N con il
metodo dei minimi quadrati si determina il valore dei parametri a e b
I La retta cosı̀ determinata è quella che passa il più vicino possibile a
tutti i punti di coordinate (xi , yi )

X
Interpolazione lineare: interpretazione dei parametri

I Equazione della retta interpolante: y = a + bx


I Interpolazione lineare: f (xi ) = a + bxi = ŷi
I a: intercetta, esprime il valore di Y quando X = 0
I b: coefficiente angolare, misura la variazione di Y quando X
aumenta di una unità
I b > 0 ) xy > 0: relazione lineare positiva ! quando la X " di 1
unità ) la Y " in media di b (e viceversa)
I b < 0 ) xy < 0: relazione lineare negativa ! quando la X " di 1
unità Rightarrow la Y # in media di b (e viceversa)
I b = 0 ) xy = 0: assenza di relazione lineare ! al variare della X la
Y resta costante
I I parametri a e b si interpretano nella unità di misura della Y
Interpolazione lineare: esempio

Si consideri la seguente distribuzione doppia (fittizia) per le variabili


quantitative X e Y :
X 1 3 4 5 8
Y 5 4 7 10 11

Calcolare i parametri della retta interpolante e commentare il risultato


ottenuto
Interpolazione lineare: esempio

xi yi xi µx yi µy (xi µx )(yi µy ) (xi µx )2


1 5 3.2 2.4 7.68 10.24
3 4 1.2 3.4 4.08 1.44
4 7 0.2 0.4 0.08 0.04
5 10 0.8 2.6 2.08 0.64
8 11 3.8 3.6 13.68 14.44
21 37 0.0 0.0 27.60 26.80

Sfruttando i dati riportati nella tabella (con i totali in ultima riga) si ottiene:
I N = 5, µx = 21
5
= 4.2, µy = 37
5
= 7.4
I b= xy
2 =
CODxy
DEVx
= 27.6
26.8
= 1.03
x
I a = µy bµx = 7.4 1.03 · 4.2 = 3.075
I a = 3.07 è il valore assunto dalla variabile Y per x = 0
I b = 1.03 significa che all’aumentare della X di una unità , la Y aumenta
in media di 1.03 unità
Interpolazione lineare: esempio

Rappresentazione grafica

Y y = 3.075 + 1.03x
11
10

5
4

X
1 3 4 5 8
Interpolazione lineare: esempio

Popolazione italiana dall’unità al 2011 (dati


in migliaia). Fonte: ISTAT, Censimenti

Anno Popolazione Rappresentazione grafica dei dati in tabella


1861 26 328
1871 28 151

57
1881 29 791

54
1891 NA

Popolazione Residente in Italia (Milioni)

51
1901 33 778

48
1911 36 921

42
1921 37 856

39
1931 41 043

36
1936 42 399

33
10941 NA

27
1961 50 624
1971 54 137

22
1981 56 557 1861 1881 1901 1921 1936 1951 1971 1991 2011

1991 56 778 Anno

2001 58 008
2011 59 434
I Dallo scatter plot si intuisce che la retta costituisce un buon modello
matematico (funzione matematica) per l’evoluzione della
popolazione nel tempo

I Si decide di e↵ettuare una interpolazione lineare per la popolazione


in funzione del tempo

I X : variabile tempo (anno)

I Y : variabile popolazione censita

I Con il metodo dei minimi quadrati si ottiene: a = 448 953 e


b = 254
Interpolazione lineare: esempio
Rappresentazione grafica delle osservazioni e della retta interpolante

59434
Y = -448953 + 254 X

54137
Popolazione Residente in Italia (Migliaia)

47516
39397
32963
27299
22177

1861 1881 1901 1921 1936 1951 1971 1991 2011

Anno
Interpolazione lineare: esempio

Interpretazione dei parametri:


I b = 254: la popolazione è aumentata in media di 254 (migliaia) per
ogni anno della serie storica
I a = 448 953: l’ammontare della popolazione nell’anno 0; come può
essere un valore negativo?!
La popolazione non può mai assumere un valore negativo
I In realtà il modello descrive bene i dati soltanto nella finestra
temporale analizzata (1861-2011)
I Per valori di tempo distanti dalla situazione osservata il modello
rischia di fornire valori sbagliati della Y
I Per casa: provate a traslare la X prendendo come valore 0 il 1861
(es. x1 = 0 (1861), x2 = 10 (1871), . . .) e ricalcolare i parametri a e
b; vedrete che b non cambia mentre a cambia
Interpolazione ed estrapolazione

I L’equazione della retta ottenuta con il metodo dei minimi quadrati


può essere utilizzata anche per prevedere il valore della Y in
corrispondenza di un valore fissato della X
I Esempio: potremmo essere interessati a conoscere l’ammontare della
popolazione nel 1891 (dato mancante) o per un qualsiasi anno per
cui non si hanno informazioni
I ŷ = a + bx, noti i parametri per x = 1891 si trova il valore
interpolato della popolazione in quell’anno

ŷ1891 = 448 953 + 254 · 1891 = 31 366.59

I L’ammontare della popolazione previsto dal modello lineare per il


1891 è 31 366 590 unità
Interpolazione ed estrapolazione

I Interpolazione: quando la previsione della variabile dipendente (Y )


viene fatta per valori della variabile indipendente (X ) compresi
nell’intervallo dei valori osservati; previsione per x = x0 , se
x0 2 [min(x), max(x)] ) Interpolazione

I Estrapolazione: quando la previsione della variabile dipendente (Y )


viene fatta per valori della variabile indipendente (X ) non compresi
nell’intervallo dei valori osservati; previsione per x = x0 , se
x0 2
/ [min(x), max(x)] ) Estrapolazione
I L’estrapolazione è un’operazione rischiosa! Senza dati non è possibile
avere un’idea di quali relazioni vi siano oltre i confini dell’intervallo
dei valori della variabile dipendente X
I La capacità previsionale di un modello e dei relativi rischi
nell’interpretare i risultati ottenuti esula da questo corso (ed è un
campo di ricerca attivo in tantissimi settori)
Interpolazione ed estrapolazione

Interpolazione Estrapolazione
Y Y
ŷ = f (x0 )

11 11
10 10
ŷ = f (x0 )

7 7

5 5
4 4

1 3 4 5 x0 8
X 1 3 4 5 8 x0
X
min(x) max(x) min(x) max(x)
4. Bontà di adattamento

Riepiloghiamo gli steps per una interpolazione statistica:


1. Individuare la relazione esistente tra X e Y (scatter plot o
conoscenze a priori)
2. Individuare una funzione appropriata per tale relazione (es. retta,
parabola, iperbole, etc.)
3. Determinare i parametri della funzione in modo che essa sia quanto
più possibile prossima alle osservazioni (xi , yi )
4. Verificare come la funzione si adatta ai dati (quanto è “vicina” alle
osservazioni), cioè verificare la bontà di adattamento
4. Bontà di adattamento

Si consideri la situazione rappresenta dai due grafici seguenti:


I Scatter plot di
Y = 4,9 + 0,4X
5
distribuzioni doppie
8 10

distinte caratterizzate
Y

6
4

dalla stessa retta


2

0 2 4 6 8 10 interpolante
X
I Nel grafico in alto i punti
sono distanti dalla retta
Y = 4,9 + 0,5X
(alta variabilità della Y |X )
9

I Nel grafico in basso i


8
Y

7
6

punti sono molto vicini


5

0 2 4 6 8 10
alla retta (bassa variabilità
X
della Y |X )
4. Bontà di adattamento
Per costruire un indice che misuri la bontà di adattamento si consideri la
seguente scomposizione per ogni osservazione di coordinata xi , yi :

yi µy = (ŷi µy ) + (yi ŷi )

yi

yi yˆi
ŷi
yˆi µy
µy

X
4. Bontà di adattamento

Dato yi µy = (ŷi µy ) + (yi ŷi )


I (yi µy ): è lo scarto (dalla media) i-esimo
I (ŷi µy ): parte dello scarto “spiegato” dalla retta
I (yi ŷi ) = ei : parte dello scarto “non spiegato” dalla retta
I ŷi = f (xi ) = a + bxi
I Dalla scomposizione dello scarto è possibile dimostrare che
N N N
1 X 1 X 1 X
(yi µy ) 2 = (ŷi µy ) 2 + (yi ŷi )2
N N N
i=1 i=1 i=1
| {z } | {z } | {z }
2 2 2
y ŷ e
Varianza spiegata Varianza residua
tramite il modello
4. Bontà di adattamento

I Tanto maggiore è la varianza spiegata rispetto alla varianza residua,


tanto migliore sarà l’adattamento della funzione ai punti osservati
I Esistono due situazioni estreme:
I 2
y = 2
ŷ : il modello spiega tutta la varianza di Y
I 2
y = 2
e: tra i dati non esiste una relazione spiegata dal modello
I Si desidera costruire un indice normalizzato che vari tra le due
situazioni limite
4. Bontà di adattamento: Indice di Determinazione Lineare

Definizione
Siano (xi , yi ), i = 1, . . . , N le coppie di valori di una distribuzione doppia
e siano µx e µy le medie di X e Y . Sia yˆi = f (xi ) il valore della funzione
interpolante f (x) nel punto xi . Una misura della bontà di adattamento
della funzione f (x) ai dati osservati (xi , yi ) è data dall’Indice di
Determinazione Lineare:
1
PN 1
PN
2 N i=1 (ŷi µy ) 2 N i=1 (yi ŷi )2
R = 1 PN =1 1
P N
N i=1 (yi µy ) 2 N i=1 (yi µy ) 2
2 2
ŷ e
R2 = 2
=1 2
y y
4. Bontà di adattamento: Indice di Determinazione Lineare

I R 2 = 0: assenza di relazione espressa da f (x)


I R 2 = 1: perfetta dipendenza di Y da X , i punti giacciono sulla
funzione f (x)
I Quanto più R 2 si avvicina a 1 tanto più la funzione f (x) si adatta
bene ai dati
Indice di determinazione lineare: esempio

I Calcolare R 2 sui dati fittizi usati nell’esempio dell’interpolazione lineare


I Si ricorda che y = 3.07 + 1.03x

xi yi ŷi (yi µy ) 2 (ŷi µy )2


1 5 4.1 5.76 10.86
3 4 6.16 11.56 1.53
4 7 7.19 0.16 0.04
5 10 8.22 6.76 0.68
8 11 11.31 12.96 15.31
21 37 37.2 28.42

I ŷi = 3.07 + 1.03xi , es. ŷ1 = 3.07 + 1.03 · 1 = 4.10


PN PN
1 µy )2 µy )2
I R2 = N
1 Pi=1
N
(ŷi
= Pi=1
N (y
(ŷi
= 28.42
= 0.764
N i=1
(yi µy )2 i=1 i
µy )2 37.2
Indice di determinazione lineare: interpretazione

I Si è visto che R 2 misura la bontà di adattamento della funzione


interpolante ai dati
I Si è visto che R 2 è il rapporto tra la varianza della Y spiegata dalla
funzione interpolante e la varianza totale della Y
I Ciò implica che R 2 esprime la frazione di variabilità della Y spiegata
dalla funzione interpolante
I Dunque, R 2 è la frazione di variabilità di Y spiegata dalla variabilità
di X tramite la funzione f (x)
I Esempio di interpretazione: R 2 = 0.764, significa che il 76.4% della
variabilità di Y è spiegata tramite la funzione y = 3.07 + 1.03x,
ovvero il 76.4% della variabilità di Y dipende dalla variabilità della X
tramite la funzione y = a + bx
I Ciò indica un ottimo adattamento della funzione ai dati
Formula alternativa per R 2

Ricordando che:
I µy = a + bµx (a, b calcolati con il metodo dei minimi quadrati sono
tali che la retta passa per il punto (µx , µy ))
I ŷi = a + bxi

1
PN PN
2 N i=1 (ŷi µy ) 2 + bxi (a + bµx ))2
i=1 (a
R = 1
PN = P N
N i=1 (yi µy ) 2 i=1 (yi µy ) 2
PN PN 2 PN 2
(a + bxi a bµx )2 i=1 b(xi µx ) i=1 b (xi µx ) 2
= i=1PN = P N
= P N
i=1 (yi µy ) 2 i=1 (yi µy ) 2 i=1 (yi µy ) 2
P N P N
b2 (xi µx )2 b2 1 (xi µx )2 b2 2
= PN i=1 = 1NPNi=1 = 2x
i=1 (yi µy ) 2 N i=1 (yi µy ) 2 y
Relazione tra R 2 e rxy

I Solamente nel caso lineare (y = a + bx) vale R 2 = rxy 2

I Dimostrazione (si sfrutta la formulazione alternativa di R 2


dimostrata in precedenza):
⇣ ⌘2
1
PN 2 xy 2
i=1 (ŷi µy ) b 2 x2 2 x
R2 = N
1
PN = 2
= x
2
N i=1 (yi µy ) 2 y y
2 2
xy
4
2
x
xy
2
2 ⇣ ⌘2
x x xy xy 2
= 2
= 2
= 2 2
= = rxy cvd
y y x y x y

I Solo nel caso lineare da rxy ricavo R 2 ! rxy


2
= R2
p
I ATTENZIONE: da R 2 non posso ricavare rxy ! R 2 6= rxy
Relazione tra coefficiente angolare, rxy e R 2

I Si consideri la retta interpolante y = a + bx


I Si consideri anche la retta interpolante x = c + dy
I Dal metodo dei minimi quadrati risulta b = xy2 e d = xy
2
x y

I Il coefficiente di correlazione lineare (rxy ) è pari alla media


geometrica dei coefficienti angolari b e d
s
p r 2
xy xy xy xy
b·d = 2
· 2 = 2 2
= = rxy
x y x y x y

2
I E’ inoltre evidente che b · d = xy
2 2
2
= rxy = R 2 (solo nel caso lineare)
x y
Interpolazione e rxy per distribuzioni doppie di frequenze
I Si consideri il caso in cui i dati di due variabili quantitative siano
disponibili solo sotto forma di distribuzione doppia di frequenza
I Per ottenere rxy e i parametri della retta a e b è necessario calcolare
medie, varianze e covarianza
I Il calcolo di medie e varianze per una distribuzione doppia di
frequenza è già stato a↵rontato
I E’ necessario fornire una formulazione per la covarianza nel caso di
distribuzioni doppie di frequenza
I Siano X e Y due variabili quantitative rispettivamente con k e h
modalità (o classi), la covarianza è :
k h
1 XX
xy = (xi µx )(yj µy )nij
N
i=1 j=1

Nota: in caso di distribuzione doppia di frequenza per classi xi e yj sono


il valore centrale della classe i esima e j esima
Covarianza per una distribuzione doppia di frequenza

Distribuzione di frequenza per classi di peso e altezza degli studenti del


corso C

(40,50] (50,70] (70,90] (90,120] Tot


(140,160] 10 19 1 0 30
(160,170] 15 57 7 0 79
(170,180] 0 46 34 1 81
(180,210] 0 10 30 3 43
Tot 25 132 72 4 233

I Dato che le modalità sono espresse in classi si utilizza il valore


centrale per calcolare medie, varianze e covarianza
Covarianza per una distribuzione doppia di frequenza
45 60 80 105 Tot
150 10 19 1 0 30
165 15 57 7 0 79
175 0 46 34 1 81
195 0 10 30 3 43
Tot 25 132 72 4 233

I µx = 1
(150 ⇥ 30 + 165 ⇥ 79 + 175 ⇥ 81 + 195 ⇥ 43) = 172.1
233
I µy = 1
(45 ⇥ 25 + 60 ⇥ 132 + 80 ⇥ 72 + 105 ⇥ 4) = 65.3
233
Pk Ph
I Covarianza: xy = 1
i=1 j=1 (xi µx )(yj µy )nij
N

1 ⇥
xy = (150 172.1)(45 65.3)10 + (150 172.1)(60 65.3)19 + (150 172.1)(80 65.3)1
233
+ (150 172.1)(105 65.3)0 + (165 172.1)(45 65.3)15 + (165 172.1)(60 65.3)57
+ (165 172.1)(80 65.3)7 + (165 172.1)(105 65.3)0 + (175 172.1)(45 65.3)0
+ (175 172.1)(60 65.3)46 + (175 172.1)(80 65.3)34 + (175 172.1)(105 65.3)1
+ (195 172.1)(45 65.3)0 + (195 172.1)(60 65.3)10

+ (195 172.1)(80 65.3)30 + (195 172.1)(105 65.3)3 = 96.3
Interpolazione lineare: esempio

Dataset: voto al diploma, età , voto all’esame di economia aziendale 1 e matematica generale di
10 studenti del corso C scelti a caso tra coloro che hanno sostenuto entrambi gli esami

Voto diploma Eta Aziendale1 Matematica


12 80 19 25 27
223 86 20 18 18
32 100 19 22 20
130 100 43 24 26
116 100 19 18 19
135 90 19 24 27
156 100 19 29 30
103 90 21 24 18
27 90 19 24 30
58 100 19 29 30

I Variabile dipendente Y : Aziendale1


I Variabile indipendente X : Voto diploma
Interpolazione lineare: esempio

Step 1: Relazione tra X e Y

29

25
Aziendale1

24

22

18

80 85 90 95 100
Voto diploma

Figura: Scatter plot di Voto al diploma e voto ad Aziendale 1 per gli studenti del
croso C che hanno passato sia Aziendale sia Matematica
Interpolazione lineare: esempio

Step 2: Scelta della funzione


I Il grafico non suggerisce una relazione funzionale evidente tra i dati
osservati
I In questi casi si possono provare diverse funzioni e vedere quale
fornisce risultati migliori
I Bisogna tenere presente che all’aumentare del grado della funzione
interpolante aumenta il valore di R 2 (salvo casi particolari) ! infatti
nel caso di un polinomio di grado N 1 passante per N punti si
ottiene R 2 = 1
I E’ necessario un equilibrio tra grado/complessità della funzione e
bontà di adattamento (R 2 )
I Per questa applicazione come esempio si sceglie di usare la funzione
lineare y = a + bx
Interpolazione lineare: esempio
Step 3: Determinare i parametri della funzione

xi yi xi µx yi µy (xi µx )(yi µy ) (xi µx ) 2 (yi µy ) 2


80 25 -13.6 1.3 -17.68 184.96 1.69
86 18 -7.6 -5.7 43.32 57.76 32.49
100 22 6.4 -1.7 -10.88 40.96 2.89
100 24 6.4 0.3 1.92 40.96 0.09
100 18 6.4 -5.7 -36.48 40.96 32.49
90 24 -3.6 0.3 -1.08 12.96 0.09
100 29 6.4 5.3 33.92 40.96 28.09
90 24 -3.6 0.3 -1.08 12.96 0.09
90 24 -3.6 0.3 -1.08 12.96 0.09
100 29 6.4 5.3 33.92 40.96 28.09
936 237 0.0 0.0 44.80 486.40 126.10

I µx = 93.6, µy = 23.7
I b= CODxy
= 44.8
= 0.092,a = µy bµx = 23.7 (0.092) ⇥ 93.6 = 15.08
DEVx 486.4
Interpolazione lineare: esempio

Step 4: misurare la bontà di adattamento


I R 2 = rxy
2

I rxy = xy
=p
CODxy
= p 44.8
= 0.18
x y DEVx DEVy 486.4 ⇥ 126.1

I rxy
2
= 0.182 = 0.03 = R 2

I X : voto diploma, Y : voto


27.5
aziendale 1
Voto aziendale 1

25.0
I y = 15.079 + 0.092x
22.5
I R 2 = 0.03: tramite la
20.0 funzione lineare la variabile
17.5
X spiega il 3% della
80 85 90 95 100
Voto diploma variabilità della Y
Interpolazione lineare: esempio

Relazione tra voto al diploma e voto di aziendale 1 per tutti gli studenti
che hanno passato entrambi gli esami del primo semestre (R 2 = 10.6%)

30.0

27.5
Voto aziendale 1

Genere
25.0
Maschio

22.5 Femmina

20.0

17.5
60 70 80 90 100
Voto al diploma
La matrice varianza-covarianza

I Quando per un dato collettivo si sono misurate alcune variabili


quantitative è possibile costruire una matrice che riporta varianza e
covarianza di tutte le variabili
I Questa matrice avrà nella posizione ij la covarianza tra la variabile
i-esima e la j-esima; sulla diagonale principale, posizione ii, ci
saranno dunque le varianze (si ricorda che xx = x2 )
I Per esempio, se X , Y , Z e W sono variabili quantitative, si può
costruire la seguente matrice di varianza-covarianza:
X Y Z W
2
X x xy xz xw
2
Y yx y yz yw
2
Z zx zy z zw
2
W wx wy wz w
La matrice delle correlazioni lineari

I A partire dalla matrice varianza-covarianza è immediata la


costruzione della matrice delle correlazioni lineari
I Questa matrice avrà nella posizione ij la correlazione lineare tra la
variabile i-esima e la j-esima; sulla diagonale principale, posizione ii,
avremo il valore 1 (è facile dimostrare che rxx = 1)
I Per esempio, se X , Y , Z e W sono variabili quantitative, la matrice
delle correlazioni lineari è :
X Y Z W
X 1 rxy rxz rxw
Y ryx 1 ryz ryw
Z rzx rzy 1 rzw
W rwx rwy rwz 1
La matrice delle correlazioni lineari: esempio

Variabili: altezza, peso, voto diploma, voto matematica, voto aziendale


Altezza Peso Diploma Matematica Aziendale
Altezza 1.000 0.672 0.053 0.056 0.242
Peso 0.672 1.000 0.064 -0.068 0.010
Diploma 0.053 0.064 1.000 0.284 0.326
Matematica 0.056 -0.068 0.284 1.000 0.485
Aziendale 0.242 0.010 0.326 0.485 1.000
Interpolazione e Regressione

I Quando lo scopo principale dell’interpolazione è quello di stimare la


relazione tra la variabile dipendente (Y ) e la variabile indipendente (X )
allora questo processo di stima è denominato regressione
I Se si vuole stimare Y mediante X per mezzo di una certa equazione, tale
equazione verrà indicata equazione di regressione di Y in X
I La corrispondente rappresentazione grafica, assumerà la denominazione di
curva (o retta) di regressione di Y in X
I Se l’equazione cercata è un’equazione di primo grado, allora siamo di
fronte alla regressione lineare o del primo ordine
I La relazione tra le variabili Y ed X nella regressione lineare si esprime nel
modo seguente
yi = a + bxi + ei

Nota: la regressione è uno strumento proprio dell’inferenza statistica e non verrà


trattato sotto questo aspetto in questo corso. Per chiarimenti sull’interpolazione
riferirsi al testo F. Giusti, “Introduzione alla Statistica”, Loescher, 1995

Potrebbero piacerti anche