Il 0% ha trovato utile questo documento (0 voti)

336 visualizzazioni328 pagine

Descrittiva 2021

Il documento fornisce informazioni sul corso di Statistica tenuto dal Prof. Stefano Marchetti presso l'Università di Pisa. Vengono descritte le modalità di svolgimento dell'esame, i testi di riferimento e gli esercizi disponibili per la preparazione.

Caricato da

Alessandro Luchetti

Per noi i diritti sui contenuti sono una cosa seria. Se sospetti che questo contenuto sia tuo, rivendicalo qui.

Formati disponibili

Scarica in formato PDF, TXT o leggi online su Scribd

Il 0% ha trovato utile questo documento (0 voti)

336 visualizzazioni328 pagine

Descrittiva 2021

Caricato da

Alessandro Luchetti

Per noi i diritti sui contenuti sono una cosa seria. Se sospetti che questo contenuto sia tuo, rivendicalo qui.

Formati disponibili

Scarica in formato PDF, TXT o leggi online su Scribd

Statistica

Corso C
Anno accademico 2020/21

Prof. Stefano Marchetti

Dipartimento di Economia e Management, Università di Pisa

Informazioni sul corso

I Docente: Stefano Marchetti, email [Link]@[Link]

I Ricevimento prenotabile da link presente su e-learning
I Portale di e-learning:
I Sezione: Corsi di Laurea (Triennali) – Primo Anno e Mezzo Comune
I Corso: Statistica 2020/21 – Corso C
I Testo di riferimento per l’esame: Simone Borra e Agostino Di
Ciaccio, Statistica III edizione – metodologie per le scienze
economiche e sociali, Ed. McGraw–Hill Education (Italy)
I Testo per approfondimenti: Domenico Piccolo, Statistica – Ed. Il
Mulino
I Esercizi per prepararsi alla prova scritta:
I Compiti svolti disponibili sulla piattaforma e-learning
I Esercizi svolti disponibili sulla piattaforma e-learning
I Esercizi presenti sul testo di riferimento
Informazioni sul corso

Modalità di svolgimento dell’esame

I L’esame è orale (come da regolamento di Ateneo per gli esami a
distanza)
I Si accede all’orale tramite un test (a distanza) a risposta chiusa
I Il primo appello è strutturato su due prove: un test in itinere (6-10
aprile) e un test di completamento (fine maggio)
I Le prova in itinere sarà formata da due parti: esercizi e teoria
I Chi supera la prova in itinere - ottenendo la sufficienza su esercizi e
teoria - può accedere alla prova di completamento
I Chi supera la prova di completamento sosterrà un breve colloquio
orale relativo solo agli argomenti del completamento
Informazioni sul corso

Sperimentazione “Diario di Studio”

I Obiettivi della sperimentazione
I Monitorare il proprio studio nel tempo con lo scopo di passare l’esame
I Capire quanto e quando studiano gli studenti per la preparazione
dell’esame
I Per gli studenti del corso C sarà obbligatorio tenere il diario
I Al momento il diario è una web app (accessibile da qualunque
browser, anche mobile) in cui dovete inserire le lezioni seguite e le
ore di studio relative all’insegnamento di Statistica
Informazioni sul corso

Per rendere il corso più coinvolgente gli studenti sono “invitati” a

rispondere (anomimamente) ad un questionario seguendo il link presente
su e-learning (Questionario iniziale - Statistica corso C)
I Altri dati potranno essere comunque usati durante il corso
Informazioni sul corso: tutoraggio

Tutors:
I To be defined
Nozioni preliminari

Nozioni preliminari
Introduzione
Caratteri (o variabili) statistici
Distribuzioni di frequenza
Rappresentazioni grafiche
Medie e variabilità

Le medie
Medie analitiche
Medie di posizione

Variabilità
Definizione di variabilità
Variabilità rispetto ad un valore medio
Variabilità rispetto alle osservazioni
Associazione tra due variabili

L’associazione tra due variabili

Distribuzioni doppie di frequenza
Associazione tra due variabili qualitative
Associazione tra una variabile qualitativa e una quantitativa
Associazione tra due variabili quantitative

Interpolazione lineare
Schema del corso
Statistica – corso C 2013 - 2014

STATISTICA
I Parte Concetti generali II Parte

Dati di Dati campionari

popolazione
Statistica
Statistica Inferenziale
Descrittiva

Seconda parte
Distribuzioni di Relazioni tra 2 del corso
frequenza Medie Variabilità variabili

Aritmetica, Moda, Mediana, Quantitative Qualitative

Varianza, CV Qualitativa e
Geometrica, Quantili quantitativa
Quadratica,
Armonica
Interpolazione e
correlazione Indice di
connessione (V)
lineare Indice di
correlazione di
Pearson (!)

5
Parte I

Nozioni preliminari
Perché è utile conoscere la statistica

I Leggendo un giornale (anche sportivo) si incontra inevitabilmente la

statistica
I Viviamo nell’era dei dati, essi sono costantemente prodotti da
ognuno di noi tramite social networks, gps, acquisti digitali,
navigazione su internet, etc
I La statistica ci fornisce strumenti rigorosi per l’analisi dei dati e la
corretta interpretazione dei risultati
I Se i dati sono raccolti correttamente allora essi tramite le statistiche
possono aiutare a capire i problemi e/o a prendere decisioni
consapevoli
I La statistica può aiutare a sostenere o confutare una teoria o un’idea
La statistica per un economista e una persona “comune”

I Per un economista: la statistica fornisce gli strumenti indispensabili

per analizzare, misurare e interpretare i fenomeni economici, sia a
livello sociale che aziendale
I Per chiunque: aiuta a filtrare e recepire in modo critico l’enorme
mole di dati che ci vengono costantemente comunicati attraverso i
mezzi di informazione

Accade di frequente (molto più di quanto si pensi) che tali dati

vengano comunicati in modo parziale o inesatto al fine di far credere
una cosa diversa da ciò che in realtà significano

La manipolazione e l’uso scorretto (strumentale) dell’informazione è

una pratica comune in politica, economia, pubblicità e non solo...
Definizione formale di statistica

La statistica è la materia che si occupa della raccolta dei dati e

della loro elaborazione a fini conoscitivi per quanto riguarda le
caratteristiche della variabile su quella popolazione statistica
o per quanto riguarda le relazioni tra variabili

La statistica trasforma le informazioni in conoscenza

Definizione (in)formale di statistica

I In pratica la statistica è una disciplina di carattere metodologico che

ha per oggetto l’analisi dei fenomeni collettivi dotati di variabilità
I Un fenomeno collettivo è un fenomeno il cui studio riguarda una
pluralità di soggetti o oggetti detti unità statistiche
I Esempi:
I il motivo della presenza di turisti in una certa località
I il grado di soddisfazione degli utenti di un’azienda rispetto al servizio
erogato
I il reddito e il consumo delle famiglie italiane
I il numero dei tifosi di una certa squadra di clacio
Esempi: Tasso di occupazione (Eurostat)

55
Esempi: Tasso di occupazione femminile (Eurostat)
Esempi: Costo dell’energia al consumatore
Esempi: Produzione energia solare
Concetti generali

I Unità statistiche: unità elementari omogenee che costituiscono

l’oggetto di osservazione e di analisi
I Esempi:
I individui (clienti di un albergo, turisti, studenti, dipendenti di
un’azienda, ecc...)
I oggetti (automobili, aziende, prodotti di consumo, ecc...)
I aggregati territoriali (stati, regioni, province, comuni, altro ancora)
I unità temporali (anni, mesi, giorni, altro ancora)
Caratteri (o variabili) statistici

I Sono caratteristiche delle unità analizzate che vengono rilevate (cioè

osservate) e studiate in relazione ad un determinato fenomeno
I Esempi di caratteri rilevabili se l’unità statistica è un individuo:
I statura, stato civile, cittadinanza, peso, colore dei capelli, età ,
reddito percepito, etc
I Esempi di caratteri rilevabili se l’unità statistica è una azienda:
I numero di dipendenti, fatturato, utile netto, ragione sociale, settore
di attività , etc
Modalità dei caratteri (o variabili) statistici

I Modalità : valori o attributi specifici che può assumere un carattere

su un’unità statistica
Le modalità devono essere:
I Esaustive: devono rappresentare tutti i possibili modi in cui si
manifesta il carattere
I Non sovrapposte: ad ogni unità statistica si può associare una sola
modalità
Quando su una unità statistica si rileva un carattere che assume quindi
una certa modalità siamo in presenza di un dato statistico
Modalità dei caratteri (o variabili) statistici

Esempio di unità statistiche, caratteri (o variabili o mutabili) e dati

statistici:
Genere Eta Diploma Matematica
Femmina 19 ITC 30
Femmina 19 ITC 30
Femmina 19 ITC 18
Femmina 19 LA 19
Femmina 21 LS Non superato
Classificazione delle variabili (o caratteri) statistici

Le variabili statistiche possono essere

I qualitative: se la variabile presenta modalità non numeriche
I sconnesse (o nominali): le modalità non si possono ordinare
I ordinate: le modalità presentano un ordine logico
I quantitative: se la variabile presenta modalità numeriche
I discrete: scaturiscono da un conteggio
I continue: scaturiscono da una misurazione
Nota: nella pratica statistica, la classificazione tra variabili discrete e
continue non è rigida. Talvolta alcune variabili continue sono trattate
come discrete e viceversa.
Classificazione delle variabili (o caratteri) statistici

Tabella: Esempio della classificazione di alcune variabili statistiche

Variabile Modalità Tipologia della variabile

Genere M,F,M . . . qualitativa nominale
Età 19,19,20 . . . quantitativa discreta
Diploma LS,LC,ITC . . . qualitativa nominale
Matematica 18,24,Non superato . . . qualitativa ordinata
Aziendale I Non superato, 30, 19 . . . qualitativa ordinata
Voto diploma 80,75,73 . . . quantitativa discreta
Le frequenze

I Frequenza assoluta (ni ): numero di volte in cui la i-esima modalità

di una variabile viene osservata nel collettivo
I Frequenza relativa (fi ): frazione di volte in cui la i-esima modalità di
una variabile viene osservata nel collettivo
I Frequenza percentuale (pi ): percentuale di volte in cui la i-esima
modalità di una variabile viene osservata nel collettivo
Posto N la numerosità del collettivo risulta evidente che
ni
fi = ; pi = fi · 100
N
Distribuzione di una variabile statistica

Distribuzione di frequenza assoluta

Funzione che associa alla modalità di una variabile, sia essa
quantitativa o qualitativa, le corrispondenti frequenze assolute
osservate in un collettivo statistico

Distribuzione di frequenza relativa (o percentuale)

Funzione che associa alla modalità di una variabile, sia essa
quantitativa o qualitativa, le corrispondenti frequenze relative (o
percentuali) osservate in un collettivo statistico
Distribuzione di una variabile statistica

Tabella: Distribuzione di frequenza della variabile Diploma

ni fi
LC 16 0.069
LS 68 0.292
LA 36 0.155
ITC 82 0.352
ITA 22 0.094
IP 7 0.030
A 2 0.009
- 233 1.000
Distribuzione di una variabile statistica
Frequenza assoluta cumulata
La frequenza assoluta cumulata di una modalità è pari alla som-
ma della frequenza assoluta della modalità considerata con le
frequenze assolute delle modalità precedenti

j
X
Nj = ni = n1 + n2 + . . . + nj
i=1

Frequenza relativa (percentuale) cumulata

La frequenza relativa (percentuale) cumulata di una modalità
è pari alla somma della frequenza relativa (percentuale) della
modalità considerata con le frequenze relative (percentuali) delle
modalità precedenti

j
X j
X
Fj = fi = f1 + f2 + . . . + fj Pj = pi = p1 + p2 + . . . + pj
i=1 i=1
Distribuzione di una variabile statistica

I Le frequenze cumulate hanno senso solo per variabili quantitave o

ordinali

Tabella: Distribuzione di frequenza della popolazione Italiana di età maggiore

15 anni per titolo di studio (valori in migliaia), 2017. Fonte: ISTAT

Titolo di Studio ni fi pi Nj Fj Pj
Lic. Elementare - Nessuno 9238 0.18 18 9238+0=9238 0.18 18
Lic. Media 16 804 0.32 32 16804+9238=26042 0.32+0.18=0.50 32+18=50
Diploma 18 656 0.36 36 18656+26042=44698 0.36+0.50=0.86 36+50=86
Laurea e Post-laurea 7355 0.14 14 7355 + 44698 = 52053 0.14+0.86=1 14+86=100
Totale 52 053 1 100 – – –

I La frequenza assoluta/relativa/percentuale cumulata della modalità i-esima esprime il numero/frazione/percentuale di unità del
collettivo che hanno un valore  al valore della i-esima modalità
I Es. dai valori N3 , F3 , P3 deduciamo rispettivamente che 45720, una frazione di 0.88 di, l’88% degli individui hanno un titolo di
studio di Diploma o inferiore
I Dall’a↵ermazione precedente si deduce anche che 52171-45720, una frazione di 1-0.88 di, il 100-88% degli individui hanno un
titolo di studio migliore del Diploma
Suddivisioni in classi di una variabile quantitativa

I Quando una variabile quantitativa presenta molte modalità distinte

risulta controproducente organizzare i dati con una distribuzione di
frequenza
I In questi casi è utile raggruppare le modalità (i valori) in classi
I Le classi sono intervalli di valori tra loro disgiunti (cioè che non si
sovrappongono). La dimensione dell’intervallo è detta ampiezza della
classe
I Non esiste una regola per fissare il numero di classi, il buonsenso
vuole che siano comprese tra 4 e 20 (ma non è una regola)
I Non è necessario che le classi abbiano la medesima ampiezza e non
vi è una regola per fissare l’ampiezza ottima per ogni classe
I Spesso le classi sono formate in modo da avere la stessa ampiezza
che è pari a: = max(X ) k min(X ) , dove X è la variabile, è
l’ampiezza e k il numero di classi
Suddivisioni in classi di una variabile quantitativa

I Raggruppamento in classi della stessa ampiezza del voto all’esame di

matematica generale (si esclude la modalità “Non sostenuto”)
I Voto esame matematica:
30,30,18,19,22,18,21,27,22,28,30,27,28,26,22,30,19,29,20,20
22,25,22,22,22,28,30,23,25,27,18,23,30,18,18,24,23,30,22,21
24,27,21,22,25,24,28,30,28,19,26,23,19,30,18,28,18,19,27,21
27,24,18,19,26,23,25,26,18,27,26,26,20,21,21,22,19,24,30,24
18,19,30,21,18,18,21,18,23,30,30,24,18,19,21,18,22,21,24,30
22,20,29,20,30,22,24,18,21,20,24,23,24,18
Suddivisioni in classi di una variabile quantitativa

Tabella: Distribuzione di frequenza (non per classi)

Voto ni

18 17
19 9
20 6
21 11
22 13
23 7
24 11
25 4
26 6
27 7
28 6
29 2
30 15
Tot 114
Suddivisioni in classi di una variabile quantitativa

Posto X variabile Voto a matematica, per la distribuzione in esame

risulta
I min(X ) = 18
I max(X ) = 30 (trascuriamo la lode)
I Si decide di suddividere la variabile in 3 classi di pari ampiezza,
quindi k = 3
I Ampiezza di classe
30 18
= =4
3
I Dunque ogni classe ha ampiezza 4
Suddivisioni in classi di una variabile quantitativa

Esempio

Tabella: Distribuzione di frequenza (per classi)

Voto ni Ni fi Fi
[18 22) 43 43 0.377 0.377
[22 26) 35 78 0.307 0.684
[26 30] 36 114 0.316 1.000
Serie storiche

I In statistica descrittiva, una serie storica si definisce come un insieme

di variabili ordinate rispetto al tempo
I Essa esprime la dinamica di un certo fenomeno nel tempo
I Le serie storiche sono studiate per interpretare un fenomeno,
individuando componenti di trend, ciclicità , stagionalità ,
accidentalità
I Lo studio più avanzato delle serie storiche nell’inferenza statistica
permette anche di cercare di prevedere l’andamento futero di una
serie storica
Serie storiche, esempio

Tabella: Popolazione italiana dall’unità al 2011 (dati in migliaia). Fonte:

ISTAT, Censimenti
Anno Popolazione
1861 26 328
1871 28 151
1881 29 791
1891 NA
1901 33 778
1911 36 921
1921 37 856
1931 41 043
1936 42 399
1941 NA
1951 47 516
1961 50 624
1971 54 137
1981 56 557
1991 56 778
2001 58 008
2011 59 434

Curiosità : nel 1891 il Censimento non fu fatto a causa di difficoltà finanziarie. Il 1941 si commenta da solo...
Micro-dati e dati raggruppati

I dati relativi ad una o più variabili possono trovarsi nelle seguenti forme
I Micro-dati o distribuzione semplice (tutte le variabili, nessuna
perdita di informazione)
I Distribuzione di frequenza (variabili qualitative e quantitative
discrete, nessuna perdita di informazione)
I Distribuzione di frequenza per classi (variabili quantitative continue
e discrete, perdita di informazione)
Nota: la maggior parte dei dati sono rilasciati sotto forma di distribuzioni
di frequenza, è molto raro trovare disponibilità di micro-dati, tuttavia un
cambiamento in questa direzione è in atto
Rappresentazioni grafiche

I Una variabile statistica sia essa in forma “grezza” sia essa in forma di
distribuzione di frequenza può essere rappresentata anche in forma
grafica
I La rappresentazione grafica ha una grande efficacia comunicativa
I Consente una visualizzazione immediata della struttura della
distribuzione
I Agevola il confronto tra più distribuzioni
I Consente di mettere in evidenza i dati anomali (o outlaiers)
I E’ migliore per scopo divulgativi
Elementi di una rappresentazione grafica

I Titolo (e sottotitolo): enuncia la/le variabili di studio, il collettivo di

riferimento, il tempo a cui ci si riferisce e la fonte dei dati; se il
grafico è inserito in un testo o in una slide il titolo va nella didascalia
del grafico
I Etichette degli assi: indicano i valori (modalità ) della/delle variabili
I Legenda: in alcuni casi serve ad identificare i diversi oggetti presenti
nel grafico
I Note (campo opzionale): serve a dare informazioni aggiuntive utili
per la lettura del grafico, talvolta si riporta anche la fonte dei dati
(che può andare anche nel titolo)
Esempi di rappresentazioni grafiche: grafico a barre

120

80
count

0
Maschio Femmina
Genere
Esempi di rappresentazioni grafiche: grafico a barre

30 Genere
count

Maschio
20 Femmina

0
LC LS LA ITC ITA IP A
Diploma
Esempi di rappresentazioni grafiche: grafico a torta
Da evitare (usare il grafico a barre)

Diploma
0
LC
200
1 LS
50 LA
ITC
ITA
150
IP
100
A
count
Esempi di rappresentazioni grafiche: grafico a torta

Cleveland, W. S. (1985) The Elements of Graphing Data. Wadsworth:

Monterey, CA, USA
Data that can be shown by pie charts always can be shown by
a dot chart. This means that judgements of position along a
common scale can be made instead of the less accurate angle
judgements.
(I dati che possono essere rappresentati con un grafico a torta
possono essere sempre rappresentati con un grafico a barre. Ciò
significa che si può valutare una posizione su una scala comune
al posto della valutazione di un angolo, che è meno accurata.)
Questa frase è basata sugli studi di Cleveland e sugli studi degli psicologi
della “percezione”.
Esempi di rappresentazioni grafiche: coordinate polari
Ot

2012 Se No
2013

Ag Di

Lu 0 50 100 150 200 250 Ge

Gi Fe

Mag Mar

Figura: Totale precipitazioni (mm) per il comune di Pisa, anno 2012 e 2013.
Fonte: [Link]
Esempi di rappres. grafiche: istogramma (basi uguali)

30
Frequenza

0
150 160 170 180 190 200
[Link]

Figura: Istogramma dell’altezza degli studenti del corso C

Esempi di rappres. grafiche: istogramma (basi diverse)

0.03
Densita di frequenza

0.02

0.01

0.00
140 160 180 200
[Link]

Figura: Istogramma dell’altezza degli studenti del corso C

Esempi di rappres. grafiche: diagramma a dispersione

100

[Link]

150 160 170 180 190 200

[Link]

Figura: Altezza e peso degli studenti del corso C

Esempi di rappres. grafiche: diagramma a dispersione

100

[Link]

80 Genere
Maschio
Femmina

150 160 170 180 190 200

[Link]

Figura: Altezza e peso degli studenti del corso C

Esempi di rappres. grafiche: diagramma a dispersione

48 51 54 57
Popolazione Residente in Italia (Milioni)

33 36 39 42
27
22

1861 1881 1901 1921 1936 1951 1971 1991 2011

Anno

Figura: Serie storica della popolazione italiana rilevata nei censimenti. Fonte:
ISTAT.
Esempi di rappresentazioni grafiche: cartogramma

Figura:
Rappresentazione del
PIL procapite nominale
per regioni in euro,
anno 2016.
Fonte:Eurostat
Istogramma

L’istogramma è un tipo di rappresentazione grafica moto di↵usa (spesso

è erroneamente scambiata con il grafico a barre)

L’istogramma è un grafico costituito da barre non distanziate, dove ogni

barra possiede un’area proporzionale alla frequenza della classe
I Ogni frequenza della distribuzione viene rappresentata da una barra
(rettangolo)
I Ogni barra ha una base uguale all’ampiezza della classe che
rappresenta
I Le barre sono unite tra loro
I L’area di ogni barra è proporzionale alla frequenza della classe !
l’altezza di ogni barra è proporzionale al rapporto tra frequenza e
ampiezza della classe
Istogramma

I Sia
i = lim. sup. classei lim. inf. classei
l’ampiezza della classe i
I Sia
hi = f i / i

la densità di frequenza della classe i

I La barra (il rettangolo) dell’istogramma relativo alla classe i ha
I Base= i
I Altezza=hi
I Operando in questo modo l’area totale dell’istogramma è pari a 1
Istogramma

Costruzione di un istogramma con basi di diversa ampiezza. Dati di

partenza: classi e frequenza assoluta

Tabella: Distribuzione di frequenza dell’altezza

Altezza ni hi (ni ) fi hi (fi )

(135, 160] 30 1.200000 0.1287554 0.0051502
(160, 165] 35 7.000000 0.1502146 0.0300429
(165, 170] 44 8.800000 0.1888412 0.0377682
(170, 175] 39 7.800000 0.1673820 0.0334764
(175, 180] 42 8.400000 0.1802575 0.0360515
(180, 210] 43 1.433333 0.1845494 0.0061516
Istogramma – ERRATO

Se per disegnare un istogramma come altezze si usassero le frequenze relative, fi (o assolute ni ), otterremmo una figura errata, ovvero
una figura che non rappresenta correttamente la distribuzione della variabile

0.189
0.185
0.18
0.167

0.15

0.129
Frequenza relativa

150 170 190 210

[Link]
Istogramma – CORRETTO

Usando, invece, le densità di frequenza come altezze (hi ) si ottiene una corretta rappresentazione della distribuzione

0.038
0.036
0.033

0.03
Densita di frequenza (relativa)

0.006
0.005

150 170 190 210

[Link]
Rappresentazione grafiche

Per ogni tipo di variabile statistica vi sono rappresentazioni grafiche

idonee. Segue un breve sunto per le rappresentazioni grafiche più di↵use
I Barre: variabile qualitative e quantitative discrete
I Istogramma: variabile quantitativa continue
I Coordinate polari: variabili qualitative o quantitative discrete che
esprimono una ciclicità
I Torta: variabili qualitative o quantitative discrete. Nota: questa
rappresentazione è da evitare, meglio usare il grafico a barre
I Cartogramma: qualunque variabile, da usare quando i dati sono
georiferiti
Nota: nel noto foglio di calcolo “Excel” il grafico a barre è erroneamente chiamato istogramma. Attenzione, l’output NON è un
istogramma!
Parte II

Le medie e la variabilità
Le medie

I Le medie forniscono una sintesi (estrema) di una variabile statistica

I Una media è un singolo valore cui si attribuisce rappresentatività del
fenomeno osservato
Principali medie:
I Medie analitiche ! si usano solo per variabili quantitative
I Aritmetica
I Quadratica
I Geometrica
I Medie di posizione ! si usano per variabili sia quantitative sia
qualitative
I Moda
I Mediana
I Quantili
Le medie analitiche

I La media di un insieme è un qualsiasi valore compreso tra il minimo

e il massimo
I Da ciò si evince che si possono avere molti tipi di medie
I La media è un’invariante, essa è definita come segue:
Definizione
Si può chiamare media di una distribuzione x1 , . . . , xN , rispetto ad una
funzione f (x1 , . . . , xN ), quella quantità ✓ che sostituita alle xi nella
funzione f () lascia invariato il risultato
La media aritmetica

I La media aritmetica rappresenta il baricentro di una distribuzione di

dati
I La media aritmetica è invariate rispetto alla somma:
Definizione
Si definisce media aritmetica di una distribuzione x1 , . . . , xN quel valore µ
tale che, sostituito ai dati, lascia invariata la loro somma

x1 + x2 + . . . + xN = µ + µ + . . . + µ = N · µ

I Dalla definizione segue che

N
x1 + x2 + . . . + xN 1 X
µ= = xi
N N
i=1
La media aritmetica

Commenti sulla notazione

PN
I i=1 xi = x1 + . . . + xN
P
I Il simbolo “ ” significa sommatoria
I E’ un modo compatto per identificare la somma di un insieme di
elementi
P
I Solitamente il simbolo ha come pedice un indice a cui si assegna
un valore e come apice l’estremo valore che assumerà tale indice
P
I Nella scrittura N i=1 i è l’indice che “scorre” da 1 fino ad N
I Tramite questo indice si identificano diversi elementi (per
convenzione recanti in pedice l’indice)
P
I Tutti gli elementi che seguono la scrittura N i=1 devono essere
sommati
La media aritmetica

Esempi sulla notazione

P4
I i=1 xi = x1 + x2 + x3 + x4
P4
I i=1 xi ni = x1 n1 + x2 n2 + x3 n3 + x4 n4
P4
I i=1 i = 1 + 2 + 3 + 4
P4
I i 1 2
i=1 2 = 2 + 2 + 2 + 2
3 4
P4
I i 1 2 3
i=1 xi = x1 + x2 + x3 + x4
4
P4
I i=1 a = a + a + a + a = 4a
P4
I i=3 xi /i = x3 /3 + x4 /4
La media aritmetica

Calcolare la media dell’altezza dei 6 studenti più alti.

I Dati: 202 200 198 195 195 190
N
1 X
µ= xi = (202 + 200 + 198 + 195 + 195 + 190)/6 = 196.67
N
i=1
La media aritmetica per distribuzioni di frequenza

I In caso di distribuzione di frequenza i valori (le modalità ) che

assume la variabile oggetto di studio si ripetono più volte nel
collettivo
I Come noto, in una distribuzione di frequenza le modalità xi si
ripetono ni volte, per i = 1, . . . , k dove k indica il numero delle
modalità
I In questo caso la condizione di invarianza della media diventa

x1 n1 + x2 n2 + . . . + xk nk = µn1 + µn2 + . . . + µnk

I Segue che
Pk
x1 n1 + x2 n2 + . . . + xk nk xi ni
µ= = Pi=1
k
n1 + n2 + . . . + nk i=1 ni
La media aritmetica per distribuzioni di frequenza

Pk
I Posto che per definizione i=1 ni = N segue che
k
1 X
µ= xi ni
N
i=1

I Da cui si ricava facilmente la formulazione basata sulle frequenze

relative
k k k k
1 X X 1 X ni X
µ= xi ni = xi ni = xi = xi fi
N N N
i=1 i=1 i=1 i=1

dato che per definizione fi = ni /N

La media aritmetica per distribuzioni di frequenza

Tabella: Numero di giorni necessari per la traversata da Sydney ad Hobart

dall’imbarcazione vincitrice della regata “Sydney–Hobart” dal 1945 al 2017

Giorni (xi ) Imbarcazioni (ni )

1 7
2 22
3 22
4 13
5 7
6 2
Totale 73
6
1 X 1 · 7 + 2 · 22 + 3 · 22 + 4 · 13 + 5 · 7 + 6 · 2
µ= xi ni = = 2.959
N 73
i=1
La media aritmetica per distribuzioni di frequenza per classi

I Qualora la distribuzione di frequenza abbia i valori raggruppati in

classi non è possibile calcolare esattamente la media aritmetica
I E’ possibile calcolarne una approssimazione utilizzando il valore
centrale di ogni classe
I Il valore centrale di una classe è pari alla semisomma dei valori
estremi della classe (lim. inf classei + i /2)
I L’approssimazione è tanto migliore quanto più piccole sono le classi
e quanto più piccole sono le frequenze in ogni classe
La media aritmetica per distribuzioni di frequenza per classi

Tabella: Altezza degli studenti del corso C

Altezza ni ci
(135, 160] 30 147.5
(160, 165] 35 162.5
(165, 170] 44 167.5
(170, 175] 39 172.5
(175, 180] 42 177.5
(180, 210] 43 195.0
La media aritmetica per distribuzioni di frequenza per classi

I Media dell’altezza calcolata a partire dalla distribuzione di frequenza

per classi (riportata nella slide precedente)
(147.5*30+162.5*35+167.5*44+172.5*39+177.5*42+195*43)/233=171.89

I Media dell’altezza calcolata sui valori della distribuzione (micro-dati)

N
1 X
µ= xi = (158 + 158 + 165 + 175 + ...)/233 = 172.52
N
i=1
La media aritmetica ponderata

I La condizione di invarianza della media aritmetica ponderata è la

stessa della media per distribuzioni di frequenza
I L’unica di↵erenza consiste nel fatto che al posto delle frequenze (ni )
ci sono dei pesi (wi )

x1 w1 + x2 w2 + . . . + xk wk = µw1 + µw2 + . . . + µwk

I Segue che
Pk
x1 w1 + x2 w2 + . . . + xk wk xi wi
µ= = Pi=1
k
w1 + w2 + . . . + wk i=1 wi

I I pesi wi possono assolvere la funzione delle frequenze assolute, ni , o

relative fi ma più in generale servono a considerare l’“importanza”
che ogni modalità apporta alla media
La media aritmetica ponderata. Esempio

Tabella: PIL procapite a parità di potere d’acquisto e popolazione residente per

5 paesi della EU, anno 2015. Fonte: Eurostat

Paese PIL procapite Popolazione

Germany 36 047 81 197 537
France 30 617 66 488 186
Cyprus 23 543 847 008
Luxembourg 77 019 562 958
Netherlands 37 072 16 900 726
Calcolare il PIL procapite medio
La media aritmetica ponderata. Esempio

Calcolare il PIL procapite medio per i 5 paesi considerati nella tabella

precedente
I Metodo ERRATO (media aritmetica semplice)

36047 + 30617 + 23543 + 77019 + 37072

µ= = 40 859.60
5
I Metodo CORRETTO (media aritmetica ponderata)
36047 ⇥ 81197537 + 30617 ⇥ 66488186 + 23543 ⇥ 847008 + 77019 ⇥ 562958 + 37072 ⇥ 16900726
µ =
81197537 + 66488186 + 847008 + 562958 + 16900726
= 34 051.76

Essendo il PIL procapite un valore riferito all’individuo è impensabile dare

al Lussemburgo la stessa importanza (lo stesso peso) di Francia o
Germania. Il peso ideale, in questo caso, è la popolazione residente nel
paese.
Proprietà della media aritmetica

La media aritmetica (semplice o ponderata) gode delle seguenti proprietà

:
1. min(x)  µ  max(x) (internalità )
PN
2. i=1 xi = Nµ (somma dell x pari a N ⇥ µ)
PN
3. i=1 (xi µ) = 0 (somma degli scarti pari a 0)
PN
4. min 2R i=1 (xi )2 ! = µ (min. somma scarti al quadrato)
PH
5. µ = N1 h=1 µh Nh µh media sottoinseime h (associatività )
6. y = a + bx ! µy = a + bµx (omogeneità e tralsatività )
Internalità

Dimostrazione: min(x)  µ  max(x)

I Senza perdita di generalità si ordinano in modo crescente i valori
osservati x1  x2  . . .  xN
I Si ipotizza che tutte le N osservazioni abbiano valore x1 (min(x))
I µ = Nx1 /N = x1
I Possiamo a↵ermare che µ x1
I Analogamente si ipotizza che le N osservazioni abbiano valore xN
(max(x))
I µ = NxN /N = xN
I Possiamo quindi a↵ermare che µ  xN
I Risulta quindi evidente che x1  µ  xN ovvero

min(x)  µ  max(x)
Somma delle osservazioni uguale a N volte µ

PN
Dimostrazione: i=1 xi = Nµ
I Partendo dalla definizione di media aritmetica la dimostrazione è
immediata
N N
1 X X
µ= xi ! Nµ = xi
N
i=1 i=1
Somma degli scarti dalla media uguale a 0

PN
Dimostrazione: i=1 (xi µ) = 0
PN
I Utilizzando la proprietà per cui i=1 xi = Nµ la dimostrazione è
immediata
N
X N
X N
X N
X
(xi µ) = xi µ= xi Nµ = 0
i=1 i=1 i=1 i=1

PN
Nota: i=1 µ = µ + µ + . . . + µ = Nµ
Minimo della somma degli scarti al quadrato

PN
Dimostrazione: min 2R i=1 (xi )2 ! = µ
I Si ha la funzione in (non in x, le x sono costanti numeriche):

N
X
f( )= (xi )2 = (x1 )2 + . . . + (xN )2
i=1

I Un punto 0 2 A si dice di minimo assoluto per f su A se

f ( ) f ( 0) 8 2 A
Minimo della somma degli scarti al quadrato
I Individuazione del punto critico:
I Derivare la funzione f ( ):

N
X
f 0( ) = 2(x1 ) + . . . + ( )2(xN )= 2 (xi )
i=1

I Porre f 0 ( ) = 0
N
X
2 (xi )=0
i=1
N
X
(xi )=0
i=1
N
X N
X
xi =0
i=1 i=1
N
X
xi N =0
i=1
N
1 X
= xi = µ = 0
N i=1
Minimo della somma degli scarti al quadrato

I Determinare tramite lo studio di f 00 ( ) se il punto critico è un

massimo, un minimo, un flesso, nulla
I Si riscriva la derivata prima in forma più conveniente
N
X N
X N
X N
X
f 0( ) = 2 (xi )= 2 xi + 2 = 2 xi + 2N
i=1 i=1 i=1 i=1

I A questo punto la derivata secondo si ottiene immediatamente

f 00 ( ) = 2N N 1 per definizione

I Essendo f 00 ( ) > 0 8 ed essendo la funzione quadratica allora µ è

un punto di minimo assoluto
Associatività

Se un collettivo è diviso in H sottogruppi di numerosità Nh con media

aritmetica µh (h = 1, . . . , H) allora la media aritmetica di tutto il
collettivo, µ, è
H
1 X
µ= µh Nh
N
h=1

Dimostrazione:
PNh
I Sia µh = N1 i=1 xi , allora
h

H H Nh
! H Nh N
1 X 1 X 1 X 1 XX 1 X
µh Nh = xi Nh = xi = xi = µ
N N Nh N N
h=1 h=1 i=1 h=1 i=1 i=1

P H P Nh
Infatti la scrittura h=1 i=1 xi significa sommare le xi in tutto il
gruppo per tutti gli H gruppi, ovvero sommare le xi per tutto il
collettivo
Traslatività e omogeneità

Dimostrazione: y = a + bx ! µy = a + bµx
I Si consideri per ogni osservazione xi la trasformazione yi = a + bxi ,
con a e b costanti note
I Sia µx la media aritmetica relativa alla variabile x e sia µy quella
relativa alla variabile trasformata y . Per definizione risulta:
N N N N
1 X 1 X 1 X 1 X
µy = yi = (a + bxi ) = a+ bxi
N N N N
i=1 i=1 i=1 i=1
N
X
1 1
= Na + b xi = a + bµx
N N
i=1
La media quadratica

I La media quadratica è la radice quadrata della media aritmetica dei

quadrati dei valori dati
I La media quadratica è invariate rispetto alla somma dei quadrati:
Definizione
Si definisce media quadratica “al quadrato” di una distribuzione x1 , . . . , xN
quel valore Q 2 tale che, sostituito ai dati, lascia invariata la somma dei
quadrati

x12 + x22 + . . . + xN2 = Q 2 + Q 2 + . . . + Q 2 = N · Q 2

I Dalla definizione segue che la media quadratica è

r v
u N
2 2 2
x1 + x2 + . . . + xN u1 X
Q= =t xi2
N N
i=1
La media quadratica

Calcolare la media quadratica del peso dei 6 studenti più leggeri.

I Dati: [1] 46 47 47 47 48 48
v
u N
u1 X
Q= t xi2
N
i=1

r
(462 + 472 + 472 + 472 + 482 + 482 )
= = 47.17
6
Osservazione: è sempre vero che µ  Q
La media quadratica ponderata

I La condizione di invarianza della media quadratica ponderata è

x12 w1 + x22 w2 + . . . + xk2 wk = Q 2 w1 + Q 2 w2 + . . . + Q 2 wk

I Dati dei pesi wi , che possono essere anche frequenze assolute o

relative, la media quadratica ponderata è
s v
u Pk
2 2 2
x1 w1 + x2 w2 + . . . + xk wk u xi2 wi
Q= = t Pi=1
k
w1 + w2 + . . . + wk i=1 wi

I Nel caso di distribuzione per classi per il calcolo della media

quadratica si procede in modo analogo a quanto visto per la media
aritmetica
La media geometrica

I La media geometrica è invariate rispetto al prodotto:

Definizione
Si definisce media geometrica di una distribuzione x1 , . . . , xN quel valore
G tale che, sostituito ai dati, lascia invariato il prodotto

x1 · x2 · . . . · xN = G · G · . . . · G = G N

I Dalla definizione segue che la media geometrica è

v
uN
p uY
G = x1 · x2 · . . . · xN = t
N N
xi
i=1

I La media geometrica è definita solo per valori strettamente positivi

(xi > 08i)
La media geometrica

Calcolare la media geometrica del peso dei 6 studenti più leggeri.

I Dati: 46 47 47 47 48 48
v
uN
uY
G= t N
xi
i=1

p
6
= 46 ⇥ 47 ⇥ 47 ⇥ 47 ⇥ 48 ⇥ 48 = 47.16
Osservazione: è sempre vero che G  µ
La media geometrica ponderata

I La condizione di invarianza della media geometrica ponderata è

x1w1 · x2w2 · . . . · xkwk = G w1 · G w2 · . . . · G wk

I Dati dei pesi wi , che possono essere anche frequenze assolute o

relative, la media geometrica ponderata è
v
q u k
Pk uY
G = w1 +w2 +...+wk x1w1 · x2w2 · . . . · xkwk = i=1 wt
i
xiwi
i=1

I Raramente si applica la media geometrica ad una distribuzione per

classi
I Per il calcolo della media geometrica è comodo usare le frequenze
Pk
relative, infatti sostituendo wi con fi e ricordando che i=1 fi = 1 si
Qk
ha G = i=1 xifi
Quale media utilizzare?

I Nella maggioranza dei casi il valore medio corretto è la media

aritmetica poiché spesso si ricerca l’invarianza rispetto alla somma
I Tuttavia non sono rari i casi in cui l’utilizzo della media aritmetica è
errato e bisogna ricorrere ad un tipo di↵erente di media (analitica)
I La media quadratica si utilizza per mettere in evidenza l’esistenza di
valori che si scostano molto dai valori centrali
I La media geometrica si utilizza quando ha senso moltiplicare fra loro
i dati statistici (quando i dati variano in progressione geometrica);
ad esempio per determinare il tasso d’incremento medio
Quale media utilizzare? Quadratica

I Posto che la media quadratica rispetto alle altre medie è la più

influenzata dai valori molto piccoli o molto grandi della distribuzione,
raramente è usata come valore riassuntivo di una distribuzione
I Essa risulterà utile in seguito, quando saranno introdotte le misure di
variabilità
Quale media utilizzare? Geometrica

Esempio in cui è errato usare la media aritmetica ed è corretto usare la

media geometrica
I Un investimento in azioni ha prodotto in 10 anni il seguente
rendimento
Tabella: Sintesi del finanziamento

Tasso (ij ) Tempo (tj ) (anni)

0.25 5
0.18 3
0.06 2
I Calcolare il tasso medio di rendimento
Nota: si ricorda che il montante di una unità monetaria dopo t anni
equivale a (1 + i)t
Quale media utilizzare? Geometrica

I Il montante al termine del decimo anno è dato dal capitale iniziale

moltiplicato i coefficienti di incremento, (1 + i), per ogni anno
dell’investimento

M = C (1 + i1 )(1 + i1 )(1 + i1 )(1 + i1 )(1 + i1 )(1 + i2 )(1 + i2 )(1 + i2 )(1 + i3 )(

= C (1 + i1 )5 (1 + i2 )3 (1 + i3 )2

I Il coefficiente medio di incremento è quel valore che applicato per

tutti e 10 gli anni permette di ottenere il medesimo montante

M = C (1 + imedio )10

I Risulta evidente che il principio di invarianza è rispetto al prodotto

del coefficiente di incremento (1 + i), dunque il tasso d’interesse
medio si ottiene dalla media geometrica dei coefficienti di incremento
Quale media utilizzare? Geometrica

I Il tasso medio si ottiene dalla media geometrica ponderata dei

coefficienti di incremento:
v
u k k
uY X
G= t T
(1 + ij )tj dove T = tj
j=1 j=1
p
= 10
(1 + 0.25)5 · (1 + 0.18)3 · (1 + 0.06)2 = 1.188723

I Il tasso medio dell’investimento è 1.188723 1 = 0.188723 (ovvero

circa il 18.87%)
I “Riprova”: per 1 euro investito dopo 10 anni si ha un montante di
1 · (1 + 0.25)5 · (1 + 0.18)3 · (1 + 0.06)2 = 5.63388 euro. Applicando
il tasso medio per 10 anni ad 1 euro si deve ottenere lo stesso
montante, infatti: 1 · (1 + 0.188723)10 = 5.63388, c.v.d.
Quale media utilizzare? Geometrica

I Se avessi usato la media aritmetica, adeguatamente ponderata, avrei

ottenuto il seguente tasso medio

(0.25 · 5 + 0.18 · 3 + 0.06 · 2)/(5 + 3 + 2) = 0.191

I Applicando tale tasso per 10 anni ad 1 euro si produrrebbe un

montante di 1 · (1 + 0.191)10 = 5.74272 6= 5.63388 (dove 5.63388 è
il valore del montante calcolato correttamente).
I Per un investimento da 1 000 000 di euro commetterei una
sovrastima di 108 836.7 euro: un errore maggiore del 10% rispetto
alla cifra investita!
NOTA: se si calcola la media aritmetica degli ij , oppure degli (1 + ij ) il tasso
medio non cambia. È comunque sbagliato calcolare la media dei tassi con la
media aritmetica.
Relazione tra le medie analitiche

I La relazione tra le medie analitiche è la seguente:

min(x)  G  µ  Q  max(x)

dove vale il segno di eguale solo nel caso in cui i dati siano tutti
eguali fra loro
I Le medie analitiche (ponderate) presentate possono essere
sintetizzate con una formula generale
Pk ! 1r
r
r i=1 xi wi
µ = Pk
i=1 wi

I per r = 1 µr è la media aritmetica (µ)

I per r = 2 µr è la media quadratica (Q)
I per r ! 0 µr tende alla media geometrica (G )
I per r = 1 µr è la media armonica (A) Non trattata nel corso
Le medie di posizione

Si ricorda che le medie di posizione trattate nel corso sono:

I la moda ! qualsiasi tipo di variabile
I la mediana ! variabili quantitative o qualitative ordinate
I i quantili (di cui la mediana è un caso particolare) ! variabili
quantitative o qualitative ordinate
La moda

Definizione di moda per variabili qualitative sconnesse

Definizione
La moda di una variabile qualitativa sconnessa è quella modalità che si
osserva con maggiore frequenza. Se la frequenza maggiore è posseduta
da due o più modalità della variabile allora la moda non esiste
La moda

I Determinare la moda della seguente distribuzione di frequenza

Tabella: Distribuzione di frequenza della variabile Diploma

ni fi
LC 16 0.069
LS 68 0.292
LA 36 0.155
ITC 82 0.352
ITA 22 0.094
IP 7 0.030
A 2 0.009
I La frequenza maggiore è n4 = 82
I Quindi la moda della variabile “Diploma” è ITC
La moda

Definizione di moda per variabili quantitative discrete o qualitative

ordinate
Definizione
La moda di una variabile quantitativa discreta o qualitativa ordinata è
data da ogni valore o modalità interno all’intervallo (min(x); max(x)),
tale che la sua frequenza assoluta n(i) verifichi simultaneamente le
seguenti disuguaglianze:

n(i) > n(i 1) n(i) > n(i+1) ,

dove n(·) indica la frequenza assoluta nella distribuzione ordinata rispetto

alla variabile X
Nota: la moda non può trovarsi all’inizio o al termine della distribuzione
La moda

I Ordinare i valori: x1 , x2 , . . . , xN ! x(1) , x(2) , . . . , x(N)

I I valori possono essere ordinati in modo non decrescente o non
crescente
I Dato l’ordinamento delle osservazioni, in una distribuzione di
frequenze si ottengono le modalità ordinate con le relative frequenze:
x1 , n1 ; x2 , n2 ; . . . , xk , nk ! x(1) , n(1) ; x(2) , n(2) ; . . . , x(k) , n(k)
I Es. x1 = 5, n1 = 10; x2 = 7, n2 = 15; x3 = 2, n3 = 20 ! x(1) =
2, n(1) = 20; x(2) = 5, n(2) = 10; x(3) = 7, n(3) = 15
La moda

I Determinare la/le moda/e della seguente distribuzione di frequenza

(assumendo un ordinamento tra le modalità del titolo si studio)

Tabella: Popolazione Italiana ( 15 anni) per titolo di studio (valori in migliaia),

febbraio 2017. Fonte: ISTAT

Titolo di Studio ni
Lic. Elementare - Nessuno 9238
Lic. Media 16 804
Diploma 18 656
Laurea e Post-laurea 7355
Totale 52 053
I La distribuzione risulta già ordinata, per cui ni ⌘ n(i)
I L’unica frequenza che soddisfa le condizioni n(i) > n(i 1) e
n(i) > n(i+1) è n(3) , infatti n(3) > n(2) e n(3) > n(4)
I Dunque la modalità 3 corrisponde alla moda, Mo = Diploma
La moda

I Determinare la/le moda/e della seguente distribuzione di frequenza

Tabella: Età per gli ultra ottantenni presi tra i 201 individui più ricchi al
mondo, anno 2016 (Forbes)
Età 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 99
ni 3 5 2 3 2 3 4 5 1 2 2 2 1 1 1 1

I La distribuzione è già ordinata (n(i) ⌘ ni )

I La distribuzione oggetto di studio è plurimodale
I Le mode sono Mo = 81, Mo = 83, Mo = 87
I Infatti risulta [n(2) > n(1) ; n(2) > n(3) ], [n(4) > n(3) ; n(4) > n(5) ] etc.
La moda

I Attenzione a non confondere la moda con la frequenza che identifica

la moda. Questo è un errore comune, prestare sempre attenzione
I Controllare che la distribuzione sia ordinata rispetto ai valori di X
I La moda, se esiste, è sempre pari ad una modalità (un valore) della
variabile, mai alla frequenza
I E’ possibile utilizzare le frequenze relative al posto delle frequenze
assolute (non cambia niente)
I La moda può non esistere
I La moda è sempre un valore interno della distribuzione
I L’eccessiva plurimodalità rende non informativo questo tipo di media
La moda

Calcolo approssimativo della moda per variabili quantitative continue o

discrete divise in classi
I Classi di uguale ampiezza: è il valore centrale della classe che
soddisfa le condizioni n(i) > n(i 1) e n(i) > n(i+1)
I Classi di diversa ampiezza: è il valore centrale della classe che
soddisfa le condizioni h(i) > h(i 1) e h(i) > h(i+1) , dove h(i) è la
densità di frequenza della classe i-esima nella distribuzione ordinata
I La classe che soddisfa le condizioni sopra esposte prende il nome di
classe modale
I In entrambi i casi (classi con uguale o diversa ampiezza) la classe
modale non può essere agli estremi della distribuzione
La moda
I Determinare la/le moda/e della distribuzione di frequenza
dell’altezza
Altezza ni hi (ni ) fi hi (fi )
(140, 160] 30 1.500000 0.1287554 0.0064378
(160, 165] 35 7.000000 0.1502146 0.0300429
(165, 170] 44 8.800000 0.1888412 0.0377682
(170, 175] 39 7.800000 0.1673820 0.0334764
(175, 180] 42 8.400000 0.1802575 0.0360515
(180, 210] 43 1.433333 0.1845494 0.0061516
I La distribuzione è ordinata
I Le densità di frequenza di una classe interna che soddisfano le
condizioni h(i) > h(i 1) e h(i) > h(i+1) sono h3 h5
I La/le classe/i modale/i è /sono (165, 170] (175, 180]
I La/le moda/e è /sono banalmente il/i valore/i centrale/i della/e
classe/i mediana/e
La mediana

La mediana è una media di posizione e rappresenta il valore centrale della

distribuzione quando i dati sono ordinati.
Definizione
Siano x(1) , x(2) , . . . , x(N) i valori ordinati in senso non decrescente, si dice
mediana, Me, il valore che bipartisce la distribuzione, ossia il valore non
inferiore a metà dei valori e non superiore all’altra metà
Nota 1: dalla definizione è evidente che la mediana può essere
determinata solo per variabili quantitative o qualitative ordinati
Nota 2: per convenzione, quando il pedice di un valore è tra parentesi
(es. x(8) ) significa che si fa riferimento ad una serie ordinata in senso non
decrescente
La mediana

Come determinare la mediana (Me)

1. Ordinare i valori in modo non decrescente:
x1 , x2 , . . . , xN ! x(1) , x(2) , . . . , x(N)
2-a. N dispari:
Me = x( N+1 )
2

2-b. N pari:
x( N ) + x( N +1)
2 2
Me =
2
La mediana

Determinare la mediana dell’altezza di 7 studenti presi a caso

I Dati: x1 = 168 x2 = 187 x3 = 195 x4 = 171 x5 = 160 x6 = 160
x7 = 174
1 . Ordinare la distribuzione in modo non decrescente: x(1) = 160
x(2) = 160 x(3) = 168 x(4) = 171 x(5) = 174 x(6) = 187 x(7) = 195
2. N = 7 ! dispari

Me = x( N+1 ) = x( 7+1 ) = x(4) = 171

2 2
Interpretazione della mediana

I La mediana è quel valore che divide in due parti uguali una

distribuzione
I Ciò implica che il 50% delle unità della distribuzione considerata ha
un valore della variabile oggetto di studio inferiore o al più uguale
alla mediana
I Analogamente, il 50% delle unità della distribuzione considerata ha
un valore della variabile oggetto di studio maggiore o al più uguale
alla mediana
I La mediana non è influenzata da valori estremi nella distribuzione, si
dice che è una statistica resistente
La mediana per distribuzioni di frequenza

I Anche se la forma di rappresentazione dei dati cambia da

distribuzione semplice a distribuzione di frequenza il metodo per
determinare la mediana non cambia
I La di↵erenza nella determinazione della mediana consiste nel tener
conto delle frequenze per individuare l’osservazione mediana nella
distribuzione ordinata
I Lo strumento ideale sono le frequenze cumulate assolute
I Tramite le frequenze cumulate si individua la modalità
dell’osservazione mediana
I Per le distribuzioni di frequenza per classi occorre fare delle
approssimazioni che approfondiremo nelle prossime slides
La mediana per distribuzioni di frequenza

Determinare la mediana dei giorni impiegati per vincere la regata

Sydney–Hobart data la seguente distribuzione

Tabella: Numero di giorni necessari per la traversata da Sydney ad Hobart

dall’imbarcazione vincitrice della regata “Sydney–Hobart” dal 1945 al 2017

Giorni (xi ) Imbarcazioni (ni )

1 7
2 22
3 22
4 13
5 7
6 2
Totale 73

1. La serie risulta già ordinata

La mediana per distribuzioni di frequenza

2. N = 73 ! dispari, quindi Me = x( N+1 ) = x 73+1 = x(37)

2 2

3. Bisogna trovare la modalità (il valore) della variabile “giorni” per la

37-esima osservazione nella serie ordinata
Giorni (xi ⌘ x(i) ) Imbarcazioni (ni ) Ni
1 7 7
2 22 29
3 22 51
4 13 64
5 7 71
6 2 73
Totale 73 –
4. Dalla frequenza cumulata si evince che le osservazioni dalla 30-esima
alla 51-esima hanno modalità 3, dunque Me = x(37) = 3
Nota: l’estensione al caso di N pari è di immediata comprensione e non verrà fatto un
esempio
La mediana per distribuzioni di frequenza per classi

I Nel caso di distribuzione di frequenza per classi sono necessarie

alcune ipotesi per determinare il valore mediano
I L’individuazione della classe a cui appartiene l’osservazione mediana
avviene in due modi
a. come nel caso di distribuzioni di frequenza (non per classi)
b. utilizzando le frequenze cumulate relative, in cui la mediana è sempre
nella posizione 0.5 (metodo consigliato)
I Individuata la classe mediana si deve trovare un modo per dare un
valore alla mediana all’interno della classe
I Il metodo proposto è quello di ipotizzare che le osservazioni siano
distribuite linearmente all’interno della classe
I In questo modo è possibile determinare un valore per la mediana che
tenga conto sia dell’ampiezza della classe sia del numero di
osservazioni presenti nella classe
La mediana per distribuzioni di frequenza per classi

Approssimazione lineare all’interno della classe mediana per determinare

un valore mediano
I Sia Fi la frequenza cumulata relativa della classe i-esima
I Sia Fm la frequenza cumulata relativa della classe mediana
I Sia Fm 1 la frequenza cumulata relativa della classe precedente la
classe mediana
I Tra le frequenze cumulate relative la mediana è sempre nella
posizione 0.5
I Sia xxm 1 l’estremo inferiore della classe mediana
I Sia xm l’estremo superiore della classe mediana
La mediana per distribuzioni di frequenza per classi

Freq. cum.

B’
Fm
B
0.5
A
Fm-1 H H’

Xm-1 Me Xm X

Figura: Approssimazione lineare per la determinazione della mediana

I I triangoli ABH e AB 0 H 0 sono simili ) AH AH 0

BH
= B0H0
⇣ ⌘
I Dunque Me xm 1
=
xm xm 1
! Me = xm 1 +
0.5 Fm 1
(xm xm 1)
0.5 Fm 1 Fm Fm 1 Fm Fm 1
La mediana per distribuzioni di frequenza per classi

Riepilogo: ✓ ◆
0.5 Fm 1
Me = xm 1+ m
Fm Fm 1

I 0.5 è la posizione centrale nella distribuzione delle frequenze relative

ordinate
I xm 1 è il limite inferiore della classe mediana
I Fm 1 è la frequenza cumulata relativa della classe precedente la
classe mediana
I Fm è la frequenza cumulata relativa della classe mediana
I m = xm xm 1 è l’ampiezza della classe mediana
Nota: l’approssimazione presentata utilizza le frequenze relative.
L’estensione per l’uso delle frequenze assolute è immediata e non verrà
presentata
La mediana per distribuzioni di frequenza per classi

Determinare la mediana della variabile Altezza

Tabella: Distribuzione di frequenza dell’altezza

Altezza ni Ni fi Fi
(135, 160] 30 30 0.1287554 0.1287554
(160, 165] 35 65 0.1502146 0.2789700
(165, 170] 44 109 0.1888412 0.4678112
(170, 175] 39 148 0.1673820 0.6351931
(175, 180] 42 190 0.1802575 0.8154506
(180, 210] 43 233 0.1845494 1.0000000
La mediana per distribuzioni di frequenza per classi

1. Ordinare la distribuzione ! si presenta già ordinata

2. Individuare la classe mediana l’osservazione mediana
a. N = 233! dispari, quindi Me = x( N+1 ) = x(117) Non conoscendo
2
esattamente il valore dell’osservazione mediana si identifica la classe
a cui appartiene e si procede tramite approssimazione lineare alla
determinazione della mediana.
La classe mediana è (170, 175]
b. Nella distribuzione relativa il posto mediano è 0.5.
Dalle frequenze cumulate relative risulta che 0.5 (il posto mediano)
appartiene alla classe (170, 175]
La mediana per distribuzioni di frequenza per classi

3. La mediana dell’altezza è
✓ ◆
0.5 Fm 1
Me = xm 1 + m
Fm Fm 1
✓ ◆
0.5 0.468
= 170 + ⇥ (175 170) = 170.962
0.635 0.468
I Il valore trovato è una approssimazione della vera mediana, che può
essere determinata solo conoscendo tutti i valori che formano la
distribuzione oggetto di studio
I Utilizzando i valori della distribuzione la vera mediana è
Me = x(117) = 173
I Per distribuzioni di frequenza non per classi il calcolo della mediana
è esatto
Proprietà della mediana

I min(x)  Me  max(x)
P
I min 2R N i=1 |xi | ! = Me
I Esiste sempre per variabili quantitative e qualitative ordinali
I quantili

Definizione
Il quantile Qq è quel valore della variabile x che suddivide la distribuzione
in due parti, lasciando a sinistra una frazione q delle osservazioni e a
destra il restante 1 q, con q 2 [0, 1]
Il quantile estende il concetto di mediana ad un qualunque punto della
distribuzione.
Cosı̀ come la mediana (Me) è quel valore che divide in due parti uguali la
distribuzione, il quantile (Qq ) è quel valore che la divide la distribuzione
in due parti di proporzioni q e 1 q
I quantili

Utilizzando alcuni quantili la sintesi della distribuzione risulta molto più precisa rispetto all’utilizzo
di un unico valore centrale
I Quartili:
1. Primo quartile Q0.25 : è quel valore che lascia a sinistra il 25% dei casi e a destra il
75% dei casi
2. Secondo quartile Q0.50 : è quel valore che lascia sia a sinistra sia a destra il 50% dei
casi, quindi Q0.50 = Me
3. Terzo quartile Q0.75 : è quel valore che lascia a sinistra il 75% dei casi e a destra il
25% dei casi
I Decili:
1. Primo decile Q0.10 : è quel valore che lascia a sinistra il 10% dei casi e a destra il 90%
dei casi
2. Secondo decile Q0.20 : è quel valore che lascia a sinistra il 20% dei casi e a destra
l’80% dei casi
.
.
.
5. Quinto decile Q0.50 : è quel valore che lascia sia a sinistra sia a destra il 50% dei casi,
quindi Q0.50 = Me
.
.
.
9. Nono decile Q0.90 : è quel valore che lascia a sinistra il 90% dei casi e a destra il 10%
dei casi
I quantili

Determinazione del quantle Qq , q 2 [0, 1]

1. Ordinare i valori in modo non decrescente:
x1 , x2 , . . . , xN ! x(1) , x(2) , . . . , x(N)
x(qN) +x(qN+1)
2-a. Se qN è intero allora Qq = 2
2-b. Se qN non è intero allora Qq = x(bqNc+1) , dove b · c indica la parte
intera

Nota 1: per le distribuzioni di frequenza si procede come nel caso della

mediana per identificare la modalità corrispondente alla posizione
desiderata ((bqNc) o (bqNc + 1))
Nota 2: per le distribuzioni di frequenza per classi, una volta identificata
la classe a cui appartiene il quantile, si procede alla sua determinazione,
come nel caso della mediana, con una approssimazione lineare
I quantili

Determinare i quartili del voto all’esame di Aziendale 1 di 10 studenti

presi a caso

I Dati: x1 = 18 x2 = 29 x3 = 21 x4 = 22 x5 = 22 x6 =
27 x7 = 18 x8 = 27 x9 = 18 x10 = 18
I quantili

1. Ordinare la distribuzione in modo non decrescente:

x(1) = 18 x(2) = 18 x(3) = 18 x(4) = 18 x(5) = 21 x(6) =
22 x(7) = 22 x(8) = 27 x(9) = 27 x(10) = 29

2. Detrminazione dei quartili: Q0.25 , Q0.50 e Q0.75 (q = 0.25, q = 0.50

e q = 0.75)
a. Q0.25 : qN = 0.25 · 10 = 2.5 ! qN non è intero, quindi
Q0.25 = x(bqNc+1) = x(b2.5c+1) = x(2+1) = x(3) = 18
b. Q0.50 = Me: qN = 0.50 · 10 = 5 ! qN è intero, quindi
x +x x +x
Q0.50 = (qN) 2 (qN+1) = (5) 2 (6) = (21 + 22)/2 = 21.5
c. Q0.75 : qN = 0.75 · 10 = 7.5 ! qN non è intero, quindi
Q0.75 = x(bqNc+1) = x(b7.5c+1) = x(7+1) = x(8) = 27
I quantili

Interpretazione del risultato ottenuto:

a. Il 25% del collettivo analizzato ha un voto  a 18 mentre il restante
75% ha un voto superiore
b. Il 50% del collettivo analizzato ha un voto  a 21.5 mentre il
restante 50% ha un voto superiore
c. Il 75% del collettivo analizzato ha un Patrimonio  a 27 mentre il
restante 25% ha un voto superiore
I quantili per distribuzioni di frequenza

I Anche se la forma di rappresentazione dei dati cambia da

distribuzione semplice a distribuzione di frequenza il metodo per
determinare i quantili non cambia
I La di↵erenza nella determinazione dei quantili consiste nel tener
conto delle frequenze relative per individuare l’osservazione
desiderata nella distribuzione ordinata
I Lo strumento ideale sono le frequenze cumulate assolute
I Tramite le frequenze cumulate si individua la modalità
dell’osservazione desiderata
I Per le distribuzioni di frequenza per classi è immediato estendere ai
quantili la formulazione fornita per la mediana
I quantili per distribuzioni di frequenza

Determinare il primo quartile (q=0.25) e il settimo decile (q=0.7) dei

giorni impiegati per vincere la regata Sydney–Hobart

Tabella: Numero di giorni necessari per la traversata da Sydney ad Hobart

dall’imbarcazione vincitrice della regata “Sydney–Hobart” dal 1945 al 2017

Giorni (xi ) Imbarcazioni (ni )

1 7
2 22
3 22
4 13
5 7
6 2
Totale 73
I quantili per distribuzioni di frequenza

1. La serie risulta già ordinata correttamente

2-a. Q0.25 : qN = 0.25 · 73 = 18.25 ! qN non è intero, quindi

Q0.25 = x(b18.25c+1) = x(19)

2-b. Q0.70 : qN = 0.7 · 73 = 51.1 ! qN non è intero, quindi

Q0.70 = x(b51.1c+1) = x(52)
I quantili per distribuzioni di frequenza

3. Bisogna trovare la modalità (il valore) della variabile “giorni” per la

19-esima e per la 52-esima osservazione nella serie ordinata
Giorni (xi ⌘ x(i) ) Imbarcazioni (ni ) Ni
1 7 7
2 22 29
3 22 51
4 13 64
5 7 71
6 2 73
Totale 73 –
4-a. Dalla frequenza cumulata si evince che le osservazioni dalla 8a alla
29-esima hanno modalità 2, dunque Q0.25 = x(19) = 2
4-b. Dalla frequenza cumulata si evince che le osservazioni dalla 52-esima
alla 64-esima hanno modalità 4, dunque Q0.70 = x(52) = 4
Nota: in generale per fini applicativi bisogna calcolare tutti i quartili o tutti/alcuni
decili e non limitarsi ad un solo quartile e decile!
I quantili per distribuzioni di frequenza per classi
L’approssimazione lineare per un quantile partendo da una distribuzione
di frequenza per classi risulta:
✓ ◆
q Fq 1
Q q = xq 1 + q
Fq Fq 1

I q 2 [0, 1] è la posizione desiderata nella distribuzione delle frequenze

relative ordinate
I xq 1 è il limite inferiore della classe a cui appartiene il quantile
I Fq 1 è la frequenza cumulata relativa della classe precedente la
classe a cui appartiene il quantile
I Fq è la frequenza cumulata relativa della classe a cui appartiene il
quantile
I q = xq xq 1 è l’ampiezza della classe a cui appartiene il quantile
I La classe a cui il quantile appartiene si identifica come nel caso di
distribuzioni di frequenza non per classi
I quantili per distribuzioni di frequenza per classi

Determinare il primo quartile e il quantile 0.35 (detto anche 35-esimo

percentile) della variabile altezza nella seguente distribuzione

Tabella: Distribuzione di frequenza dell’altezza

Altezza ni Ni fi Fi
(135, 160] 30 30 0.1287554 0.1287554
(160, 165] 35 65 0.1502146 0.2789700
(165, 170] 44 109 0.1888412 0.4678112
(170, 175] 39 148 0.1673820 0.6351931
(175, 180] 42 190 0.1802575 0.8154506
(180, 210] 43 233 0.1845494 1.0000000
I quantili per distribuzioni di frequenza per classi

1. Ordinare la distribuzione ! si presenta già ordinata correttamente

2 Per identificare la classe desiderata si usano le frequenze cumulate

relative (Fi ); infatti q esprime la posizione desiderata nella
distribuzione delle frequenze relative.
3 Dalle frequenze relative cumulate si evince
q = 0.25 2 (0.1288, 0.279] e q = 0.35 2 (0.279, 0.4678], le posizioni
relative corrispondenti rispettivamente alle classi (160, 165]e
(165, 170]
I quantili per distribuzioni di frequenza per classi

4. I quantili desiderati si ottengono tramite approssimazione lineare

all’interno delle rispettive classi:
✓ ◆
0.25 Fq 1
Q0.25 = xq 1 + q
Fq Fq 1
✓ ◆
0.25 0.129
= 160 + ⇥ (165 160) = 164.036
0.279 0.129
✓ ◆
0.35 0.279
Q0.35 = 165 + ⇥ (170 165) = 166.881
0.468 0.279
I I valori trovatoi sono una approssimazione di quelli veri, che possono
essere determinati solo conoscendo tutti i valori che formano la
distribuzione oggetto di studio
I Utilizzando tutti i valori della variabile altezza si ha
Q0.25 = x(59) = 165 e Q0.35 = x(82) = 168
I I quantili possono essere determinati in molti modi diversi
La variabilità

I La statistica è una disciplina di carattere metodologico che ha per

oggetto l’analisi dei fenomeni collettivi dotati di variabilità
I Quindi la peculiarità delle variabili statistiche è quella di presentare
modalità (valori) diversi per parte o per tutte le unità del collettivo
I Da questi concetti segue una definizione di variabilità

Definizione
La variabilità è l’attitudine delle variabili ad assumere di↵erenti modalità
La variabilità

Data una variabile x osservata su N unità , x1 , . . . , xN , una funzione

V (x1 , . . . , xN ) degli N dati osservati è una misura di variabilità se
soddisfa i seguenti assiomi:
I V (x1 , . . . , xN ) 0
I V (k, k, . . . , k) = 0
I V (x1 + k, . . . , xN + k) = V (x1 , . . . , xN )
I Se V (x1 , . . . , xN ) aumenta ) aumenta il grado di diversità tra le
modalità della distribuzione
La variabilità

Le misure di variabilità si posso definire:

I rispetto ad un valore caratteristico del fenomeno considerato
(“media”)
I rispetto alle singole osservazioni

Nota: in questo corso sarà trattata solo la variabilità per variabili

quantitative
La varianza

Si considerino le età dei calciatori titolari delle squadre A e B:

A: 25 25 25 25 25 25 25 25 25 25 25
B: 20 21 22 23 24 25 26 27 28 29 30

I µA = 25; MeA = 25
I µB = 25; MeB = 25

Se conoscessimo solo la media aritmetica o la mediana saremmo portati a

pensare che l’età dei giocatori nelle due squadre sia molto simile
L’utilizzo di un valore centrale come unica sintesi di una distribuzione è
fuorviante. E’ quindi necessario affiancarvi un indice di variabilità
La variabilità : il pollo di Trilussa

La leggenda della media di Trilussa nasce dalla poesia La Statistica:

Sai ched’è la statistica? è ’na cosa
che serve pe fa un conto in generale
de la gente che nasce, che sta male,
che more, che va in carcere e che sposa.
Ma pé me la statistica curiosa
è dove c’entra la percentuale,
pé via che, là , la media è sempre eguale
puro co’ la persona bisognosa.
Me spiego: da li conti che se fanno
seconno le statistiche d’adesso
risurta che te tocca un pollo all’anno:
e, se nun entra nelle spese tue,
t’entra ne la statistica lo stesso
perché c’è un antro che ne magna due
(Carlo Alberto Salustri, in arte Trilussa, 1871–1950, La Statistica)
La variabilità : il pollo di Trilussa

I Il componimento di Trilussa non fa altro che a↵ermare che se

qualcuno mangia due polli, e qualcun altro no, in media hanno
mangiato un pollo a testa
I Con questa poesia Trilussa anticipa un tema attuale, vista la
di↵usione dell’informazione statistica per fini di promozione politica,
economica e altro:
I la media è un dato che può essere fuorviante, perchè mal interpretato
I risulta evidente che la media deve essere sempre accompagnata da
un indice di variabilità
La deviazione standard

I L’indice di variabilità da associare alla media aritmetica è la

deviazione standard (o scarto quadratico medio):

Definizione
La deviazione standard di N valori di una variabile X con media
aritmetica µ è
v
u N
u1 X
=t (xi µ)2 per distribuzioni semplici
N
i=1
v
u N
u1 X
=t (xi µ)2 ni per distribuzioni di frequenza
N
i=1

Nota: l’estensione del calcolo della deviazione

qP standard con l’uso di frequenza
N
relative (o percentuali) è immediato = i=1 (xi µ)2 fi
Deviazione standard, varianza e devianza

Definizioni per distribuzioni semplici

q P
I = N1 N i=1 (xi µ)2 è la deviazione standard
P
I 2 = N1 N i=1 (xi µ)2 è la varianza
PN
I DEV = i=1 (xi µ)2 è la devianza

Definizioni per distribuzioni di frequenza

q P qP
I = N1 N i=1 (xi
2
µ) ni =
N
i=1 (xi µ)2 fi è la deviazione
standard
P PN
I 2 = N1 N i=1 (xi µ)2 ni = i=1 (xi µ)2 fi è la varianza
P
I DEV = N i=1 (xi µ)2 ni è la devianza
Deviazione standard, varianza e devianza

Tra deviazione standard, varianza e devianza esiste la seguente relazione

r
p DEV
= 2 =
N
La deviazione standard è pari alla radice quadrata della varianza che a

sua volta è pari alla devianza fratto N

Deviazione standard, varianza e devianza

I La varianza è la media degli scarti al quadrato dalla media aritmetica

I L’unità di misura della varianza è elevata al quadrato rispetto
all’unità di misura della media, al contrario l’unità di misura della
deviazione standard coincide con quella della media
I La varianza e la deviazione standard verificano i requisiti degli indici
di variabilità :
I 0e 2 0
I Se x1 = x2 = . . . = xN = k allora = 0 e 2
=0
I Posto yi = xi + k risulta y = x e y2 = 2
x
Deviazione standard, varianza e devianza

Dimostrazione per cui 0 e 2 0.

P
I Per definizione 2 = N1 N i=1 (xi µ)2 , dunque la varianza è la media
di una somma di quadrati
I Essendo un quadrato un valore sempre 0 risulta evidente che una
somma di quadrati è sempre anch’essa 0
P
I Quindi DEV = N i=1 (xi µ)2 0 ) 2 = DEV /N 0 8 N > 0
p
) = 2 0
Deviazione standard, varianza e devianza

2
Dimostrazione per cui se x1 = x2 = . . . = xN = k allora = 0 e =0
P
I Posto x1 = . . . = xN = k risulta µ = N1 N 1
i=1 k = N Nk = k
P P
I 2 = N1 N i=1 (xi
N
µ)2 = N1 i=1 (k k)2 = 0
p
I Essendo 2 = 0 ) = 0 = 0
Deviazione standard, varianza e devianza

Dimostrazione per cui posto yi = xi + k risulta y = x e y2 = x2

I Essendo yi = xi + k risulta che ⇣P
PN PN N PN ⌘
µy = N1 i=1 yi = N1 i=1 (xi + k) = N1 i=1 xi + i=1 k =
1
P N 1
P N 1
N i=1 xi + N i=1 k = µx + N Nk = µx + k
PN P 2
I DEVy = i=1 (yi µy )2 = N i=1 xi + k (µx + k) =
PN 2 P N
i=1 xi + k µx k = i=1 (xi µx )2 = DEVx
I Essendo DEVy = DEVx risulta y2 = DEVy /N = DEVx /N = x2
q p
I Infine avendo dimostrato che y2 = x2 ) 2
y =
2
x ) y = x
Deviazione standard, varianza e devianza

I Varianza ( 2 ) e devianza (DEV ) non hanno altri appellativi

I la deviazione standard ( ), essendo l’indice di variabilità che si
associa alla media aritmetica, è un indice molto usato e per questo è
noto anche con il nome di:
I Scarto quadratico medio
I Deviazione standard (da non confondersi con la devianza)
I Standard error
I Standard deviation
Deviazione standard

Calcolare media ed deviazione standard del peso di 8 studenti scelti a

caso
I Dati: 61 75 100 68 55 65 58 73
I Media: µ = 69.375 kg

N
2 1 X
= (xi µ)2
N
i=1
1
= [(61 69.375)2 + (75 69.375)2 + (100 69.375)2
8
(68 69.375)2 + (55 69.375)2 + (65 69.375)2
(58 69.375)2 + (73 69.375)2 = 176.2344 kg2
p
= 176.2344 = 13.28 kg
La deviazione standard per distribuzioni di frequenza

Calcolare media e deviazione standard per la seguente distribuzione di

frequenza

Tabella: Numero di giorni necessari per la traversata da Sydney ad Hobart

dall’imbarcazione vincitrice della regata “Sydney–Hobart” dal 1945 al 2017

Giorni (xi ) Imbarcazioni (ni )

1 7
2 22
3 22
4 13
5 7
6 2
Totale 73

µ = 2.959 (calcolata precedentemente)

La deviazione standard per distribuzioni di frequenza

Calcolo della deviazione standard

k
2 1 X
= (xi µ)2 ni
N
i=1
1
= [(1 2.959)2 7 + (2 2.959)2 22 + (3 2.959)2 22
73
+ (4 2.959)2 13 + (5 2.959)2 7 + (6 2.959)2 2] = 1.491
p
= 1.491 = 1.221
La deviazione standard per distribuzioni di frequenza per
classi

Calcolare media ed deviazione standard della seguente distribuzione di

frequenza

Tabella: Altezza degli studenti del corso C

Altezza ni fi ci
(135, 160] 30 0.1287554 147.5
(160, 165] 35 0.1502146 162.5
(165, 170] 44 0.1888412 167.5
(170, 175] 39 0.1673820 172.5
(175, 180] 42 0.1802575 177.5
(180, 210] 43 0.1845494 195.0
La deviazione standard per distribuzioni di frequenza per
classi

I Media: µ = 171.89 (calcolata precedentemente)

I Calcolo della deviazione standard
k
X
2
= (ci µ)2 fi
i=1

= (147.5 171.89)2 0.129 + (162.5 171.89)2 0.15 + (167.5 171.89)2 0.189

+ (172.5 171.89)2 0.167 + (177.5 171.89)2 0.18 + (195 171.89)2 0.185
= 197.7751
p
= 197.7751 = 14.06325

I Come per la media, anche nel calcolo della deviazione standard si

commette un errore di approssimazione dovuto alle classi
I Utilizzando i micro-dati (distribuzione semplice) si ottiene
µ = 172.52 e = 9.52
La deviazione standard: formula alternativa

La deviazione standard si ottiene anche come radice quadrata della

di↵erenza tra i quadrati delle medie quadratica (Q) e aritmetica (µ)

p
= Q2 µ2
La deviazione standard: formula alternativa
p
Dimostrazione per cui = Q2 µ2
p
I Se = Q 2 µ2 ) 2
= Q 2 µ2
PN 2
I Ricordiamo che Q 2 = 1
N i=1 xi

N N
2 1 X 1 X 2
= (xi µ)2 = (xi + µ2 2µxi )
N N
i=1 i=1
N N N
1 X 2 1 X 2 1 X
= xi + µ 2µ xi
N N N
i=1 i=1 i=1

1 ⇣1 X
N ⌘
= Q2 + Nµ2 2µ xi = Q 2 + µ2 2µµ
N N
i=1
= Q 2 + µ2 2µ2 = Q 2 µ 2
La deviazione standard: considerazioni

I La deviazione standard è un indice di variabilità da associare alla

media aritmetica di una distribuzione
I Esso rappresenta uno scostamento medio dei valori della
distribuzione dalla media aritmetica
I Più piccolo è la deviazione standard migliore è il potere di sintesi
della media aritmetica
P
I Poichè la media aritmetica minimizza N i=1 (xi )2 (vedere le
proprietà della media aritmetica) allora la media aritmetica
minimizza anche varianza ed deviazione standard
Confrontare la variabilità

E’ possibile confrontare la variabilità di due variabili statistiche

utilizzando la deviazione standard? NO, infatti:
I la deviazione standard è espresso nell’unità di misura della media,
dunque non si possono confrontare due variabili rilevate con misure
di↵erenti (es. confrontare dollari con euro, o fatturato con numero
di addetti)
I anche per variabili che hanno la stessa unità di misura, la deviazione
standard risente dell’ordine di grandezza della media
Da ciò si deduce che tramite la deviazione standard non è possibile
e↵ettuare un confronto sulla variabilità di due o più distribuzioni
Confrontare la variabilità : coefficiente di variazione

Per confrontare la variabilità di due o più distribuzioni si utilizza il

coefficiente di variazione:
CV =
|µ|

I Il CV ci dice quanto misura rispetto alla media (µ)

I All’aumentare di rispetto a µ, diminuisce la rappresentatività di µ
I Il CV è una misura relativa poiché non risente ne delle unità di
misura ne dell’ordine di grandezza della media
Confrontare la variabilità : coefficiente di variazione

Confrontare la variabilità dei tempi di percorrenza dell’imbarcazione vincitrice

della regata Sydney–Hobart per gli anni dal 1945 al 1949 (x) e gli anni dal
2004 al 2008 (y )
Tempo (min) (1945–1949) (xi ) 9502 7373 7383 6061 7833
Tempo (min) (2004–2008) (yi ) 3840 2560 3412 2724 2674

I µx = 7630.4 µy = 3042
I x = 1107.65 y = 498.51 ! x > y

I CVx = 1107.65
7630.4
= 0.145 CVy = 498.51
3042
= 0.164
I Essendo CVx < CVy i tempi dal 1945 al 1949 sono meno variabili rispetto
ai tempi dal 2004 al 2008 (la x è meno variabile della y )
I Se avessimo erroneamente considerato la deviazione standard per
confrontare le due distribuzioni, avremmo dedotto che i tempi dal 1945 al
1949 sono più variabili rispetto ai tempi dal 2004 al 2008 (la x più
variabile della y , ERRORE)
Statistiche chiave per descrivere una distribuzione statistica

Per sintetizzare una distribuzione statistica rispetto ad una variabile

quantitativa x è utile calcolare:
I min(x) = Q0 (valore minimo)
I Q0.25 (primo quartile)
I Me = Q0.5 (mediana)
I µ e (media ed deviazione standard)
I Q0.75 (terzo quartile)
I max(x) = Q1 (valore massimo)
Statistiche chiave per descrivere una distribuzione statistica

Esempio: sintesi della distribuzione del peso degli studenti di statistica

min Q0.25 Me µ( ) Q0.75 max
46 57 67 66.22 ( 11.43 ) 74 100

Esempio: sintesi della distribuzione del tempo impiegato (minuti)

dall’imbarcazione vincitrice della regata Sidney-Hobart dal 1945 al 2017
min Q0.25 Me µ( ) Q0.75 max
1995 3794 4546 4908.07 ( 1607.26 ) 6010 9502

Qual è la distribuzione più variabile?

11.43 1607.26
CVPeso = = 0.17 CVTempi = = 0.33
66.22 4908.07
Teorema di Chebyshev

E’ utile conoscere quanti elementi della distribuzione stanno entro k

(k > 1) errori standard dalla media, cioè quanti elementi sono contenuti
nelliintervallo [µ k ; µ + k ].
A questo scopo risponde il famoso teorema di Chebyshev
Teorema
Sia g (·) una funzione che restituisce la frequenza relativa dei valori di una
variabile x che soddisfano delle condizioni (argomento della funzione).
Per una distribuzione di valori xi , i = 1, . . . , N per cui è nota solo la
media µ e la deviazione standard e dato un valore reale k > 0, si può
a↵ermare che
1
g (µ k  xi  µ + k ) 1
k2
Teorema di Chebyshev

I Dal teorema di Chebyshev si deduce che la frazione di osservazioni

che appartengono all’intervallo [µ k ; µ + k ] è pari a 1 1/k 2
I Esempio: per k = 1.5 è noto che almeno il
1 k12 = 1 1.5 1
2 = 0.555 = 55.5% delle osservazioni è contenuto

nell’intervallo [µ 1.5 ; µ + 1.5 ]

I Esempio: almeno il 55.5% del voto al diploma degli studenti di
statistica corso C appartiene all’intervallo
[82.62 1.5 ⇥ 11.9; 82.62 + 1.5 ⇥ 11.9], ovvero [64.78; 100.47].
I Verifica: considerando i voti in questione risulta che il 93.1% di
questi è compreso nell’intervallo [64.78; 100.47], cvd.
Teorema di Chebyshev

Dal teorema di Chebyshev risulta che per ogni distribuzione di N unità

relativa ad una variabile quantitativa x
I il 75% delle xi 2 [µ 2 ; µ + 2 ] (k = 2)
I l’89% delle xi 2 [µ 3 ; µ + 3 ] (k = 3)
I il 95% delle xi 2 [µ 4.5 ; µ + 4.5 ] (k = 4.5)
I il 99% delle xi 2 [µ 10 ; µ + 10 ] (k = 4.5)
I dove i = 1, . . . , N
Teorema di Chebyshev: dimostrazione

I Si consideri una distribuzione x con N osservazioni xi , i = 1, . . . , N

I Sia g () una funzione che restituisce la frequenza relativa dei valori di
una variabile x che soddisfano delle condizioni predeterminate
I Sia Sk = {xi |µ k  xi  µ + k }, k > 0
P PN
I 2 = N1 N i=1 (xi µ)2 ! N 2 = i=1 (xi µ)2
I Dividendo le N osservazioni tra quelle che appartengono all’insieme
Sk (xi 2 Sk ) e quelle che non vi appartengono (xi 2 / Sk ), si può
scrivere X X
N 2= (xi µ)2 + (xi µ)2
i2Sk i 2S
/ k
P P
I Essendo i2Sk (xi µ)2 0e / k (xi
i 2S µ)2 0 si può scrivere
X
2
N (xi µ)2
i 2S
/ k
Teorema di Chebyshev: dimostrazione

I 8i2
/ Sk vale
I xi µ + k ! xi µ k ! (xi µ)2 k 2 2
I xi  µ k ! xi µ  k ! (xi µ)2 k 2 2

I Essendo (xi µ)2 k 2 2 è vero anche che

P P
/ k (xi
i 2S µ)2 / k k
i 2S
2 2
P P
I Quindi N 2 / k (xi
i 2S µ)2 / k k
i 2S
2 2

I La frazione (alias frequenza relativa) degli elementi appartenenti a

Sk è data da g (µ k  xi  µ + k )
I La frequenza assoluta degli elementi appartenenti a Sk è per
definizione Ng (µ k  xi  µ + k )
I Quindi la frequenza assoluta degli elementi non appartenenti a Sk è
N Ng (µ k  xi  µ + k )
P
I Essendo N 2 / k k
i 2S
2 2

I Risulta N 2
N Ng (µ k  xi  µ + k ) k 2 2
Teorema di Chebyshev: dimostrazione

I Per semplicità , si scriva g () al posto di g (µ k  xi  µ + k )

I N 2 N Ng () k 2 2
I N 2
N(1 g ())k 2 2
2 2
I
2 N(1 g ())k
N
N 2k2 N 2k2
I 1
k2 1 g ()
I Da cui risulta g () 1 1
k2
I Cvd:
1
g (µ k  xi  µ + k ) 1
k2
Teorema di Markov

Tramite il teorema di Markov si definiscono dei limiti per le frequenze

relative conoscendo solo la media di una distribuzione
Teorema
Sia g (·) una funzione che restituisce la frequenza relativa dei valori di una
variabile x che soddisfano delle condizioni (argomento della funzione).
Per una distribuzione di valori xi , i = 1, . . . , N non negativi (xi 0 8 i),
per cui è nota solo la media µ, dato un qualsiasi valore a > 0, si può
a↵ermare che
µ
g (xi a) 
a
Teorema di Markov

I Dal teorema di Markov si ricava la frazione massima di unità

(frequenza relativa) con modalità pari o superiori ad un valore soglia
arbitrario
I Il teorema si può applicare solo per variabili che presentano valori
non negativi (xi 0)
I Di conseguenza il valore soglia deve essere positivo (a > 0)
I Esempio: posto che la media del voto al diploma degli studenti del
corso C è µ = 82.6, si può a↵ermare che gli studenti che hanno un
voto di almeno 90 sono al più il 91.8%, infatti:
82.6
g (xi 90)  = 91.8
90
Teorema di Markov: dimostrazione

I Si consideri una distribuzione x con N osservazioni non negative

xi , i = 1, . . . , N, xi 0 8 i
I Sia g () una funzione che restituisce la frequenza relativa dei valori di
una variabile x che soddisfano delle condizioni predeterminate
I Sia Sa = {xi |xi a}, a > 0
P P P
I µ = N1 N i=1 xi = N
1
xi + N1 i 2S xi
P i2Sa P / a
I Poiché xi 0 ) i2S xi 0 e i 2S / a xi 0
a
P
I Quindi µ N i2S xi 1
a
P P
I Per definizione se xi 2 Sa ) xi a ) i2S xi i2Sa a
a
P P
I Quindi µ N i2S xi 1 1
N i2Sa a
a
Teorema di Markov: dimostrazione

I In Sa ci sono Ng (xi a) elementi

P
I Quindi µ N1 i2S a ! µ N1 Ng (xi a)a
a
I Da cui risulta µ g (xi a)a, ed infine
µ
g (xi a) 
a
Cvd
Variabilità rispetto alle osservazioni: non in programma

I Non presente nel programma

I Questo argomento (molto importante) può essere un argomento per
la tesina di laurea
I Uno degli indici principali di variabilità rispetto alle osservazioni è il
coefficiente di concentrazione di Gini, un indice largamento usato in
tutto il mondo
Parte III

L’associazione tra due variabili

Associazione tra due variabili

I Ci siamo limitati sinora all’analisi di una singola variabile alla volta

I Tuttavia si reputa di grande interesse analizzare la relazione tra due
o più variabili
I Per esempio, considerando il collettivo degli studenti di statistica
corso C ci si chiede che relazione esiste
I tra voto al diploma e genere
I tra capacità nell’uso di un foglio di calcolo e tipo di diploma
I tra peso e altezza
I ...
I La relazione tra due variabili statistiche è nota come associazione
Associazione tra due variabili

I Le variabili statistiche possono essere quantitative o qualitative

I Considerando due variabili alla volta esistono tre possibili
combinazioni (con ripetizione):
I Qualitativa e qualitativa
I Quantitativa e qualitativa
I Quantitativa e quantitativa
I Per ogni combinazione proporremo un indice per misurare il grado di
associazione tra le due variabili

Nota: prima di presentare questi indici è utile introdurre il concetto di

distribuzione di frequenza doppia
Distribuzioni doppie di frequenza

I Distribuzione unitaria (o semplice o monovariata) della variabile x:

x1 , x2 , . . . , xN
I Distribuzione doppia delle variabili x e y :
(x1 , y1 ), (x2 , y2 ), . . . , (xN , yN )
I Esempio: distribuzione semplice della variabile “Età ” (x) e
distribuzione doppia delle variabili “Età ” (x) e “Diploma” (y ) degli
studenti del corso C:
I x1 = 19, x2 = 19, x3 = 19, . . . , x2 33 = 21
I (x, y ) : (x1 = 19, y1 = ITC ), (x2 = 19, y2 = ITC ), (x3 = 19, y3 =
ITC ), . . . , (x233 = 21, y233 = LA)
Distribuzioni doppie di frequenza

I Distribuzione semplice ! distribuzione di frequenza

I Distribuzione doppia ! distribuzione doppia di frequenza
I Si supponga che le variabili X e Y assumano rispettivamente k e h
modalità distinte
I La tabella di frequenza doppia avrà dimensione k ⇥ h (righe per
colonne) considerando X e Y rispettivamente come variabili di riga e
di colonna
Distribuzioni doppie di frequenza

Distribuzione doppia di frequenza

Tabella: Distribuzione doppia di frequenza

X Y y1 y2 ... yj ... yh
x1 n11 n12 ... n1j ... n1h n1.
x2 n21 n22 ... n2j ... n2h n2.
.. .. .. .. .. .. .. ..
. . . . . . . .
xi ni1 ni2 ... nij ... nih ni.
.. .. .. .. .. .. .. ..
. . . . . . . .
xk nk1 nk2 ... nkj ... nkh nk.
n.1 n.2 ... n.j ... n.h N
Distribuzioni doppie di frequenza: frequenze congiunte

Tabella: Distribuzione doppia di frequenza

I Le frequenze in rosso sono le frequenze congiunte

I Per esempio nij indica la frequenza assoluta delle unità che hanno
modalità xi e yj
Distribuzioni doppie di frequenza: frequenze condizionate

Tabella: Distribuzione doppia di frequenza

I Le frequenze condizionate (in rosso) indicano la distribuzione

unitaria della X per Y = yj
Distribuzioni doppie di frequenza: frequenze condizionate

Tabella: Distribuzione doppia di frequenza

I Le frequenze condizionate (in rosso) indicano la distribuzione

unitaria della Y per X = xi
Distribuzioni doppie di frequenza: frequenze marginali

Tabella: Distribuzione doppia di frequenza

I Le frequenze marginali (in rosso) indicano la distribuzione di

frequenza semplice della X
Distribuzioni doppie di frequenza: frequenze marginali

Tabella: Distribuzione doppia di frequenza

I Le frequenze marginali (in rosso) indicano la distribuzione di

frequenza semplice della Y
Distribuzioni doppie di frequenza

Distribuzione doppia di frequenza per diploma e genere

Maschio Femmina Tot

LC 9 7 16
LS 49 19 68
LA 6 30 36
ITC 40 42 82
ITA 16 6 22
IP 4 3 7
A 0 2 2
Tot 124 109 233

I Dalla tabella è possibile conoscere

I le frequenze congiunte
I le frequenze condizionate
I le frequenze marginali
Distribuzioni doppie di frequenza

Esempio: distribuzione condizionata di diploma per genere = Femmine

Diploma Femmine
x
LC 7
LS 19
LA 30
ITC 42
ITA 6
IP 3
A 2
Tot 109
Distribuzioni doppie di frequenza

Esempio: distribuzione condizionata del genere per diploma = ITC

Genere ITC
x
Maschio 40
Femmina 42
Tot 82
Distribuzioni doppie di frequenza

Maschio Femmina Tot

LC 9 7 16
LS 49 19 68
LA 6 30 36
ITC 40 42 82
ITA 16 6 22
IP 4 3 7
A 0 2 2
Tot 124 109 233

I La distribuzione marginale per diploma altro non è che la distribuzione di

frequenza semplice della variabile diploma
I La distribuzione marginale per genere altro non è che la distribuzione di
frequenza semplice della variabile genere
Distribuzioni doppie di frequenza: notazione

Notazione sulle frequenze assolute di una distribuzione doppia di

frequenza:
P
I ni. = hj=1 nij , i = 1, 2, . . . , k frequenze marginali della X (della
variabile riga)
P
I n.j = ki=1 nij , j = 1, 2, . . . , h frequenze marginali della Y (della
variabile colonna)
P P P P
I N = ki=1 hj=1 nij = ki=1 ni. = hj=1 n.j

Nota: chiamare la variabile con le modalità messe per riga X e la

variabile con le modalità messe per colonna Y è una scelta arbitraria
(non è una convenzione)
Distribuzioni doppie di frequenza: frequenze relative

In una distribuzione doppia di frequenza si possono calcolare tre diversi

tipi di frequenze relative:
I Frequenze relative congiunte
I Frequenze relative di colonna
I Frequenze relative di riga
Distribuzioni doppie di frequenza: frequenze relative

Frequenze relative congiunte:

Tabella: Distribuzione doppia di frequenza

X Y y1 y2 ... yj ... yh
x1 f11 f12 ... f1j ... f1h f1.
x2 f21 f22 ... f2j ... f2h f2.
.. .. .. .. .. .. .. ..
. . . . . . . .
xi fi1 fi2 ... fij ... fih fi.
.. .. .. .. .. .. .. ..
. . . . . . . .
xk fk1 fk2 ... fkj ... fkh fk.
f.1 f.2 ... f.j ... f.h 1

I fij = nij
N
I Le frequenze relative congiunte rappresentano la frazione della
popolazione che presenta modalità xi e yj , i = 1, . . . , k e j = 1, . . . , h
Distribuzioni doppie di frequenza: frequenze relative
Frequenze relative di colonna:

Tabella: Distribuzione doppia di frequenza

X Y y1 y2 ... yj ... yh
x1 f11c f12c ... f1jc ... f1hc
f1.c
x2 f21c f22c ... f2jc ... f2hc
f2.c
.. .. .. .. .. .. .. ..
. . . . . . . .
xi fi1c fi2c ... fijc ... fihc fi.c
.. .. .. .. .. .. .. ..
. . . . . . . .
c c
xk fk1 fk2 ... fkjc ... fkhc fk.c
1 1 ... 1 ... 1 1

I fijc = nij
n.j
; fi.c = ni.
N

I Con le frequenze relative di colonna si possono confrontare a parità di

numerosità (1) le distribuzioni condizionate della X per ogni modalità
della Y (y1 , . . . , yh )
Distribuzioni doppie di frequenza: frequenze relative
Frequenze relative di riga:

Tabella: Distribuzione doppia di frequenza

X Y y1 y2 ... yj ... yh
x1 f11r f12r ... f1jr ... f1hr
1
x2 f21r f22r ... f2jr ... f2hr
1
.. .. .. .. .. .. .. ..
. . . . . . . .
xi fi1r fi2r ... fijr ... fihr 1
.. .. .. .. .. .. .. ..
. . . . . . . .
r r
xk fk1 fk2 ... fkjr ... fkhr 1
f.1r f.2r ... [Link] ... [Link] 1

I fijr = nij
ni.
; [Link] =
n.j
N
I Con le frequenze relative di riga si possono confrontare a parità di
numerosità (1) le distribuzioni condizionate della Y per ogni modalità
della X (x1 , . . . , xk )
Distribuzioni doppie di frequenza: freq relative congiunte

Distribuzione doppia di frequenze relative congiunte per diploma e genere degli studenti del corso C

Maschio Femmina Tot

LC 0.039 0.030 0.069
LS 0.210 0.082 0.292
LA 0.026 0.129 0.155
ITC 0.172 0.180 0.352
ITA 0.069 0.026 0.094
IP 0.017 0.013 0.030
A 0.000 0.009 0.009
Tot 0.532 0.468 1.000

I Es. f42 = 0.18 significa che lo 0.18 o (18%) del collettivo è femmina e ha diploma ITC
I Es. f.1 = 0.532 significa che lo 0.532 o (53.2%) del collettivo è maschio
I Es. f2. = 0.292 significa che lo 0.292 o (29.2%) del collettivo ha un diploma di LS
Distribuzioni doppie di frequenza: freq relative di colonna

Distribuzione doppia di frequenza relative di colonna per diploma e genere degli studenti del corso C

Maschio Femmina Tot

LC 0.073 0.064 0.069
LS 0.395 0.174 0.292
LA 0.048 0.275 0.155
ITC 0.323 0.385 0.352
ITA 0.129 0.055 0.094
IP 0.032 0.028 0.030
A 0.000 0.018 0.009
Tot 1.000 1.000 1.000

I Es. f42 = 0.385 significa che lo 0.385 o (38.5%) delle femmine ha un diploma ITC
I Es. f.1 = 1 (aiuta a capire che le frequenze relative si riferiscono alla distribuzione della
variabile diploma per genere = maschi o femmine)
I Es. f2. = 0.292 significa che lo 0.292 o (29.2%) del collettivo ha un diploma di LS
Distribuzioni doppie di frequenza: freq relative di riga

Distribuzione doppia di frequenza relative di riga per diploma e genere degli studenti del corso C

Maschio Femmina Tot

LC 0.562 0.438 1
LS 0.721 0.279 1
LA 0.167 0.833 1
ITC 0.488 0.512 1
ITA 0.727 0.273 1
IP 0.571 0.429 1
A 0.000 1.000 1
Tot 0.532 0.468 1

I Es. f42 = 0.512 significa che lo 0.512 o (51.2%) dei diplomati ITC è femmina
I Es. f.1 = 0.532 significa che lo 0.532 o (53.2%) del collettivo è maschio
I Es. f2. = 1 (aiuta a capire che le frequenze relative si riferiscono alla distribuzione della
variabile genere per le singole modalità di diploma)
Analisi dell’associazione tra due variabili qualitative

I Disponendo della distribuzione doppia di frequenza di due variabili, il

passo successivo consiste nell’analizzare il loro livello di associazione
I Esistono due situazioni possibili:
1. Dipendenza statistica: la conoscenza della modalità di una delle due
variabili migliora la “previsione” della modalità dell’altra
2. Indipendenza statistica: la conoscenza della modalità di una delle
due variabili non migliora la “previsione” della modalità dell’altra
Dipendenza statistica

I Dipendenza statistica: la conoscenza della modalità di una delle due

variabili migliora la “previsione” della modalità dell’altra
I In questo caso che distribuzione doppia di frequenza ci aspettiamo?
I Possiamo riconoscere qualche particolare disposizione delle frequenze
congiunte nella tabella?
I Si, è facile identificare dalle frequenze congiunte due situazioni:
a. Dipendenza perfetta di Y da X : ad ogni modalità di X è associata
una sola modalità di Y
b. Interdipendenza perfetta tra X e Y : a ogni modalità di una delle due
variabili corrisponde una e una sola modalità dell’altra e viceversa (ha
senso parlarne solo se X e Y hanno lo stesso numero di modalità )
Nota: Nell’analisi della dipendenza si studia come le modalità di una variabile
dipendano da quelle di un’altra, secondo un legame “unidirezionale”; nell’analisi
dell’interdipendenza invece si assume che le due variabili abbiano lo stesso ruolo, e che
i legami tra esse siano bidirezionali
Dipendenza statistica: dipendenza perfetta

I Si ha dipendenza perfetta di Y da X quando ad ogni modalità di X è associata

una sola modalità di Y
I Consideriamo il seguente esempio (fittizio) di dipendenza perfetta: 130 soggetti
sono stati classificati secondo i caratteri X “Zona di residenza” (modalità x1 =NO,
x2 =NE, x3 =C, x4 =S) e Y “Livello di reddito” (y1 =basso, y2 =medio, y3 =alto)

Y
X y1 y2 y3 Totale
x1 43 0 0 43
x2 0 0 15 15
x3 0 0 20 20
x4 0 52 0 52
Totale 43 52 35 130

I In questo caso conoscere quale modalità di X assume una unità statistica

“migliora” la conoscenza sulla modalità della Y
I Es: se una unità assume modalità x2 allora sicuramente assume anche modalità
y3 , ma non è vero il viceversa (se una unità assume modalità y3 non posso
sapere con esattezza che modalità assume per la variabile X )
Dipendenza statistica: interdipendenza perfetta

I Si ha interdipendenza perfetta tra X e Y se ad ogni modalità di una delle due

variabili corrisponde una e una sola modalità dell’altra e viceversa
I Consideriamo il seguente esempio (fittizio) di interdipendenza perfetta: 110
donne sono state classificate secondo i caratteri X “Livello di scolarità raggiunto”
(x1 =elementare, x2 =medio, x3 =superiore) e Y “Livello di scolarità del
compagno” (y1 = elementare, y2 = medio, y3 =superiore)

Y
X y1 y2 y3 Totale
x1 43 0 0 43
x2 0 0 15 15
x3 0 52 0 52
Totale 43 52 15 110

I In questo caso la conoscenza di quale modalità di X si è realizzata migliora la

conoscenza (predizione) sulla modalità di Y e viceversa!
I Es: se una unità assume modalità x2 allora sicuramente assume anche modalità
y3 , se assume modalità y2 allora sicuramente assume anche modalità x3
Indipendenza statistica

I Consideriamo adesso la situazione di indipendenza statistica

I Come già detto, si ha indipendenza statistica quando la conoscenza
della modalità di uno dei due caratteri non migliora la “previsione”
della modalità dell’altro
I Le frequenze congiunte della tabella a doppia entrata assumono dei
valori particolari quando c’è indipendenza
Definizione
Indipendenza statistica: due caratteri X e Y sono indipendenti se le
distribuzioni relative (o percentuali) condizionate sono uguali tra loro e
uguali alla distribuzione relativa (o percentuale) marginale
I Inoltre, dati due caratteri X e Y , si può dimostrare che, se X è
indipendente da Y , allora anche Y è indipendente da X . Quindi,
l’indipendenza statistica è sempre reciproca.
Indipendenza statistica: esempio

I Consideriamo il seguente esempio (fittizio) di indipendenza

statistica: 100 soggetti sono stati classificati secondo i caratteri X
“Zona di residenza” (modalità x1 =NO, x2 =NE, x3 =C, x4 =S) e Y
“Sport preferito” (y1 =sport A, y2 =sport B, y3 =sport C)

Y
X y1 y2 y3 Totale
x1 2 2 6 10
x2 4 4 12 20
x3 6 6 18 30
x4 8 8 24 40
Totale 20 20 60 100

I A prima vista ci accorgiamo solo che non siamo in una situazione di

dipendenza statistica
I Calcolando le distribuzioni condizionate (distribuzioni relative di riga
e di colonna) si verifica se siamo nella situazione di indipendenza
Indipendenza statistica: esempio
I Distribuzione condizionate relative del carattere X rispetto alle
modalità del carattere Y :
Y
X y1 y2 y3 Totale
x1 0.1 0.1 0.1 0.1
x2 0.2 0.2 0.2 0.2
x3 0.3 0.3 0.3 0.3
x4 0.4 0.4 0.4 0.4
Totale 1 1 1 1

I Le distribuzioni relative della variabile X sono uguali per ciascuna

modalità della variabile Y e sono uguali anche alla distribuzione
marginale di X
I In questo caso, la conoscenza su una unità della modalità assunta
dalla X non fornisce nessuna conoscenza sulla modalità assunta per
la variabile Y
I In altre parole questo significa che la zona di residenza (X ) non
di↵erisce in base allo sport favorito (Y )
Indipendenza statistica: esempio
I Distribuzione condizionate relative della variabile Y rispetto alle modalità della
variabile X :

Y
X y1 y2 y3 Totale
x1 0.2 0.2 0.6 1
x2 0.2 0.2 0.6 1
x3 0.2 0.2 0.6 1
x4 0.2 0.2 0.6 1
Totale 0.2 0.2 0.6 1

I Le distribuzioni relative della variabile Y sono uguali per ciascuna modalità della
variabile X e sono uguali anche alla distribuzione marginale di Y
I In questo caso, la conoscenza su una unità della modalità assunta dalla Y non
fornisce nessuna conoscenza sulla modalità assunta per la variabile X
I In altre parole questo significa che la squadra di calcio favorita (Y ) non di↵erisce
in base alla zona di residenza (X )
I Allora, poiché abbiamo mostrato che per i caratteri X e Y le distribuzioni
condizionate di riga, e quindi anche le distribuzioni condizionate di colonna, sono
uguali tra loro, possiamo a↵ermare che i due caratteri sono indipendenti
Frequenze congiunte teoriche in caso di indipendenza

I Esiste una regola generale per capire se le frequenze congiunte di

una tabella a doppia entrata corrispondono alla situazione di
indipendenza statistica?
I Ovvero, esiste una regola generale per capire se le frequenze
congiunte di una tabella a doppia entrata corrispondono a
distribuzioni (relative o percentuali) condizionate (di riga o di
colonna) uguali tra loro e uguali alle distribuzioni marginali?
I La risposta è si
I Frequenze congiunte teoriche in caso di indipendenza tra i caratteri
X e Y : se due caratteri X e Y fossero indipendenti, allora per
frequenze teoriche assolute (nij⇤ ) varrebbero

nij⇤ n.j nij⇤ ni. ni. · n.j

= oppure = ! nij⇤ =
n N n.j N N
| i. {z } | {z }
fijr (cond. Y ) fijc (cond. X )
Indipendenza statistica: esempio
I Verificare che le frequenze congiunte di X e Y riportate di seguito corrispondano
alle frequenze teoriche in caso di indipendenza:

Y
X y1 y2 y3 Totale
x1 2 2 6 10
x2 4 4 12 20
x3 6 6 18 30
x4 8 8 24 40
Totale 20 20 60 100

I n11 = 2 ⇤ =
n11 n1. ·n.1
= 10·20
=2
N 100
I n12 = 2 ⇤ =
n12 n1. ·n.2
= 10·20
=2
N 100
I ...
I n21 = 4 ⇤ =
n21 n2. ·n.1
= 20·20
=4
N 100
I ...
I n43 = 24 ⇤ =
n43 n4. ·n.3
= 40·60
= 24
N 100
I Essendo vero che nij = nij⇤ , i = 1, . . . , 4 e j = 1, . . . , 3 allora X e Y sono
indipendenti
Frequenze congiunte teoriche in caso di indipendenza
I Le frequenza congiunte teoriche nij⇤ hanno gli stessi totali di riga e di
colonna delle frequenze congiunte osservate nij :
k
X k
X
nij⇤ = nij = n.j
i=1 i=1
h
X h
X
nij⇤ = nij = ni.
j=1 j=1

I Dimostrazioni:
k
X k
X k
X k
ni. · n.j n.j n.j X n.j
nij⇤ = = ni. = ni. = · N = n.j
N N N N
i=1 i=1 i=1 i=1
h
X h
X h
X h
ni. · n.j ni. ni. X ni.
nij⇤ = = n.j = n.j = · N = ni.
N N N N
j=1 j=1 j=1 j=1
Analisi dell’associazione tra due caratteri
I Ricapitolando, abbiamo visto come si presentano le frequenze
congiunte della tabella a doppia entrata nel caso di:
I Dipendenza statistica perfetta (o interdipendenza perfetta)
I Indipendenza statistica
I Spesso le frequenze congiunte corrispondono a situazioni intermedie
rispetto a queste due condizioni estreme
I Con un indice che si basa sulle di↵erenze tra le frequenze congiunte
osservate (nij ) e le corrispondenti frequenze teoriche sotto l’ipotesi di
indipendenza (nij⇤ ) è possibile misurare il grado di dipendenza tra le
variabili X e Y
I Ovvero, si identifica se le frequenze sono più vicine alla situazione di
dipendenza perfetta o di indipendenza
I Il grado di associazione (connessione) tra le due variabili sarà tanto
maggiore quanto più le frequenze osservate saranno diverse dalle
frequenze teoriche (cioè quanto più la situazione osservata si
discosta da quella di indipendenza)
Analisi dell’associazione tra due caratteri

I L’indice di associazione è un indice sempre 0:

a. sarà pari a 0 quando la situazione osservata rispecchia esattamente
quella di indipendenza, ovvero quando nij⇤ = nij , 8(i, j)
b. cresce quanto più la situazione osservata si discosta da quella di
indipendenza, cioè quanto più le nij di↵eriscono dalle corrispondenti
nij⇤
c. deve assumere valore massimo quando tra i due caratteri c’è
dipendenza perfetta
L’indice Chi-quadrato ( 2 ) di Pearson
I L’indice 2 è dato dalla somma per ogni incrocio tra le modalità
delle due variabili del rapporto tra il quadrato della di↵erenza tra
frequenze osservate e frequenze teoriche (numeratore) e le frequenze
teoriche (denominatore):
k X
X h
2
(nij nij⇤ )2
=
nij⇤
i=1 j=1

a. L’indice 2 assume il valore 0 nel caso di indipendenza tra i due

caratteri, cioè se nij⇤ = nij , 8(i, j)
b. Cresce all’aumentare delle di↵erenze nij nij⇤
c. Il valore massimo che esso può assumere (nel caso di dipendenza
perfetta) non è fisso, ma dipende sia da N che dal numero di
modalità di X e di Y . Esso è pari a
2
max = N · min[(k 1), (h 1)]

Nota: Poiché X ha k modalità , Y ha h modalità , le frequenze congiunte e, di

conseguenza, i termini della sommatoria del 2 sono sempre k ⇥ h
2
L’indice di Pearson: esempio di indipendenza perfetta

I Verificare che 2 = 0 in caso di indipendenza (si usa i dati fittizi dell’esempio

precedente in cui si è verificato che nij = nij⇤ 8(i, j))

Y
X y1 y2 y3 Totale
x1 2 2 6 10
x2 4 4 12 20
x3 6 6 18 30
x4 8 8 24 40
Totale 20 20 60 100

I Indice 2:

2
k X
X h (n
ij nij⇤ )2 (2 2)2 (2 2)2 (6 6)2 (4 4)2
= = + + + +
i=1 j=1
nij⇤ 2 2 6 4

(24 24)2
+ ... + =0 cvd
24
Nota: In questo caso X ha k = 4 modalità , Y ha h = 3 modalità , quindi le
frequenze congiunte (e i termini della sommatoria del 2 ) sono 4 ⇥ 3 = 12
2
L’indice di Pearson: esempio di dipendenza perfetta
I Verificare che 2 = 2max nel caso di dipendenza perfetta (si usa i dati fittizi di
un esempio precedente in cui si è già verificata la perfetta dipendenza):
I Frequenze osservate nij :

Y
X y1 y2 y3 Totale
x1 43 0 0 43
x2 0 0 15 15
x3 0 0 20 20
x4 0 52 0 52
Totale 43 52 35 130
I Frequenze teoriche nij⇤ :

Y
X y1 y2 y3 Totale
43·43 43·52
x1 130
= 14.2 130
= 17.2 11.6 43
x2 5.0 6.0 4.0 15
x3 6.6 8.0 5.4 20
52·35
x4 17.2 20.8 130
= 14.0 52
Totale 43 52 35 130
2
L’indice di Pearson: esempio di dipendenza perfetta

I Allora:
k X
X h
2
(nij nij⇤ )2 (43 14.2)2 (0 17.2)2 (0 11.6)2
= = + +
nij⇤ 14.2 17.2 11.6
i=1 j=1

(0 5)2 (0 14)2
+ + ... + = 260
5 14
I 2
= N · min(k 1, h 1) = 130 · min(4 1, 3 1) = 130 · 2 = 260
max
I Si è verificato che nel caso di dipendenza perfetta 2 = 2max

Nota: La stessa cosa si verifica nel caso di interdipendenza perfetta

2
L’indice di Pearson: esempio

I Data la distribuzione del Sesso (Y ) rispetto al Titolo di studio (X ), calcolare l’indice 2

Tabella: Distribuzione doppia di frequenza (assoluta) di Sesso e Titolo di studio dei residenti
in Italia di età 25-34 anni, dati in migliaia (Fonte: ISTAT, anno 2013)
Sesso (Y )
Titolo di studio (X ) Maschio Femmina Totale
Elemntari - Nessuno 112 93 205
Licenza Media 1013 770 1783
Diploma 1848 1713 3561
Laurea - Post laurea 639 995 1634
Totale 3612 3571 7185

Tabella: Distribuzione doppia delle frequenze (assolute) teoriche sotto l’ipotesi di

indipendenza dei caratteri Titolo di studio e Sesso
Sesso (Y )
Titolo di studio (X ) Maschio Femmina Totale
Elemntari - Nessuno 103.09 101.91 205
Licenza Media 896.59 886.41 1783
Diploma 1790.66 1770.34 3561
Laurea - Post laurea 821.66 812.34 1634
Totale 3612 3571 7185
2
L’indice di Pearson: esempio

2
k X
X h (n
ij nij⇤ )2
=
i=1 j=1
nij⇤

(112 103.09)2 (93 101.91)2 (1013 896.59)2 (770 886.41)2

= + + +
103.09 101.91 896.59 886.41
(1848 1790.66)2 (1713 1770.34)2 (639 821.66)2 (995 812.34)2
+ + + +
1790.66 1770.34 821.66 812.34
= 117.33

I Il valore dell’indice 2 , essendo > 0, evidenzia la presenza di una relazione tra i

due caratteri (frequenze osservate 6= frequenze teoriche)
I 2
max = N · min(k 1, h 1) = 7158 · min(3; 1) = 7158 · 1 = 7158
I Dunque 0 < 2 < 2 .
max Come si può capire “la forza” della dipendenza tra le
due variabili?
L’indice V di Cramer

I Il valore del 2 dipende dalla numerosità del collettivo analizzato (in

genere, aumenta all’aumentare del collettivo)
I Il valore del 2 dipende anche da k (numero delle modalità di X ) e
da h (numero delle modalità di Y )
I Per ottenere un indice in grado di quantificare la “forza” della
relazione tra le due variabili, che non sia influenzato dalla numerosità
del collettivo, né dal numero delle modalità (k e h), si ricorre ad un
indice normalizzato (indice 2 [0, 1])
I L’indice V di Cramer è dato dalla radice quadrata del rapporto tra
l’indice 2 e il suo massimo valore teorico, 2max
v
s u Pk Ph (nij nij⇤ )2
u
2 t i=1 j=1 nij⇤
V = 2
=
max N · min[(k 1), (h 1)]

I L’indice V di Cramer è sempre compreso tra 0 e 1

L’indice V di Cramer

I V = 0 ) Indipendenza tra le due variabili ( 2 = 0, da cui V = 0)

I V = 1 ) Dipendenza perfetta ( 2 = 2max , da cui V = 1)
I Quindi valori dell’indice V di Cramer vicini a 0 corrispondono a
situazioni di bassa/moderata associazione, valori vicini a 1
corrispondono a situazioni di elevata associazione tra X e Y
I Nell’esempio precedente (Sesso vs Titolo di studio) si ha:
s r
2 117.33
V = 2
= = 0.128
max 7185

I Possiamo a↵ermare che tra il Sesso (Y ) ed il Titolo di studio (X )

esiste un livello di associazione basso
2
L’indice V di Cramer e l’indice

I Si consideri la seguente distribuzione doppia (fittizia) (denominata

a):
Sesso (Y )
X y1 y2 Totale
x1 10 30 40
x2 20 10 30
Totale 30 40 70
I Si consideri la stessa distribuzione ma con le frequenze moltiplicate
per cinque (denominata b)
Sesso (Y )
X y1 y2 Totale
x1 50 150 200
x2 100 50 150
Totale 150 200 350
2
L’indice V di Cramer e l’indice

I Calcolo del 2 per entrambe le distribuzioni (a e b)

I Frequenze teoriche della distribuzione doppia a
Sesso (Y )
X y1 y2 Totale
x1 17.14 22.86 40
x2 12.86 17.14 30
Totale 30 40 70
I Frequenze teoriche della distribuzione doppia b
Sesso (Y )
X y1 y2 Totale
x1 85.71 114.29 200
x2 64.29 85.71 150
Totale 150 200 350
2
L’indice V di Cramer e l’indice

2 (1017.14)2 (30 22.86)2 (20 12.86)2 (10 17.14)2

a = + + + = 12.153
17.14 22.86 12.86 17.14
2 (50 85.71)2 (150 114.29)2 (100 64.29)2 (50 85.71)2
b = + + + = 60.76
85.71 114.29 64.29 85.71

I Confrontando i due risultati è evidente che 2

b = 2
a · 5 (12.153 · 5 = 60.76)
2
L’indice V di Cramer e l’indice

I Calcolo del V di Cramer per entrambe le distribuzioni doppie a e b

I Calcolo 2max :
2
max,a = N · min(k 1, h 1) = 70 · min(1; 1) = 70
2
max,b = N · min(k 1, h 1) = 350 · min(1; 1) = 350

I Calcolo V di Cramer
s r
2 12.153
a
Va = 2
= = 0.417
max,a 70
s r
2
b 60.76
Vb = 2 = = 0.417
max,b 350
2
L’indice V di Cramer e l’indice

I Intuitivamente, moltiplicando tutte le frequenze per una costante

non ci si aspetta un cambio nella relazione tra le due variabili
I Ciò ex confermato dall’indice V di Cramer (che è un numero puro)
I L’indice 2 , invece, presenta valori diversi tra le distribuzioni doppie
a e b poiché è influenzato dalla dimensione del collettivo
I Si rimarca che moltiplicando tutte le frequenze per una costante
allora anche l’indice 2 è moltiplicato per la medesima costante:

Se nijb = nija · c 8(i, j) ) 2

b = 2
a ·c

dove nija indica la frequenza assoluta delle unità con modalità xi , yj

nella distribuzione doppia a
Analisi dell’associazione tra una variabile qualitativa e una
quantitativa

I Disponendo della distribuzione doppia di frequenza di una variabile

qualitativa e una quantitativa, il passo successivo consiste
nell’analizzare il loro livello di associazione
I Esistono due situazioni possibili:
1. Dipendenza in media: le modalità della variabile qualitativa
influiscono sulla media condizionata della variabile quantitativa
2. Indipendenza in media: le modalità della variabile qualitativa non
influiscono sulla media condizionata della variabile quantitativa. Ciò
implica che tutte le medie condizionate sono uguali tra loro e uguali
alla media generale
Media e varianza per distribuzioni doppie

I Si considera il caso di una distribuzione doppia di frequenza di due

variabili X e Y
I Y : variabile quantitativa
I X : variabile qualitativa (o quantitativo discreto)
I Si definisce media condizionata (di Y dato X ):

h
1 X
µY |X =xi = yj nij i = 1, . . . , k
ni.
j=1

I Si definisce varianza condizionata (di Y dato X ):

h
2 1 X
Y |X =xi = (yj µY |X =xi )2 nij i = 1, . . . , k
ni.
j=1

Nota: si ottengono k medie e varianze condizionate

Media e varianza condizionata: esempio

Si consideri la distribuzione doppia di genere e altezza degli studenti del

corso C

Altezza
(140,160] (160,165] (165,170] (170,175] (175,180] (180,210] Tot
Maschio 1 2 9 27 42 43 124
Femmina 29 33 35 12 0 0 109
Tot 30 35 44 39 42 43 233
Media e varianza condizionata: esempio

Per calcolare media e varianza condizionate si utilizza il valore centrale

della classe:

Altezza
150 162.5 167.5 172.5 177.5 195 Tot
Maschio 1 2 9 27 42 43 124
Femmina 29 33 35 12 0 0 109
Tot 30 35 44 39 42 43 233
Media e varianza condizionata: esempio

6
1 X 1
µY |X =M = yj n1j = (150 ⇥ 1 + 162.5 ⇥ 2 + 167.5 ⇥ 9
n1. j=1 124

+ 172.5 ⇥ 27 + 177.5 ⇥ 42 + 195 ⇥ 43) = 181.2903

6
1 X 1
µY |X =F = yj n2j = (150 ⇥ 29 + 162.5 ⇥ 33 + 167.5 ⇥ 35
n2. j=1 109

+ 172.5 ⇥ 12 + 177.5 ⇥ 0 + 195 ⇥ 0) = 161.8807

4
2 1 X 2 1 2 2
Y |X =M = (yj µY |X =M ) n1j = [(150 181.3) 1 + (162.5 181.3) 2
n1. j=1 124
2 2 2 2
+ (167.5 181.3) 9 + (172.5 181.3) 27 + (177.5 181.3) 42 + (195 181.3) 43] = 114.26
4
2 1 X 2 1 2 2
Y |X =F = (yj µY |X =F ) n2j = [(150 161.9) 29 + (162.5 161.9) 33
n2. j=1 109
2 2 2 2
+ (167.5 181.3) 35 + (172.5 181.3) 12 + (177.5 181.3) 0 + (195 181.3) 0] = 60.22
Dipendenza in media

I Dipendenza in media: le modalità della variabile qualitativa

influiscono sulla media condizionata della variabile quantitativa
I Dipendenza perfetta in media: caso limite in cui le medie
condizionate sono diverse tra loro e le varianze condizionate sono
uguali a 0
Dipendenza perfetta in media
Esempio fittizio: 110 individui distribuiti per titolo di studio (X ) e
numero di auto possedute (Y )
Auto possedute (Y )
Titolo di studio (X ) 1 2 5 Totale
Medie 43 0 0 43
Superiori 0 0 15 15
Laurea 0 52 0 52
Totale 43 52 15 110

Le medie di Y condizionate dalla X sono tre, una media condizionata di Y per ogni
modalità della X :
h
1 X 1
µY |X =Medie = yj nij = (1 · 43 + 2 · 0 + 5 · 0) = 1
ni. j=1 43
h
1 X 1
µY |X =Superiori = yj nij = (1 · 0 + 2 · 0 + 5 · 15) = 5
ni. j=1 15
h
1 X 1
µY |X =Laurea = yj nij = (1 · 0 + 2 · 52 + 5 · 0) = 2
ni. j=1 52
Dipendenza perfetta in media

Auto possedute (Y )
Titolo di studio (X ) 1 2 5 Totale
Medie 43 0 0 43
Superiori 0 0 15 15
Laurea 0 52 0 52
Totale 43 52 15 110

Le varianze di Y condizionate dalla X sono tre, una varianza condizionata di Y per

ogni modalità della X :
h
2 1 X 1
Y |X =Medie = (yj µY |X =xi )2 nij = [(1 1)2 · 43 + (2 1)2 · 0 + (5 1)2 · 0] = 0
ni. j=1 43
h
2 1 X 1
Y |X =Sup = (yj µY |X =xi )2 nij = [(1 5)2 · 0 + (2 5)2 · 0 + (5 5)2 · 15] = 0
ni. j=1 15
h
2 1 X 1
Y |X =Laurea = (yj µY |X =xi )2 nij = [(1 2)2 · 0 + (2 2)2 · 52 + (5 2)2 · 0] = 0
ni. j=1 52
Dipendenza perfetta in media

La media e la varianza di Y non condizionata dalla X sono:

h
1 X 1
µy = yj n.j = (1 · 43 + 2 · 52 + 5 · 15) = 2.02
N 110
j=1
h
2 1 X
y = (yj µy )2 n.j
N
j=1
1
= [(1 2.02)2 43 + (2 2.02)2 52 + (5 2.02)2 15] = 1.62
110
p
y = 1.62 = 1.27
Dipendenza perfetta in media

Il numero di auto possedute dipende perfettamente in media dal titolo di

Questo è un caso limite!

Inipendenza in media
Esempio fittizio: 108 individui distribuiti per titolo di studio (X ) e
numero di auto possedute (Y )
Auto possedute (Y )
Titolo di studio (X ) 1 2 5 Totale
Medie 10 4 2 16
Superiori 19 5 4 28
Laurea 40 16 8 64
Totale 69 25 14 108

Le medie di Y condizionate dalla X sono tre, una media condizionata di Y per ogni
modalità della X :
h
1 X 1
µY |X =Medie = yj nij = (1 · 10 + 2 · 4 + 5 · 2) = 1.75
ni. j=1 16
h
1 X 1
µY |X =Superiori = yj nij = (1 · 19 + 2 · 5 + 5 · 4) = 1.75
ni. j=1 28
h
1 X 1
µY |X =Laurea = yj nij = (1 · 40 + 2 · 16 + 5 · 8) = 1.75
ni. j=1 64
Indipendenza in media

Auto possedute (Y )
Titolo di studio (X ) 1 2 5 Totale
Medie 10 4 2 16
Superiori 19 5 4 28
Laurea 40 16 8 64
Totale 69 25 14 108

Le varianze di Y condizionate dalla X sono tre, una varianza condizionata di Y per ogni modalità
della X :

h
2 1 X 2 1 2 2 2
Y |X =Medie = (yj µY |X =xi ) nij = [(1 1.75) · 10 + (2 1.75) · 4 + (5 1.75) · 2] = 1.69
ni. j=1 16
h
2 1 X 2 1 2 2 2
Y |X =Sup = (yj µY |X =xi ) nij = [(1 1.75) · 19 + (2 1.75) · 5 + (5 1.75) · 4] = 1.90
ni. j=1 28
h
2 1 X 2 1 2 2 2
Y |X =Laurea = (yj µY |X =xi ) nij = [(1 1.75) · 40 + (2 1.75) · 16 + (5 1.75) · 8] = 1.69
ni. j=1 64
Indipendenza in media

La media e la varianza di Y non condizionata dalla X sono:

h
1 X 1
µy = yj n.j = (1 · 69 + 2 · 25 + 5 · 14) = 1.75
N 108
j=1
h
2 1 X
y = (yj µy )2 n.j
N
j=1
1
= [(1 1.75)2 69 + (2 1.75)2 25 + (5 1.75)2 14] = 1.74
108
p
y = 1.74 = 1.32
Indipendenza in media

Il numero di auto possedute è indipendente in media dal titolo di studio,

Le medie condizionate sono uguali tra loro e uguali alla media generale.
Questo è un caso limite!
Associazione tra una variabile qualitativa e una
quantitativa

I Si vuole costruire in indice in grado di misurare il grado di

dipendenza in media di Y da X
I Si vuole che tale indice assuma valore 0 quando c’è indipendenza
I Si vuole che l’indice aumenti all’aumentare della dipendenza in media
I Si vuole che tale indice assuma valore 1 quando c’è una perfetta
dipendenza in media
I Riepilogando per le situazioni limite vale:
I Dipendenze perfetta in media: le varianze condizionate sono pari a 0
I Indipendenza in media: le medie condizionate sono uguali tra loro e
uguali alla media generale
Scomposizione della varianza

La varianza di una variabile quantitativa Y si può scomporre in relazione

alle modalità della variabile qualitativa X :
2 2 2
y = Media(Y |X ) + Media( Y |X )
| {z } | {z }
Varianza delle medie condizionate Media delle varianze condizionate

La varianza di Y può essere espressa come somma tra la varianza delle

medie condizionate e la media delle varianze condizionate
Scomposizione della varianza

Varianza delle medie condizionate (varianza spiegata):

k
2 1 X
Media(Y |X ) = (µY |X =xi µy )2 ni.
N
i=1

Media delle varianze condizionate (varianza residua):

k
2 1 X 2
Media( Y |X ) = Y |X =xi ni.
N
i=1
Il rapporto di correlazione eta-quadro (⌘Y2 |X )

Definizione
Il rapporto di correlazione ⌘Y2 |X è definito come il rapporto tra la varianza
spiegata e la varianza totale:
2
Media(Y |X )
⌘Y2 |X = 2
y

Questo indice rispetta le condizioni desiderate, infatti

I 0  ⌘Y2 |X  1
I ⌘Y2 |X = 1 in caso di dipendenza perfetta in media
I ⌘Y2 |X = 0 in caso di indipendenza
Il rapporto di correlazione ⌘Y2 |X

Calcolo di ⌘Y2 |X nell’esempio fittizio di dipendenza perfetta. Si ricorda che:

Dunque risulta:
k
2 1 X
Media(Y |X ) = (µY |X =xi µy )2 ni.
N i=1
1
= [(1 2.02)2 43 + (5 2.02)2 15 + (2 2.02)2 52] = 1.62
110
2
Media(Y |X ) 1.62
⌘Y2 |X = 2
= =1 cvd
y 1.62
Il rapporto di correlazione ⌘Y2 |X

Calcolo di ⌘Y2 |X nell’esempio fittizio di indipendenza. Si ricorda che:

Altezza
150 162.5 167.5 172.5 177.5 195 Tot
Maschio 1 2 9 27 42 43 124
Femmina 29 33 35 12 0 0 109
Tot 30 35 44 39 42 43 233

2
µY |X =M = 181.3 Y |X =M = 114.26
2
µY |X =F = 161.9 Y |X =F = 60.22
2
µy = 172.2 y = 182.78

Dunque risulta:

I A livello algebrico su ogni distribuzione doppia di frequenza si può

calcolare l’indice V di Cramer
I Tuttavia quando una (o entrambe) variabile è quantitativa è più
“corretto” calcolare il rapporto di correlazione ⌘Y2 |X
I Per esempio, nel caso fittizio di indipendenza in media si è visto che
⌘Y2 |X = 0
I Sulla stessa distribuzione di frequenza si ottiene V = 0.05 e
2
= 0.6, ovvero si rileva una debolissima dipendenza. In altri casi
tale discrepanza può essere più marcata
Una nota sulla scomposizione della varianza

Varianza di Y per una distribuzione di frequenza doppia (Y variabile

“colonna”)
h
2 1 X
y = (yj µy )2 n.j
N
j=1

Scomposizione della varianza:

2 2 2
y = Media(Y |X ) + Media( Y |X )
k k
1 X 1 X
= (µY |X =xi µy )2 ni. + 2
Y |X =Xi
N N
i=1 i=1
Una nota sulla scomposizione della varianza

Denominazioni alternativa per le componenti della varianza:

I 2 2
Media(Y |X ) ! varianza spiegata ( Spiegata ), varianza tra gruppi ( 2
Tra
2 2
o Between ), varianza esterna ( Est )

I Media( Y2 |X ) ! varianza residua ( Res

2
), varianza entro i gruppi
2 2 2
( Entro o Within ), varianza interna ( Int )

I 2
y ! varianza, varianza totale
Alternativa per il calcolo di ⌘Y2 |X

Dalla scomposizione della varianza risulta (usando la denominazione

alternativa varianza esterna e interna):
2 2 2 2 2 2
= Est + Int ) Est = Int
2 2 2 2
⌘Y2 |X = Est
2
= 2
Int
=1 Int
2
Analisi dell’associazione tra due variabili quantitative

I Spesso le variabili quantitative assumono molte modalità distinte e

quindi vengono rappresentate da:
I distribuzioni doppie di frequenza per classi
I distribuzioni doppie semplici
I In questo corso si considerano solo due situazioni possibili:
1. Dipendenza lineare: si verifica quando esiste un legame lineare
2. Indipendenza lineare: si verifica quando non esiste un legame lineare
(può esistere un legame di altro tipo)
I Legame lineare: tra le due variabili sussiste una relazione del tipo
Y = a + bX oppure X = c + dY
Analisi dell’associazione tra due variabili quantitative

Rappresentazione della distribuzione di due variabili quantitative:

PRO CONTRO
Doppia per classi Forma concisa Perdita di informazioni
Doppia semplice Informazione completa Non presentabile

I Le variabili quantitative spesso si PRESENTANO in forma di

distribuzione doppia per classi
I Le variabili quantitative spesso si ANALIZZANO in forma di
distribuzione doppia semplice (ovvero utilizzando tutti i dati)
I Detto ciò , ci si focalizza in prima battuta sull’analisi
dell’associazione per dati in forma di distribuzione doppia semplice
I Per completezza nell’ultima parte di questa sezione si estenderanno i
risultati trovati ai dati rappresentati da distribuzioni doppie di
frequenza
Analisi dell’associazione tra due variabili quantitative
Rappresentazione grafica di due variabili quantitative (scatter plot)

X
Analisi dell’associazione tra due variabili quantitative

La distribuzione doppia presentata nel grafico precedente è la seguente:

X 1 1 2 2.5 1 1 2.5 1 2 2 2.5 1.5 1 0.5 0.5 0.5 1.5 1 1.5 1
Y 1 2 1 1.25 1 1.5 1 2.5 2.5 1.5 2 2.5 2 0.5 0.5 2.5 0.5 2.5 0.25 0.5

I Si considerino le variabili scarto xi⇤ = xi µx e yi⇤ = yi µy

I Dato µx = 0.175 e µy = 0.55, si ottiene la nuova distribuzione
X⇤ 0.825 0.825 1.825 2.325 1.175 1.175 2.675 0.825 1.825 1.825 2.675 1.675 1.175 0.675 0.675 0.325 1.325 0.825 1.675 0.825
Y⇤ 0.45 1.45 0.45 0.70 1.55 0.95 1.55 3.05 1.95 2.05 1.45 1.95 2.55 1.05 0.05 1.95 1.05 1.95 0.30 0.05

I Dalla proprietà traslativa risulta µx ⇤ = 0, µy ⇤ = 0

Nota: come si evince dai dati, una distribuzione doppia di frequenza

avrebbe poco senso (sia per X , Y sia per X ⇤ , Y ⇤ )!
Analisi dell’associazione tra due variabili quantitative
Rappresentazione grafica delle variabili scarto X ⇤ e Y ⇤

IV Y⇤ I

X⇤

III II
Analisi dell’associazione tra due variabili quantitative

I Dal grafico precedente si riesce ad identificare quali sono gli scarti

positivi o negativi (concordi) per entrambe le variabili e quali sono
gli scarti discordi
I I punti nel I e nel III quadrante indicano scarti concordi:
I quando xi⇤ = xi µx > 0 ) yi⇤ = yi µy > 0
I quando xi⇤ = xi µx < 0 ) yi⇤ = yi µy < 0
I I punti nel II e nel IV quadrante indicano scarti disconcordi:
I quando xi⇤ = xi µx > 0 ) yi⇤ = yi µy < 0
I quando xi⇤ = xi µx < 0 ) yi⇤ = yi µy > 0
Analisi dell’associazione tra due variabili quantitative

Rappresentazione grafica
delle variabili scarto X ⇤ e Y ⇤

I I punti in rosso indicano

IV Y⇤ I scarti concordi
I I punti in blu indicano
scarti discordi
I In base alla prevalenza
X⇤ di punti concordi o
discordi si identifica il
tipo di relazione tra le
due variabili

III II
Analisi dell’associazione tra due variabili quantitative

I Se c’è una prevalenza di punti concordi

I ) al crescere della variabile X cresce anche la Y , si parla di
concordanza
I Se c’è una prevalenza di punti discordi
I ) al crescere della variabile X la Y diminuisce, si parla di
discordanza
I Un indice che misura la concordanza o la discordanza è la covarianza
Covarianza

Definizione
La covarianza tra due variabili (quantitative) è definita come la media dei
prodotti degli scostamenti delle variabili X e Y dalle rispettive medie
N
1 X
xy = (xi µx )(yi µy )
N
i=1

Ovvero
1
xy = [(x1 µx )(y1 µy )+(x2 µx )(y2 µy )+. . .+(xN µx )(yN µy )]
N
Covarianza

I Quando gli scarti sono concordi risulta

I xi µx > 0 e yi µy > 0 ) (xi µx )(yi µy ) > 0
I xi µx < 0 e yi µy < 0 ) (xi µx )(yi µy ) > 0
I Quando gli scarti sono discordi risulta
I xi µx > 0 e yi µy < 0 ) (xi µx )(yi µy ) < 0
I xi µx < 0 e yi µy > 0 ) (xi µx )(yi µy ) < 0
I Se la somma degli scarti concordi è maggiore di quella degli scarti
discordi, ovvero se c’è una prevalenza degli scarti concordi (se X "
anche Y ") ) xy > 0
I Se la somma degli scarti concordi è minore di quella degli scarti
discordi, ovvero se c’è una prevalenza degli scarti discordi (se X "
allora Y #) ) xy < 0
Covarianza

I Se due variabili sono statisticamente indipendenti la loro covarianza

è 0 (condizione sufficiente)
I Se la covarianza è 0 non è detto che le due variabili siano
indipendenti
I Infatti la covarianza identifica una relazione di tipo lineare
(Y = a + bX ) tra le variabili

PN
Nota: il numeratore della covarianza (cioè i=1 (xi µx )(yi µy )) si
chiama codevianza
Covarianza, esempio

Si consideri la seguente distribuzione doppia (fittizia)

X -1 0 1 2
Y 1 2 2 3

1 1 1
µx = ( 1 + 0 + 1 + 2) = µy = (1 + 2 + 2 + 3) = 2
4 2 4
N
1 X
xy = (xi µx )(yi µy )
N
i=1
1
= [( 1 0.5)(1 2) + (0 0.5)(2 2)
4
3
+ (1 0.5)(2 2) + (2 0.5)(3 2)] =
4
Tra X e Y c’è concordanza ( xy > 0)
Coefficiente di correlazione lineare

Varianza e covarianza per variabili scarto xi⇤ = x µx e yi⇤ = yi µy :

N N N N
1 X ⇤ 1 X 1 X 1 X 1
µx ⇤ = xi = (xi µx ) = xi µx = µx Nµx = 0
N N N N N
i=1 i=1 i=1 i=1
µy ⇤ = 0
N N N
1 X ⇤ 1 X ⇤ 1 X ⇤
x⇤y ⇤ = (xi µx ⇤ )(yi⇤ µy ⇤ ) = (xi 0)(yi⇤ 0) = xi yi ⇤
N N N
i=1 i=1 i=1
N N N
2 1 X ⇤ 1 X ⇤ 1 X ⇤2
x⇤ = (xi µx ⇤ ) 2 = (xi 0)2 = xi
N N N
i=1 i=1 i=1
N
X
1
2
y⇤ = yi⇤2
N
i=1
Coefficiente di correlazione lineare
Disuguaglianza di Cauchy-Schwarz
Teorema
Nello spazio euclideo R2 si ha:

⇣X
N ⌘2 N
X N
X
zi wi  zi2 wi2
i=1 i=1 i=1

Posto zi = xi⇤ e wi = yi⇤ risulta

⇣X
N ⌘2 N
X N
X
xi⇤ yi⇤  xi⇤2 yi⇤2
i=1 i=1 i=1

Che, per quanto visto precedentemente, equivale a

2 2 2
x⇤y ⇤  x⇤ y⇤
Coefficiente di correlazione lineare

Più in generale si può a↵ermare che

2 2 2
xy  x y

visto che la traslazione (es. xi⇤ = xi µx ) non influenza il risultato del

teorema di Cauchy-Schwarz
Dalla relazione sovraesposta risulta
q q
2  2 2
xy x y

x y  xy  x y

poichè la covarianza può assumere valori positivi e negativi

Coefficiente di correlazione lineare

Dalla relazione trovata è facile ottenere un coefficiente normalizzato:

x y  xy  x y
x y xy x y
 
x y x y x y
xy
1 1
x y
Coefficiente di correlazione lineare

Definizione
Il coefficiente di correlazione lineare tra due variabili quantitative X e Y ,
è il rapporto tra la covarianza e il prodotto degli errori standard
xy
rxy = ,
x y

con rxy 2 [ 1, 1].

Nota: il coefficiente di correlazione lineare misura esclusivamente la
relazione di tipo lineare che esiste tra due variabili
Coefficiente di correlazione lineare: esempio
Calcolare il coefficiente di correlazione lineare per la seguente
distribuzione fittizia
X -1 0 1 2
Y 1 2 2 3

xy = 3/4 = 0.75 calcolato precedentemente

r
1
x = [( 1 0.5)2 + (0 0.5)2 + (1 0.5)2 + (2 0.5)2 ]
4
p
= 1.25 = 1.12
r
1
y = [(1 2)2 + (2 2)2 + (2 2)2 + (2 3)2 ]
4
p
= 0.5 = 0.71
xy 0.75
rxy = = = 0.943 relazione lineare positiva fortissima
x y 1.12 · 0.71
Coefficiente di correlazione lineare

I rxy = 1 ) i dati della distribuzione doppia sono allineati su una

retta con pendenza negativa
I rxy = 1 ) i dati della distribuzione doppia sono allineati su una retta
con pendenza positiva
I rxy = 0 ) i dati della distribuzione doppia non sono in relazione
lineare tra loro
I Valori intermedi rappresentano situazioni intermedie!
Coefficiente di correlazione lineare

Perfetta correlazione lineare

positiva I rxy = 1
I In questo caso la
relazione tra le variabili
X e Y è perfettamente
lineare
I I punti, identificati dalle
coppie della
distribuzione doppia
(xi , yi ) giacciono su una
retta inclinata
positivamente
Coefficiente di correlazione lineare

Perfetta correlazione lineare

negativa I rxy = 1
I In questo caso la
relazione tra le variabili
X e Y è perfettamente
lineare
I I punti, identificati dalle
coppie della
distribuzione doppia
(xi , yi ), giacciono su una
retta inclinata
negativamente
Coefficiente di correlazione lineare

Assenza di correlazione
lineare
I rxy = 0
I In questo caso non vi è
relazione tra le variabili
X eY
I I punti identificati dalle
coppie della
distribuzione doppia
(xi , yi ) sono sparsi
Coefficiente di correlazione lineare

Assenza di correlazione
lineare
I rxy = 0
I In questo caso la
relazione tra le variabili
X e Y è di tipo
parabolico e non di tipo
lineare
I I punti identificati dalle
coppie della
distribuzione doppia
(xi , yi ) giacciono su una
parabola
Coefficiente di correlazione lineare: esempio

Vediamo un esempio numerico in cui tra i dati X e Y vi è una perfetta

relazione non lineare
X -2 -1 1 2
Y 8 2 2 8

µx = ( 2 1 + 1 + 2)/4 = 0 µy = (8 + 2 + 2 + 8)/4 = 5
xy = [( 2 0)(8 5) + ( 1 0)(2 5) + (1 0)(2 5) + (2 0)(8 5)]/4 = 0
x 6= 0 y 6= 0
xy 0
rxy = = = 0 relazione lineare assente
x y x y

Tuttavia risulta yi = 2xi2 , esiste una relazione perfetta non lineare!

Formule alternative per il calcolo della covarianza

PN
I xy = 1
N i=1 (xi µx )yi

N N
1 X 1 X
xy = [(xi µx )(yi µy )] = [yi (xi µx ) µy (xi µx )]
N N
i=1 i=1
N N
1 X 1 X
= yi (xi µx ) µy (xi µx )
N N
i=1 i=1
N N N
1 X 1 X 1 X
= yi (xi µx ) µy (xi µx ) = yi (xi µx )
N N N
i=1 i=1 i=1
| {z }
=0

PN
I xy = 1
N i=1 (yi µy )xi (si dimostra in modo analogo)
Formule alternative per il calcolo della covarianza

PN
I xy = 1
N i=1 xi yi µx µy

N N
1 X 1 X
xy = [(xi µx )(yi µy )] = yi (xi µx )
N N
i=1 i=1
N N N
1 X 1 X 1 X
= (yi xi yi µ x ) = yi xi yi µ x
N N N
i=1 i=1 i=1
N N N
1 X 1 X 1 X
= xi yi µx yi = xi yi µx µy
N N N
i=1 i=1 i=1
| {z }
=µy
Coefficiente rxy : esempio
Per gli studenti del corso C sono note le seguenti statistiche della
distribuzione doppia per peso (X ) e altezza (Y ):
PN
I i=1 xi yi = 2679562
I µx = 66.2, µy = 172.5
PN 2 PN 2
I i=1 xi = 1052416, i=1 yi = 6955947
Calcolo di rxy :
N
1 X 1
xy = xi yi µx µy = 2679562 66.2 ⇥ 172.5 = 75.49
N 233
i=1

2 1052416 p
x = Qx2 µ2x = 66.22 = 131.3 ! x = 131.3 = 11.46
233
2 6955947 p
y = Qy2 µ2y = 172.52 = 90.94 ! y = 90.94 = 9.54
233
xy 75.49
rxy = = = 0.69
x y 11.46 ⇥ 9.54
Interpolazione lineare

I Concetto di interpolazione
I Interpolazione lineare con il metodo dei minimi quadrati
I Modello di regressione (cenni)
I In questa parte del corso X e Y sono sempre variabili quantitative
Interpolazione matematica

I Problema tipico: dati N punti di coordinate (xi , yi ), si vuole trovare

l’equazione di una curva che passi esattamente per tutti gli N punti
Interpolazione matematica

I Il metodo più semplici per risolvere il problema esposto è quello di

utilizzare una funzione polinomiale di grado N 1:

y = a0 + a1 x + a2 x 2 + . . . + aN 1x
N 1

I Infatti si ricorda che per N punti passa una e una sola curva
polinomiale di grado N 1

y = a0 + a1 x

y = a0 + a1 x + a2 x 2
Interpolazione matematica

I Considerazione: trovare una curva passante per N punti ha senso

solo se i punti sono pochi
I Se N è grande la funzione interpolante i punti avrà N coefficienti,
che essendo cosı̀ numerosi fanno perdere alla funzione la sua forza
interpretativa della relazione tra X e Y
I Per esempio se N = 1000 allora il polinomio passante per tutti i
punti avrà 1000 coefficienti (a0 , a1 , . . . , a999 ), un numero troppo
elevato per poter dare una interpretazione della relazione tra X e Y
I Se per esempio N = 3 allora il polinomio sarà composto da 3
coefficienti e la funzione risultante sarà di facile lettura poiché si
tratta di una parabola
Interpolazione statistica

I Problema tipico: dati N punti di coordinate (xi , yi ), si vuole trovare

l’equazione di una funzione data che passi “il più vicino possibile” agli
N punti

Interpolazione matematica Interpolazione statistica

Interpolazione statistica

I L’obiettivo dell’interpolazione statistica è quello di determinare i

parametri di una funzione scelta a priori in modo che tale funzione
sia il più vicino possibile ai punti di coordinate (xi , yi )
I Steps per una interpolazione statistica:
1. Farsi una prima idea della relazione esistente tra X e Y ; tale idea può
scaturire osservando uno scatter plot oppure da conoscenze a priori
2. Individuare una funzione appropriata per tale relazione (es. retta,
parabola, iperbole, etc.)
3. Determinare i parametri della funzione in modo che essa sia quanto
più possibile prossima alle osservazioni (xi , yi )
4. Verificare come la funzione si adatta ai dati (quanto è “vicina” alle
osservazioni)
1. Supporre una relazione tra X e Y

I Rappresentare le coppie (xi , yi ) come punti in un piano cartesiano

(scatter plot)
I Verificare nella letteratura scientifica se siano già state identificate
delle relazioni tra le variabili X e Y oggetto di studio
I Avvalersi delle opinioni di esperti del settore scientifico oggetto di
analisi (aziendalisti, economisti, biologi, medici, etc)
I Utilizzare metodi di analisi più complessi che esulano dall’interesse di
questo corso
2. Scelta della funzione

I Deve avere la capacità di descrivere la relazione supposta al punto 1

I Deve essere semplice, ovvero avere pochi parametri; l’aggiunta di
parametri alla funzione migliora l’adattamento ai dati, ma pregiudica
la possibilità di interpretare la relazione tra le variabili
I La funzione più semplice è la retta y = a0 + a1 x o in alternativa
y = a + bx (funzione lineare)
I Esistono alternative alla scelta di una singola funzione che si adatti a
tutti i dati; ciò esula dall’interesse di questo corso
3. Determinazione dei parametri

I Esistono in letteratura scientifica moltissimi metodi per determinare i

parametri di una funzione che deve interpolare (interpolazione
statistica) N dati
I Uno dei metodi più utilizzati è il metodo dei minimi quadrati
I Tale metodo si basa sulla minimizzazione delle distanze al quadrato
tra gli N punti e una funzione data
I Il metodo dei minimi quadrati è spesso denominato con l’acronimo
OLS (dall’inglese Ordinary Least Squares)
Il metodo dei minimi quadrati

I Siano dati N punti di coordinata (xi , yi ) con i = 1, . . . , N

I Tali punti rappresentano N unità statistiche su cui sono state
rilevate le variabili X e Y
I Si consideri una funzione f (x) appropriata a descrivere la relazione
tra X e Y
y = f (x) con parametri a0 , a1 , . . . , ak
I Il metodo dei minimi quadrati consiste nel ricavare i parametri della
funzione f (x) –a0 , . . . , ak – tale che la somma delle distanze al
quadrato tra yi (ordinate empiriche) e funzione (f (xi ), ordinate
teoriche) sia minima:
N
X 2
min yi f (xi )
(a0 ,...,ak )2R
i=1
Il metodo dei minimi quadrati: rappresentazione grafica

= |yi f (xi )|

f (xi )

xi
PN
Obiettivo: minimizzare i=1 (yi f (xi ))2 rispetto ai parametri a0 , . . . , ak
Il metodo dei minimi quadrati

Funzione da minimizzare:
N
X 2
S(a0 , . . . , ak ) = yi f (xi )
i=1

S è una funzione convessa su R, quindi ogni punto critico di S è un

punto di minimo assoluto:
8 @S
< @a0 = 0
>
Condizioni del I ordine: ..
> .
: @S
@ak = 0

Il vettore di parametri â0 , . . . , âk che soddisfa le condizioni del I ordine

identifica quella funzione f (x) che passa “il più vicino possibile” alle N
coppie (xi , yi )
Il metodo dei minimi quadrati

I Metodo dei minimi quadrati per determinare i parametri (a, b) della

funzione lineare f (x) = a + bx
I Funzione da minimizzare:
N
X N
X N
X
S(a, b) = (yi f (xi ))2 = (yi (a + bxi ))2 = (yi a bxi )2
i=1 i=1 i=1

I Condizioni del I ordine:

8 @S 8 PN
< @a = 0 < 2 i=1 (yi a bxi ) = 0
!
: @S : PN
@b = 0 2 i=1 (yi a bxi )xi = 0
Il metodo dei minimi quadrati

La soluzione alle condizioni del I ordine è un minimo assoluto (poiché S è

convessa):
8 PN 8 PN P
< 2 i=1 (yi a bxi ) = 0 < i=1 yi Na b N i=1 xi = 0
!
: P : PN P P
2 Ni=1 (yi a bxi )xi = 0 i=1 yi xi a Ni=1 xi b N 2
i=1 xi = 0

8 PN PN
< Na + b i=1 xi = i=1 yi
! ! In forma matriciale:
: PN PN PN
a i=1 xi + b i=1 xi2 = i=1 yi xi

2 PN 32 3 2 PN 3
N i=1 xi a i=1 yi
!4 54 5=4 5
PN PN 2 PN
i=1 xi i=1 xi
b i=1 yi xi
Il metodo dei minimi quadrati

In forma matriciale compatta il sistema si può scrivere come:

Xp = y

Dove
2 PN 3 2 3 2 PN 3
N i=1 xi a i=1 yi
X=4 5 p=4 5 y=4 5.
PN PN PN
i=1 xi i=1 xi
2 b i=1 yi xi

X è una matrice di costanti note, p è il vettore delle incognite e y è un

vettore di costanti note

Nota: in matematica generalmente si scrive Ax = b, con A e b noti e x

incognito. Nel caso in questione le variabili x e y sono variabili statistiche
e sono valori noti (sono numeri), mentre i parametri a e b (vettore p)
sono le incognite del sistema
Il metodo dei minimi quadrati

I X è una matrice quadrata simmetrica di ordine 2

I rk(X) = 2 poiché |X| =
6 0
I rk(X|y) = rk(X)
I Per il teorema di Rouchè -Capelli poiché rk(X|y) = rk(X) ) il
sistema ammette soluzioni
I Inoltre, essendo rk(X) = 2 ed essendo il numero di equazioni pari a
2 il sistema ammette un’unica soluzione
I La soluzione del sistema è p = X 1 y
Il metodo dei minimi quadrati
Avendo dimostrato che esiste un’unica soluzione si propone di utilizzare
la Regola di Cramer per risolvere il sistema
PN PN
yi xi
Pi=1
N Pi=1
N 2 PN PN PN PN
i=1 yi xi i=1 xi
2
i=1 yi i=1 xi i=1 xi i=1 yi xi
a= PN = PN 2 PN 2
N xi N i=1 xi i=1 xi
PN Pi=1
N 2
i=1 xi i=1 xi

PN
N yi
PN Pi=1
N PN PN PN
i=1 xi i=1 yi xi N i=1 xi yi i=1 xi i=1 yi
b= PN = PN PN 2
N xi N i=1 xi2 i=1 xi
PN Pi=1
N 2
i=1 xi i=1 xi
Il metodo dei minimi quadrati

Dopo alcuni passaggi e sfruttando una proprietà algebrica (che non si

dimostra) dei parametri ottenuti con il metodo dei minimi quadrati, si
ottiene:
1
PN PN
xy (xi µx )(yi µy ) i=1 (xi µx )(yi µy )
b = 2 = N 1i=1 PN = PN
x (x µ ) 2 (x µx ) 2
N i=1 i x i=1 i

a = µy bµx

La proprietà algebrica di cui sopra è la seguente: i parametri a e b di una

retta di equazione y = a + bx ottenuti con il metodo dei minimi quadrati
garantiscono che la retta passi per il punto (µx , µy ) ) µy = a + bµx
Interpolazione lineare: interpretazione dei parametri
I Retta interpolante y = a + bx
I X è detta variabile indipendente
I Y è detta variabile dipendente
I Data una distribuzione doppia di valori (xi , yi ), i = 1, . . . , N con il
metodo dei minimi quadrati si determina il valore dei parametri a e b
I La retta cosı̀ determinata è quella che passa il più vicino possibile a
tutti i punti di coordinate (xi , yi )

X
Interpolazione lineare: interpretazione dei parametri

I Equazione della retta interpolante: y = a + bx

I Interpolazione lineare: f (xi ) = a + bxi = ŷi
I a: intercetta, esprime il valore di Y quando X = 0
I b: coefficiente angolare, misura la variazione di Y quando X
aumenta di una unità
I b > 0 ) xy > 0: relazione lineare positiva ! quando la X " di 1
unità ) la Y " in media di b (e viceversa)
I b < 0 ) xy < 0: relazione lineare negativa ! quando la X " di 1
unità Rightarrow la Y # in media di b (e viceversa)
I b = 0 ) xy = 0: assenza di relazione lineare ! al variare della X la
Y resta costante
I I parametri a e b si interpretano nella unità di misura della Y
Interpolazione lineare: esempio

Si consideri la seguente distribuzione doppia (fittizia) per le variabili

quantitative X e Y :
X 1 3 4 5 8
Y 5 4 7 10 11

Calcolare i parametri della retta interpolante e commentare il risultato

ottenuto
Interpolazione lineare: esempio

xi yi xi µx yi µy (xi µx )(yi µy ) (xi µx )2

1 5 3.2 2.4 7.68 10.24
3 4 1.2 3.4 4.08 1.44
4 7 0.2 0.4 0.08 0.04
5 10 0.8 2.6 2.08 0.64
8 11 3.8 3.6 13.68 14.44
21 37 0.0 0.0 27.60 26.80

Sfruttando i dati riportati nella tabella (con i totali in ultima riga) si ottiene:
I N = 5, µx = 21
5
= 4.2, µy = 37
5
= 7.4
I b= xy
2 =
CODxy
DEVx
= 27.6
26.8
= 1.03
x
I a = µy bµx = 7.4 1.03 · 4.2 = 3.075
I a = 3.07 è il valore assunto dalla variabile Y per x = 0
I b = 1.03 significa che all’aumentare della X di una unità , la Y aumenta
in media di 1.03 unità
Interpolazione lineare: esempio

Rappresentazione grafica

Y y = 3.075 + 1.03x
11
10

5
4

X
1 3 4 5 8
Interpolazione lineare: esempio

Popolazione italiana dall’unità al 2011 (dati

in migliaia). Fonte: ISTAT, Censimenti

Anno Popolazione Rappresentazione grafica dei dati in tabella

1861 26 328
1871 28 151

57
1881 29 791

54
1891 NA

Popolazione Residente in Italia (Milioni)

51
1901 33 778

48
1911 36 921

42
1921 37 856

39
1931 41 043

36
1936 42 399

33
10941 NA

27
1961 50 624
1971 54 137

22
1981 56 557 1861 1881 1901 1921 1936 1951 1971 1991 2011

1991 56 778 Anno

2001 58 008
2011 59 434
I Dallo scatter plot si intuisce che la retta costituisce un buon modello
matematico (funzione matematica) per l’evoluzione della
popolazione nel tempo

I Si decide di e↵ettuare una interpolazione lineare per la popolazione

in funzione del tempo

I X : variabile tempo (anno)

I Y : variabile popolazione censita

I Con il metodo dei minimi quadrati si ottiene: a = 448 953 e

b = 254
Interpolazione lineare: esempio
Rappresentazione grafica delle osservazioni e della retta interpolante

59434
Y = -448953 + 254 X

54137
Popolazione Residente in Italia (Migliaia)

47516
39397
32963
27299
22177

1861 1881 1901 1921 1936 1951 1971 1991 2011

Anno
Interpolazione lineare: esempio

Interpretazione dei parametri:

I b = 254: la popolazione è aumentata in media di 254 (migliaia) per
ogni anno della serie storica
I a = 448 953: l’ammontare della popolazione nell’anno 0; come può
essere un valore negativo?!
La popolazione non può mai assumere un valore negativo
I In realtà il modello descrive bene i dati soltanto nella finestra
temporale analizzata (1861-2011)
I Per valori di tempo distanti dalla situazione osservata il modello
rischia di fornire valori sbagliati della Y
I Per casa: provate a traslare la X prendendo come valore 0 il 1861
(es. x1 = 0 (1861), x2 = 10 (1871), . . .) e ricalcolare i parametri a e
b; vedrete che b non cambia mentre a cambia
Interpolazione ed estrapolazione

I L’equazione della retta ottenuta con il metodo dei minimi quadrati

può essere utilizzata anche per prevedere il valore della Y in
corrispondenza di un valore fissato della X
I Esempio: potremmo essere interessati a conoscere l’ammontare della
popolazione nel 1891 (dato mancante) o per un qualsiasi anno per
cui non si hanno informazioni
I ŷ = a + bx, noti i parametri per x = 1891 si trova il valore
interpolato della popolazione in quell’anno

ŷ1891 = 448 953 + 254 · 1891 = 31 366.59

I L’ammontare della popolazione previsto dal modello lineare per il

1891 è 31 366 590 unità
Interpolazione ed estrapolazione

I Interpolazione: quando la previsione della variabile dipendente (Y )

viene fatta per valori della variabile indipendente (X ) compresi
nell’intervallo dei valori osservati; previsione per x = x0 , se
x0 2 [min(x), max(x)] ) Interpolazione

I Estrapolazione: quando la previsione della variabile dipendente (Y )

viene fatta per valori della variabile indipendente (X ) non compresi
nell’intervallo dei valori osservati; previsione per x = x0 , se
x0 2
/ [min(x), max(x)] ) Estrapolazione
I L’estrapolazione è un’operazione rischiosa! Senza dati non è possibile
avere un’idea di quali relazioni vi siano oltre i confini dell’intervallo
dei valori della variabile dipendente X
I La capacità previsionale di un modello e dei relativi rischi
nell’interpretare i risultati ottenuti esula da questo corso (ed è un
campo di ricerca attivo in tantissimi settori)
Interpolazione ed estrapolazione

Interpolazione Estrapolazione
Y Y
ŷ = f (x0 )

11 11
10 10
ŷ = f (x0 )

7 7

5 5
4 4

1 3 4 5 x0 8
X 1 3 4 5 8 x0
X
min(x) max(x) min(x) max(x)
4. Bontà di adattamento

Riepiloghiamo gli steps per una interpolazione statistica:

1. Individuare la relazione esistente tra X e Y (scatter plot o
conoscenze a priori)
2. Individuare una funzione appropriata per tale relazione (es. retta,
parabola, iperbole, etc.)
3. Determinare i parametri della funzione in modo che essa sia quanto
più possibile prossima alle osservazioni (xi , yi )
4. Verificare come la funzione si adatta ai dati (quanto è “vicina” alle
osservazioni), cioè verificare la bontà di adattamento
4. Bontà di adattamento

Si consideri la situazione rappresenta dai due grafici seguenti:

I Scatter plot di
Y = 4,9 + 0,4X
5
distribuzioni doppie
8 10

distinte caratterizzate
Y

6
4

dalla stessa retta

0 2 4 6 8 10 interpolante
X
I Nel grafico in alto i punti
sono distanti dalla retta
Y = 4,9 + 0,5X
(alta variabilità della Y |X )
9

I Nel grafico in basso i

8
Y

7
6

punti sono molto vicini

0 2 4 6 8 10
alla retta (bassa variabilità
X
della Y |X )
4. Bontà di adattamento
Per costruire un indice che misuri la bontà di adattamento si consideri la
seguente scomposizione per ogni osservazione di coordinata xi , yi :

yi µy = (ŷi µy ) + (yi ŷi )

yi yˆi
ŷi
yˆi µy
µy

X
4. Bontà di adattamento

Dato yi µy = (ŷi µy ) + (yi ŷi )

I (yi µy ): è lo scarto (dalla media) i-esimo
I (ŷi µy ): parte dello scarto “spiegato” dalla retta
I (yi ŷi ) = ei : parte dello scarto “non spiegato” dalla retta
I ŷi = f (xi ) = a + bxi
I Dalla scomposizione dello scarto è possibile dimostrare che
N N N
1 X 1 X 1 X
(yi µy ) 2 = (ŷi µy ) 2 + (yi ŷi )2
N N N
i=1 i=1 i=1
| {z } | {z } | {z }
2 2 2
y ŷ e
Varianza spiegata Varianza residua
tramite il modello
4. Bontà di adattamento

I Tanto maggiore è la varianza spiegata rispetto alla varianza residua,

tanto migliore sarà l’adattamento della funzione ai punti osservati
I Esistono due situazioni estreme:
I 2
y = 2
ŷ : il modello spiega tutta la varianza di Y
I 2
y = 2
e: tra i dati non esiste una relazione spiegata dal modello
I Si desidera costruire un indice normalizzato che vari tra le due
situazioni limite
4. Bontà di adattamento: Indice di Determinazione Lineare

Definizione
Siano (xi , yi ), i = 1, . . . , N le coppie di valori di una distribuzione doppia
e siano µx e µy le medie di X e Y . Sia yˆi = f (xi ) il valore della funzione
interpolante f (x) nel punto xi . Una misura della bontà di adattamento
della funzione f (x) ai dati osservati (xi , yi ) è data dall’Indice di
Determinazione Lineare:
1
PN 1
PN
2 N i=1 (ŷi µy ) 2 N i=1 (yi ŷi )2
R = 1 PN =1 1
P N
N i=1 (yi µy ) 2 N i=1 (yi µy ) 2
2 2
ŷ e
R2 = 2
=1 2
y y
4. Bontà di adattamento: Indice di Determinazione Lineare

I R 2 = 0: assenza di relazione espressa da f (x)

I R 2 = 1: perfetta dipendenza di Y da X , i punti giacciono sulla
funzione f (x)
I Quanto più R 2 si avvicina a 1 tanto più la funzione f (x) si adatta
bene ai dati
Indice di determinazione lineare: esempio

I Calcolare R 2 sui dati fittizi usati nell’esempio dell’interpolazione lineare

I Si ricorda che y = 3.07 + 1.03x

xi yi ŷi (yi µy ) 2 (ŷi µy )2

1 5 4.1 5.76 10.86
3 4 6.16 11.56 1.53
4 7 7.19 0.16 0.04
5 10 8.22 6.76 0.68
8 11 11.31 12.96 15.31
21 37 37.2 28.42

I ŷi = 3.07 + 1.03xi , es. ŷ1 = 3.07 + 1.03 · 1 = 4.10

PN PN
1 µy )2 µy )2
I R2 = N
1 Pi=1
N
(ŷi
= Pi=1
N (y
(ŷi
= 28.42
= 0.764
N i=1
(yi µy )2 i=1 i
µy )2 37.2
Indice di determinazione lineare: interpretazione

I Si è visto che R 2 misura la bontà di adattamento della funzione

interpolante ai dati
I Si è visto che R 2 è il rapporto tra la varianza della Y spiegata dalla
funzione interpolante e la varianza totale della Y
I Ciò implica che R 2 esprime la frazione di variabilità della Y spiegata
dalla funzione interpolante
I Dunque, R 2 è la frazione di variabilità di Y spiegata dalla variabilità
di X tramite la funzione f (x)
I Esempio di interpretazione: R 2 = 0.764, significa che il 76.4% della
variabilità di Y è spiegata tramite la funzione y = 3.07 + 1.03x,
ovvero il 76.4% della variabilità di Y dipende dalla variabilità della X
tramite la funzione y = a + bx
I Ciò indica un ottimo adattamento della funzione ai dati
Formula alternativa per R 2

Ricordando che:
I µy = a + bµx (a, b calcolati con il metodo dei minimi quadrati sono
tali che la retta passa per il punto (µx , µy ))
I ŷi = a + bxi

1
PN PN
2 N i=1 (ŷi µy ) 2 + bxi (a + bµx ))2
i=1 (a
R = 1
PN = P N
N i=1 (yi µy ) 2 i=1 (yi µy ) 2
PN PN 2 PN 2
(a + bxi a bµx )2 i=1 b(xi µx ) i=1 b (xi µx ) 2
= i=1PN = P N
= P N
i=1 (yi µy ) 2 i=1 (yi µy ) 2 i=1 (yi µy ) 2
P N P N
b2 (xi µx )2 b2 1 (xi µx )2 b2 2
= PN i=1 = 1NPNi=1 = 2x
i=1 (yi µy ) 2 N i=1 (yi µy ) 2 y
Relazione tra R 2 e rxy

I Solamente nel caso lineare (y = a + bx) vale R 2 = rxy 2

I Dimostrazione (si sfrutta la formulazione alternativa di R 2

dimostrata in precedenza):
⇣ ⌘2
1
PN 2 xy 2
i=1 (ŷi µy ) b 2 x2 2 x
R2 = N
1
PN = 2
= x
2
N i=1 (yi µy ) 2 y y
2 2
xy
4
2
x
xy
2
2 ⇣ ⌘2
x x xy xy 2
= 2
= 2
= 2 2
= = rxy cvd
y y x y x y

I Solo nel caso lineare da rxy ricavo R 2 ! rxy

2
= R2
p
I ATTENZIONE: da R 2 non posso ricavare rxy ! R 2 6= rxy
Relazione tra coefficiente angolare, rxy e R 2

I Si consideri la retta interpolante y = a + bx

I Si consideri anche la retta interpolante x = c + dy
I Dal metodo dei minimi quadrati risulta b = xy2 e d = xy
2
x y

I Il coefficiente di correlazione lineare (rxy ) è pari alla media

geometrica dei coefficienti angolari b e d
s
p r 2
xy xy xy xy
b·d = 2
· 2 = 2 2
= = rxy
x y x y x y

2
I E’ inoltre evidente che b · d = xy
2 2
2
= rxy = R 2 (solo nel caso lineare)
x y
Interpolazione e rxy per distribuzioni doppie di frequenze
I Si consideri il caso in cui i dati di due variabili quantitative siano
disponibili solo sotto forma di distribuzione doppia di frequenza
I Per ottenere rxy e i parametri della retta a e b è necessario calcolare
medie, varianze e covarianza
I Il calcolo di medie e varianze per una distribuzione doppia di
frequenza è già stato a↵rontato
I E’ necessario fornire una formulazione per la covarianza nel caso di
distribuzioni doppie di frequenza
I Siano X e Y due variabili quantitative rispettivamente con k e h
modalità (o classi), la covarianza è :
k h
1 XX
xy = (xi µx )(yj µy )nij
N
i=1 j=1

Nota: in caso di distribuzione doppia di frequenza per classi xi e yj sono

il valore centrale della classe i esima e j esima
Covarianza per una distribuzione doppia di frequenza

Distribuzione di frequenza per classi di peso e altezza degli studenti del

corso C

(40,50] (50,70] (70,90] (90,120] Tot

(140,160] 10 19 1 0 30
(160,170] 15 57 7 0 79
(170,180] 0 46 34 1 81
(180,210] 0 10 30 3 43
Tot 25 132 72 4 233

I Dato che le modalità sono espresse in classi si utilizza il valore

centrale per calcolare medie, varianze e covarianza
Covarianza per una distribuzione doppia di frequenza
45 60 80 105 Tot
150 10 19 1 0 30
165 15 57 7 0 79
175 0 46 34 1 81
195 0 10 30 3 43
Tot 25 132 72 4 233

I µx = 1
(150 ⇥ 30 + 165 ⇥ 79 + 175 ⇥ 81 + 195 ⇥ 43) = 172.1
233
I µy = 1
(45 ⇥ 25 + 60 ⇥ 132 + 80 ⇥ 72 + 105 ⇥ 4) = 65.3
233
Pk Ph
I Covarianza: xy = 1
i=1 j=1 (xi µx )(yj µy )nij
N

1 ⇥
xy = (150 172.1)(45 65.3)10 + (150 172.1)(60 65.3)19 + (150 172.1)(80 65.3)1
233
+ (150 172.1)(105 65.3)0 + (165 172.1)(45 65.3)15 + (165 172.1)(60 65.3)57
+ (165 172.1)(80 65.3)7 + (165 172.1)(105 65.3)0 + (175 172.1)(45 65.3)0
+ (175 172.1)(60 65.3)46 + (175 172.1)(80 65.3)34 + (175 172.1)(105 65.3)1
+ (195 172.1)(45 65.3)0 + (195 172.1)(60 65.3)10
⇤
+ (195 172.1)(80 65.3)30 + (195 172.1)(105 65.3)3 = 96.3
Interpolazione lineare: esempio

Dataset: voto al diploma, età , voto all’esame di economia aziendale 1 e matematica generale di
10 studenti del corso C scelti a caso tra coloro che hanno sostenuto entrambi gli esami

Voto diploma Eta Aziendale1 Matematica

12 80 19 25 27
223 86 20 18 18
32 100 19 22 20
130 100 43 24 26
116 100 19 18 19
135 90 19 24 27
156 100 19 29 30
103 90 21 24 18
27 90 19 24 30
58 100 19 29 30

I Variabile dipendente Y : Aziendale1

I Variabile indipendente X : Voto diploma
Interpolazione lineare: esempio

Step 1: Relazione tra X e Y

25
Aziendale1

80 85 90 95 100
Voto diploma

Figura: Scatter plot di Voto al diploma e voto ad Aziendale 1 per gli studenti del
croso C che hanno passato sia Aziendale sia Matematica
Interpolazione lineare: esempio

Step 2: Scelta della funzione

I Il grafico non suggerisce una relazione funzionale evidente tra i dati
osservati
I In questi casi si possono provare diverse funzioni e vedere quale
fornisce risultati migliori
I Bisogna tenere presente che all’aumentare del grado della funzione
interpolante aumenta il valore di R 2 (salvo casi particolari) ! infatti
nel caso di un polinomio di grado N 1 passante per N punti si
ottiene R 2 = 1
I E’ necessario un equilibrio tra grado/complessità della funzione e
bontà di adattamento (R 2 )
I Per questa applicazione come esempio si sceglie di usare la funzione
lineare y = a + bx
Interpolazione lineare: esempio
Step 3: Determinare i parametri della funzione

xi yi xi µx yi µy (xi µx )(yi µy ) (xi µx ) 2 (yi µy ) 2

80 25 -13.6 1.3 -17.68 184.96 1.69
86 18 -7.6 -5.7 43.32 57.76 32.49
100 22 6.4 -1.7 -10.88 40.96 2.89
100 24 6.4 0.3 1.92 40.96 0.09
100 18 6.4 -5.7 -36.48 40.96 32.49
90 24 -3.6 0.3 -1.08 12.96 0.09
100 29 6.4 5.3 33.92 40.96 28.09
90 24 -3.6 0.3 -1.08 12.96 0.09
90 24 -3.6 0.3 -1.08 12.96 0.09
100 29 6.4 5.3 33.92 40.96 28.09
936 237 0.0 0.0 44.80 486.40 126.10

I µx = 93.6, µy = 23.7
I b= CODxy
= 44.8
= 0.092,a = µy bµx = 23.7 (0.092) ⇥ 93.6 = 15.08
DEVx 486.4
Interpolazione lineare: esempio

Step 4: misurare la bontà di adattamento

I R 2 = rxy
2

I rxy = xy
=p
CODxy
= p 44.8
= 0.18
x y DEVx DEVy 486.4 ⇥ 126.1

I rxy
2
= 0.182 = 0.03 = R 2

I X : voto diploma, Y : voto

27.5
aziendale 1
Voto aziendale 1

25.0
I y = 15.079 + 0.092x
22.5
I R 2 = 0.03: tramite la
20.0 funzione lineare la variabile
17.5
X spiega il 3% della
80 85 90 95 100
Voto diploma variabilità della Y
Interpolazione lineare: esempio

Relazione tra voto al diploma e voto di aziendale 1 per tutti gli studenti
che hanno passato entrambi gli esami del primo semestre (R 2 = 10.6%)

30.0

27.5
Voto aziendale 1

Genere
25.0
Maschio

22.5 Femmina

20.0

17.5
60 70 80 90 100
Voto al diploma
La matrice varianza-covarianza

I Quando per un dato collettivo si sono misurate alcune variabili

quantitative è possibile costruire una matrice che riporta varianza e
covarianza di tutte le variabili
I Questa matrice avrà nella posizione ij la covarianza tra la variabile
i-esima e la j-esima; sulla diagonale principale, posizione ii, ci
saranno dunque le varianze (si ricorda che xx = x2 )
I Per esempio, se X , Y , Z e W sono variabili quantitative, si può
costruire la seguente matrice di varianza-covarianza:
X Y Z W
2
X x xy xz xw
2
Y yx y yz yw
2
Z zx zy z zw
2
W wx wy wz w
La matrice delle correlazioni lineari

I A partire dalla matrice varianza-covarianza è immediata la

costruzione della matrice delle correlazioni lineari
I Questa matrice avrà nella posizione ij la correlazione lineare tra la
variabile i-esima e la j-esima; sulla diagonale principale, posizione ii,
avremo il valore 1 (è facile dimostrare che rxx = 1)
I Per esempio, se X , Y , Z e W sono variabili quantitative, la matrice
delle correlazioni lineari è :
X Y Z W
X 1 rxy rxz rxw
Y ryx 1 ryz ryw
Z rzx rzy 1 rzw
W rwx rwy rwz 1
La matrice delle correlazioni lineari: esempio

Variabili: altezza, peso, voto diploma, voto matematica, voto aziendale

Altezza Peso Diploma Matematica Aziendale
Altezza 1.000 0.672 0.053 0.056 0.242
Peso 0.672 1.000 0.064 -0.068 0.010
Diploma 0.053 0.064 1.000 0.284 0.326
Matematica 0.056 -0.068 0.284 1.000 0.485
Aziendale 0.242 0.010 0.326 0.485 1.000
Interpolazione e Regressione

I Quando lo scopo principale dell’interpolazione è quello di stimare la

relazione tra la variabile dipendente (Y ) e la variabile indipendente (X )
allora questo processo di stima è denominato regressione
I Se si vuole stimare Y mediante X per mezzo di una certa equazione, tale
equazione verrà indicata equazione di regressione di Y in X
I La corrispondente rappresentazione grafica, assumerà la denominazione di
curva (o retta) di regressione di Y in X
I Se l’equazione cercata è un’equazione di primo grado, allora siamo di
fronte alla regressione lineare o del primo ordine
I La relazione tra le variabili Y ed X nella regressione lineare si esprime nel
modo seguente
yi = a + bxi + ei

Nota: la regressione è uno strumento proprio dell’inferenza statistica e non verrà

trattato sotto questo aspetto in questo corso. Per chiarimenti sull’interpolazione
riferirsi al testo F. Giusti, “Introduzione alla Statistica”, Loescher, 1995

Potrebbero piacerti anche

(Lez. 1) Concetti Introduttivi
Nessuna valutazione finora
(Lez. 1) Concetti Introduttivi
32 pagine
STATISTICA
Nessuna valutazione finora
STATISTICA
3 pagine
Capitolo 1
Nessuna valutazione finora
Capitolo 1
6 pagine
Statistica
Nessuna valutazione finora
Statistica
54 pagine
Analisi Statistica
Nessuna valutazione finora
Analisi Statistica
100 pagine
Lezione 2 Statistica Descrittiva
Nessuna valutazione finora
Lezione 2 Statistica Descrittiva
82 pagine
Statistica Univariata
Nessuna valutazione finora
Statistica Univariata
33 pagine
Statistica e Metodologia Della Ricerca
Nessuna valutazione finora
Statistica e Metodologia Della Ricerca
13 pagine
Slides Statistica Intro
Nessuna valutazione finora
Slides Statistica Intro
23 pagine
Statisticadescrittiva
Nessuna valutazione finora
Statisticadescrittiva
75 pagine
Statistica Liceo
Nessuna valutazione finora
Statistica Liceo
19 pagine
La Mia Opinione È Che Cos'è La Statistica
Nessuna valutazione finora
La Mia Opinione È Che Cos'è La Statistica
4 pagine
Introduzione Statistica
Nessuna valutazione finora
Introduzione Statistica
11 pagine
Algebra 1 SASSO 559-608 Statistica
Nessuna valutazione finora
Algebra 1 SASSO 559-608 Statistica
49 pagine
Riassuntone Statistica
Nessuna valutazione finora
Riassuntone Statistica
55 pagine
Descrittiva Univariata
Nessuna valutazione finora
Descrittiva Univariata
31 pagine
Note Sulle Statistiche Descrittive
Nessuna valutazione finora
Note Sulle Statistiche Descrittive
27 pagine
I - Introduzione
Nessuna valutazione finora
I - Introduzione
3 pagine
Statistica
Nessuna valutazione finora
Statistica
52 pagine
Lezione 1 Statistica Descrittiva 1
Nessuna valutazione finora
Lezione 1 Statistica Descrittiva 1
24 pagine
Statistica 2° Semestre - Appunti
Nessuna valutazione finora
Statistica 2° Semestre - Appunti
36 pagine
02 Introduzione Alla Statistica 1
Nessuna valutazione finora
02 Introduzione Alla Statistica 1
53 pagine
Dispense Statistica
Nessuna valutazione finora
Dispense Statistica
21 pagine
STATISTICA
Nessuna valutazione finora
STATISTICA
5 pagine
Lezione 1
Nessuna valutazione finora
Lezione 1
18 pagine
01-Introduzione Alla Statistica
Nessuna valutazione finora
01-Introduzione Alla Statistica
32 pagine
1.a Sintesi Di Un Insieme Di Dati - Rappresentazioni Tabellari e Grafiche
Nessuna valutazione finora
1.a Sintesi Di Un Insieme Di Dati - Rappresentazioni Tabellari e Grafiche
58 pagine
Statistica Parte 1
Nessuna valutazione finora
Statistica Parte 1
22 pagine
Statistica 1 Semestre
Nessuna valutazione finora
Statistica 1 Semestre
22 pagine
Statistica Università
Nessuna valutazione finora
Statistica Università
23 pagine
Dispensa Statistica
Nessuna valutazione finora
Dispensa Statistica
45 pagine
La Statistica: 0. Introduzione
Nessuna valutazione finora
La Statistica: 0. Introduzione
7 pagine
Statistica Libro Molto Dispersivo Ma Con Esercizi Utili A Imparare Le Tecniche Statistiche
Nessuna valutazione finora
Statistica Libro Molto Dispersivo Ma Con Esercizi Utili A Imparare Le Tecniche Statistiche
57 pagine
Statistica
Nessuna valutazione finora
Statistica
19 pagine
Docsity Riassunto Introduzione Alla Statistica Mcgraw Hill
Nessuna valutazione finora
Docsity Riassunto Introduzione Alla Statistica Mcgraw Hill
9 pagine
Esercizi Di Statistica Con Soluzioni
Nessuna valutazione finora
Esercizi Di Statistica Con Soluzioni
127 pagine
Introduzione2023 24
Nessuna valutazione finora
Introduzione2023 24
37 pagine
La Statistica e Le Statistiche - 24 Pagine-2.docxcon Modifiche
Nessuna valutazione finora
La Statistica e Le Statistiche - 24 Pagine-2.docxcon Modifiche
26 pagine
Concetti Di Base (Levine)
Nessuna valutazione finora
Concetti Di Base (Levine)
11 pagine
Dispense Prof. Ricci - Probabilità e Statistica
Nessuna valutazione finora
Dispense Prof. Ricci - Probabilità e Statistica
81 pagine
New Levine Capitolo 01
Nessuna valutazione finora
New Levine Capitolo 01
11 pagine
La Statistica Può Essere Divisa in Due Rami Principali.
Nessuna valutazione finora
La Statistica Può Essere Divisa in Due Rami Principali.
3 pagine
Statistica Appunti Lezione Libro
Nessuna valutazione finora
Statistica Appunti Lezione Libro
57 pagine
Terminologia Statistica
Nessuna valutazione finora
Terminologia Statistica
28 pagine
Statistica22 23
Nessuna valutazione finora
Statistica22 23
113 pagine
Statistica Appunti
Nessuna valutazione finora
Statistica Appunti
10 pagine
Statistica Cap1 New
Nessuna valutazione finora
Statistica Cap1 New
42 pagine
Concetti Di Base Di Biostatistica
Nessuna valutazione finora
Concetti Di Base Di Biostatistica
3 pagine
Corso 1 Rilevazioni Tabelle e Rappresentazioni Grafiche
Nessuna valutazione finora
Corso 1 Rilevazioni Tabelle e Rappresentazioni Grafiche
46 pagine
Accesso Economia e Management - Dispense Statistica
Nessuna valutazione finora
Accesso Economia e Management - Dispense Statistica
141 pagine
Unità 1 Statistica Inferenziale Introduzione
Nessuna valutazione finora
Unità 1 Statistica Inferenziale Introduzione
19 pagine
Lezioni Statistica v1
Nessuna valutazione finora
Lezioni Statistica v1
66 pagine
Riassunto Statistica
Nessuna valutazione finora
Riassunto Statistica
79 pagine
Appunti Di Statistica
Nessuna valutazione finora
Appunti Di Statistica
15 pagine
Statistic A
Nessuna valutazione finora
Statistic A
46 pagine
STATISTICA
Nessuna valutazione finora
STATISTICA
56 pagine
MBarchittaLez1 2anno2021 22statistica
Nessuna valutazione finora
MBarchittaLez1 2anno2021 22statistica
47 pagine
Off Season Under 14 A 1
Nessuna valutazione finora
Off Season Under 14 A 1
18 pagine
4-Esercizi Eta2 Soluzione
Nessuna valutazione finora
4-Esercizi Eta2 Soluzione
7 pagine
6 - Associazione
Nessuna valutazione finora
6 - Associazione
22 pagine
Riepilogo Libro Coronella
Nessuna valutazione finora
Riepilogo Libro Coronella
1 pagina
Lezioni Di Statistica - Parte I
Nessuna valutazione finora
Lezioni Di Statistica - Parte I
105 pagine
I Metodi Della Ricerca Educativa PDF
Nessuna valutazione finora
I Metodi Della Ricerca Educativa PDF
22 pagine
Dispensa Corso Statistic A 2011 Villani
Nessuna valutazione finora
Dispensa Corso Statistic A 2011 Villani
43 pagine
Appunti Statistica
Nessuna valutazione finora
Appunti Statistica
5 pagine
Statistica 200
Nessuna valutazione finora
Statistica 200
36 pagine
Statistica Descrittiva - Esercizi
Nessuna valutazione finora
Statistica Descrittiva - Esercizi
4 pagine