Sei sulla pagina 1di 47

Analisi della regressione

Descrizione della procedura – 5I – 12 ottobre 2020


Indagine su due variabili
Cosa ci posso fare?
% Tasso
popolazione omicidi
sotto il (n. om. X
Stato livello di 100mila
U.S.A. povertà ab.)
x y
AK 9,1 9
AL 17,4 11,6
AR 20 10,2
….. …. ….
WY 13,3 3,4
Analisi della regressione
• Posso prendere in
% Tasso
considerazione le due variabili
popolazione omicidi per vedere se tra loro vi è una
Stato
sotto il (n. om. X qualche associazione….
livello di 100mila
U.S.A. povertà ab.)
x y
AK 9,1 9
AL 17,4 11,6
AR 20 10,2
….. …. ….
WY 13,3 3,4
Totale 700,8 366,7
Analisi della regressione
• Posso prendere in
% Tasso
considerazione le due variabili
popolazione omicidi per vedere se tra loro vi è una
Stato
sotto il (n. om. X qualche associazione…. Ed
livello di 100mila
U.S.A. povertà ab.) eventualmente, se questa
x y associazione c’è, posso
AK 9,1 9 misurarne l’intensità con il
AL 17,4 11,6 coefficiente di correlazione.
AR 20 10,2
….. …. ….
WY 13,3 3,4
Totale 700,8 366,7
Analisi della regressione
• Per vedere (a occhio) se vi può
essere un’associazione e se vale
la pena proseguire con l’analisi
di regressione costruisco un ….
Analisi della regressione
• Per vedere (a occhio) se vi può
essere un’associazione e se vale
la pena proseguire con l’analisi
di regressione costruisco un
grafico di dispersione.
Analisi della regressione
• Per vedere (a occhio) se vi può
essere un’associazione e se vale
la pena proseguire con l’analisi
di regressione costruisco un
grafico di dispersione.
• In questo caso, vedo subito che
la nuvola di punti è concentrata
ed ha direzione verso l’alto…
Analisi della regressione
• Per vedere (a occhio) se vi può
essere un’associazione e se vale
la pena proseguire con l’analisi
di regressione costruisco un
grafico di dispersione.
• In questo caso, vedo subito che
la nuvola di punti è concentrata
ed ha direzione verso l’alto…
• …questo significa che le due
variabili sono associate e lo sono
con una certa intensità…
Analisi della regressione
• …questo significa che le due
variabili sono associate e lo sono
con una certa intensità…
• Posso perciò decidere di
proseguire con l’analisi di
regressione…
Analisi della regressione
• Calcolo del totale di entrambe le
% Tasso
distribuzioni
popolazione omicidi
sotto il (n. om. X
Stato livello di 100mila
U.S.A. povertà ab.)
x y
AK 9,1 9
AL 17,4 11,6
AR 20 10,2
….. …. ….
WY 13,3 3,4
Totale 700,8 366,7
Analisi della regressione
• Calcolo del totale di entrambe le
% Tasso distribuzioni
popolazione omicidi
sotto il (n. om. X • Calcolo della media
Stato livello di 100mila
U.S.A. povertà ab.)
x y
AK 9,1 9
AL 17,4 11,6
AR 20 10,2
….. …. ….
WY 13,3 3,4
Totale 700,8 366,7
Media 14,02 7,33
% Tasso
Analisi della regressione
popolazione omicidi
sotto il (n. om. X
Stato
U.S.A.
livello di
povertà
100mila
ab.)
• Calcolo del totale di entrambe le
x y
distribuzioni
AK 9,1 9 • Calcolo della media
AL 17,4 11,6
AR 20 10,2 • Calcolo della mediana
….. …. ….
WY 13,3 3,4
Totale 700,8 366,7
Media 14,02 7,33
mediana 13,1 6,7
% Tasso
Analisi della regressione
popolazione omicidi
sotto il (n. om. X
Stato
U.S.A.
livello di
povertà
100mila
ab.)
• Calcolo del totale di entrambe le
x y distribuzioni
AK 9,1 9 • Calcolo della media
AL 17,4 11,6
AR 20 10,2 • Calcolo della mediana, dei quartili e dell’IQR
….. …. ….
WY 13,3 3,4
Totale 700,8 366,7
Media 14,02 7,33
mediana 13,1 6,7
Q3 17,15 10,28
Q1 10,7 3,9
IQR 6,45 6,38
% Tasso
Analisi della regressione
popolazione omicidi
sotto il (n. om. X
Stato livello di 100mila
U.S.A. povertà ab.)
• Calcolo del totale di entrambe le
x y
AK 9,1 9
distribuzioni
AL
AR
17,4
20
11,6
10,2
• Calcolo della media
…..
WY
….
13,3
….
3,4
• Calcolo della mediana, dei quartili e dell’IQR
Totale
Media
700,8
14,02
366,7
7,33
• Calcolo di range, min, max, deviazione stand.
mediana 13,1 6,7
Q3 17,15 10,28
Q1 10,7 3,9
IQR 6,45 6,38
min 8 1,6
MAX 26,4 20,3
range 18,4 18,7
dev. st. 4,29 3,99
Analisi della regressione
• Calcolo del totale di entrambe le
distribuzioni
• Calcolo della media
• Calcolo della mediana, dei quartili e dell’IQR
• Calcolo di range, min, max, deviazione stand.
• Grafico a boxplot per fare un confronto…
Analisi della regressione
• Calcolo del totale di entrambe le
distribuzioni
• Calcolo della media
• Calcolo della mediana, dei quartili e dell’IQR
• Calcolo di range, min, max, deviazione stand.
• Grafico a boxplot per fare un confronto… e
vedere se ci sono outliers
Analisi della regressione
• Calcolo del totale di entrambe le
distribuzioni
• Calcolo della media
• Calcolo della mediana, dei quartili e dell’IQR
• Calcolo di range, min, max, deviazione stand.
• Grafico a boxplot per fare un confronto… e
vedere se ci sono outliers
• Ora l’analisi monovariata (delle due variabili
prese separatamente) è finita…..
Analisi della regressione
• Calcolo del totale di entrambe le distribuzioni
• Calcolo della media
• Calcolo della mediana, dei quartili e dell’IQR
• Calcolo di range, min, max, deviazione stand.
• Grafico a boxplot per fare un confronto… e
vedere se ci sono outliers
• Ora l’analisi monovariata (delle due variabili
prese separatamente) è finita….. Bisogna
passare all’analisi bivariata (2 variabili insieme)
Analisi della regressione
- Calcolo della deviazione di ogni
% Tasso
osservazione (ogni xi) dalla media x̄
deviazione
popolazione omicidi di ogni
sotto il (n. om. X osservazio
Stato livello di 100mila ne dalla
U.S.A. povertà ab.) media

x y (xi- x̄)
AK 9,1 9 -4,92
AL 17,4 11,6 3,38
AR 20 10,2 5,98
….. …. …. …
WY 13,3 3,4 -0,72
Analisi della regressione
- Calcolo della deviazione di ogni
% Tasso
deviazione osservazione (ogni xi) dalla media x̄
popolazione omicidi di ogni

Stato
sotto il
livello di
(n. om. X osservazio
100mila ne dalla deviaz. al
- Ogni deviazione va elevata al
U.S.A. povertà ab.) media quadrato quadrato perché….
2
x y (xi- x̄) (xi- x̄)
AK 9,1 9 -4,92 24,17
AL 17,4 11,6 3,38 11,45
AR 20 10,2 5,98 35,81
….. …. …. … ….
WY 13,3 3,4 -0,72 0,51
900,41
Σ(xi - x̄)2
Analisi della regressione
- Calcolo della deviazione di ogni
% Tasso
deviazione osservazione (ogni xi) dalla media x̄
popolazione omicidi di ogni

Stato
sotto il
livello di
(n. om. X osservazio
100mila ne dalla deviaz. al
- Ogni deviazione va elevata al quadrato
U.S.A. povertà ab.) media quadrato perché….
2
x y (xi- x̄) (xi- x̄)
AK 9,1 9 -4,92 24,17
- … e poi si calcola il totale (che si
AL 17,4 11,6 3,38 11,45 chiama scarto quadratico) e cioè Σ(xi- x̄)2
AR 20 10,2 5,98 35,81
….. …. …. … ….
WY 13,3 3,4 -0,72 0,51
900,41
Σ(xi - x̄)2
Analisi della regressione
- Calcolo della deviazione di ogni
% Tasso
popolazione omicidi
deviazione deviazione osservazione (ogni xi) dalla media x̄
di ogni di ogni
sotto il (n. om. X osservazio
Stato livello di
osservazio
100mila ne dalla deviaz. al ne dalla deviaz. al - Ogni deviazione va elevata al quadrato
U.S.A. povertà ab.) media quadrato
2
media quadrato
2
perché….
x y (xi- x̄) (xi- x̄) (yi-ȳ) (yi-ȳ)
AK 9,1 9 -4,92 24,17 1,67 2,78 - … e poi si calcola il totale (che si
AL 17,4 11,6 3,38 11,45 4,27 18,20
AR 20 10,2 5,98 35,81 2,87 8,21
chiama scarto quadratico) e cioè Σ(xi- x̄)2
….. …. …. … …. …. …. - Poi si fa la stessa cosa con la seconda
WY 13,3 3,4 -0,72 0,51 -3,93 15,48
900,41 778,87 variabile, cioè y
Σ(xi - x̄)2 Σ(yi-ŷ)2
Analisi della regressione
- Poi si fa la stessa cosa con la
seconda variabile, cioè y
% Tasso
deviazione deviazione
popolazione omicidi di ogni di ogni - Ora si calcola la codeviazione,
sotto il (n. om. X osservazio
Stato livello di
osservazio
100mila ne dalla deviaz. al ne dalla deviaz. al cioè la deviazione di ogni
U.S.A. povertà ab.) media quadrato
2
media quadrato
2
Codeviazione
coppia x,y dal baricentro della
x y (xi- x̄) (xi- x̄) (yi-ȳ) (yi-ȳ) ∑(xi- x̄)(yi-ȳ)
AK 9,1 9 -4,92 24,17 1,67 2,78 -8,19
nuvola di punti (che ha
AL 17,4 11,6 3,38 11,45 4,27 18,20 14,44 coordinate (x̄,ȳ).
AR 20 10,2 5,98 35,81 2,87 8,21 17,15
….. …. …. … …. …. …. ….
WY 13,3 3,4 -0,72 0,51 -3,93 15,48 2,82
900,41 778,87 526,24
Σ(xi - x̄)2 Σ(yi-ŷ)2
Analisi della regressione
% Tasso
deviazione deviazione
- Poi si fa la stessa cosa con la
popolazione omicidi
sotto il
di ogni
(n. om. X osservazio
di ogni
osservazio
seconda variabile, cioè y
Stato livello di 100mila ne dalla deviaz. al ne dalla deviaz. al
U.S.A. povertà ab.) media quadrato media quadrato Codeviazione - Ora si calcola la codeviazione,
x y (xi- x̄) (xi- x̄)2 (yi-ȳ) (yi-ȳ)2 ∑(xi- x̄)(yi-ȳ) cioè la deviazione di ogni
AK 9,1 9 -4,92 24,17 1,67 2,78 -8,19
AL 17,4 11,6 3,38 11,45 4,27 18,20 14,44
coppia x,y dal baricentro della
AR 20 10,2 5,98 35,81 2,87 8,21 17,15 nuvola di punti (che ha
….. …. …. … …. …. …. ….
WY 13,3 3,4 -0,72 0,51 -3,93 15,48 2,82
coordinate (x̄,ȳ)….
900,41 778,87 526,24
Σ(xi - x̄)2 Σ(yi-ŷ)2 ∑(xi- x̄)(yi-ȳ)
Scarto Scarto Codeviazione
quadratico quadratico
Analisi della regressione
- Poi si fa la stessa cosa con la
% Tasso
seconda variabile, cioè y
deviazione deviazione
popolazione omicidi
sotto il
di ogni
(n. om. X osservazio
di ogni
osservazio
- Ora si calcola la codeviazione,
Stato
U.S.A.
livello di
povertà
100mila ne dalla deviaz. al ne dalla deviaz. al
ab.) media quadrato media quadrato Codeviazione
cioè la deviazione di ogni
x y (xi- x̄) (xi- x̄)2 (yi-ȳ) (yi-ȳ)2 ∑(xi- x̄)(yi-ȳ) coppia x,y dal baricentro della
AK 9,1 9 -4,92 24,17 1,67 2,78 -8,19 nuvola di punti (che ha
AL 17,4 11,6 3,38 11,45 4,27 18,20 14,44
AR 20 10,2 5,98 35,81 2,87 8,21 17,15
coordinate (x̄,ȳ)…. E poi si fa il
….. …. …. … …. …. …. …. totale (codevianza)
WY 13,3 3,4 -0,72 0,51 -3,93 15,48 2,82
900,41 778,87 526,24
Σ(xi - x̄)2 Σ(yi-ŷ)2 ∑(xi- x̄)(yi-ȳ)
Scarto Scarto Codevianza
quadratico quadratico
Analisi della regressione
- Poi si fa la stessa cosa con la
% Tasso
seconda variabile, cioè y
deviazione deviazione
popolazione omicidi
sotto il
di ogni
(n. om. X osservazio
di ogni
osservazio
- Ora si calcola la codeviazione,
Stato
U.S.A.
livello di
povertà
100mila ne dalla deviaz. al ne dalla deviaz. al
ab.) media quadrato media quadrato Codeviazione
cioè la deviazione di ogni
x y (xi- x̄) (xi- x̄)2 (yi-ȳ) (yi-ȳ)2 ∑(xi- x̄)(yi-ȳ) coppia x,y dal baricentro della
AK 9,1 9 -4,92 24,17 1,67 2,78 -8,19 nuvola di punti (che ha
AL 17,4 11,6 3,38 11,45 4,27 18,20 14,44
AR 20 10,2 5,98 35,81 2,87 8,21 17,15
coordinate (x̄,ȳ)…. E poi si fa il
….. …. …. … …. …. …. …. totale (codevianza)
WY 13,3 3,4 -0,72 0,51 -3,93 15,48 2,82
900,41 778,87 526,24 - Ora è possibile calcolare la
Σ(xi - x̄)2 ∑(xi−x̄)(yi−ȳ)
Σ(yi-ŷ)2 ∑(xi- x̄)(yi-ȳ)
covarianza Cov = 𝒏−𝟏
Scarto Scarto Codevianza
quadratico quadratico …
Analisi della regressione
- Ora è possibile calcolare la
% Tasso
deviazione deviazione
covarianza Cov = ∑(xi−x̄
)(yi−ȳ)
𝒏−𝟏
popolazione omicidi di ogni di ogni
sotto il (n. om. X osservazio osservazio
Stato livello di 100mila ne dalla deviaz. al ne dalla deviaz. al
U.S.A. povertà ab.) media quadrato media quadrato Codeviazione - Nel ns. caso è Cov = 526,24
49
= 10.74
x y (xi- x̄) (xi- x̄)2 (yi-ȳ) (yi-ȳ)2 ∑(xi- x̄)(yi-ȳ)
AK 9,1 9 -4,92 24,17 1,67 2,78 -8,19
AL 17,4 11,6 3,38 11,45 4,27 18,20 14,44
AR 20 10,2 5,98 35,81 2,87 8,21 17,15
….. …. …. … …. …. …. ….
WY 13,3 3,4 -0,72 0,51 -3,93 15,48 2,82
900,41 778,87 526,24
Σ(xi - x̄)2 Σ(yi-ŷ)2 ∑(xi- x̄)(yi-ȳ)
Scarto Scarto Codevianza
quadratico quadratico
Analisi della regressione
- Ora è possibile calcolare la
% Tasso
deviazione deviazione
covarianza Cov = ∑(xi−x̄
)(yi−ȳ)
𝒏−𝟏
popolazione omicidi di ogni di ogni
sotto il (n. om. X osservazio osservazio
Stato livello di 100mila ne dalla deviaz. al ne dalla deviaz. al
U.S.A. povertà ab.) media quadrato media quadrato Codeviazione - Nel ns. caso è Cov = 526,24
49
= 10.74
x y (xi- x̄) (xi- x̄)2 (yi-ȳ) (yi-ȳ)2 ∑(xi- x̄)(yi-ȳ)
AK 9,1 9 -4,92 24,17 1,67 2,78 -8,19
AL 17,4 11,6 3,38 11,45 4,27 18,20 14,44
AR 20 10,2 5,98 35,81 2,87 8,21 17,15 - La covarianza serve per poter
….. …. …. … …. …. …. …. calcolare la correlazione lineare
WY 13,3 3,4 -0,72 0,51 -3,93 15,48 2,82 𝐶𝑜𝑣
900,41 778,87 526,24
r=
𝑠𝑥 ∗𝑠𝑦
Σ(xi - x̄)2 Σ(yi-ŷ)2 ∑(xi- x̄)(yi-ȳ)
Scarto Scarto Codevianza
quadratico quadratico
Analisi della regressione
- Ora è possibile calcolare la
covarianza Cov = ∑(xi−x̄
𝒏−𝟏
)(yi−ȳ)
% Tasso
deviazione deviazione
popolazione omicidi di ogni di ogni
sotto il (n. om. X osservazio osservazio
Stato livello di 100mila ne dalla deviaz. al ne dalla deviaz. al - Nel ns. caso è Cov = 526,24
49
= 10.74
U.S.A. povertà ab.) media quadrato media quadrato Codeviazione
x y (xi- x̄) (xi- x̄)2 (yi-ȳ) (yi-ȳ)2 ∑(xi- x̄)(yi-ȳ)
AK 9,1 9 -4,92 24,17 1,67 2,78 -8,19 - La covarianza serve per poter
AL 17,4 11,6 3,38 11,45 4,27 18,20 14,44
AR 20 10,2 5,98 35,81 2,87 8,21 17,15
calcolare
𝐶𝑜𝑣
la correlazione lineare
….. …. …. … …. …. …. …. r=
𝑠𝑥 ∗𝑠𝑦
WY 13,3 3,4 -0,72 0,51 -3,93 15,48 2,82
900,41 778,87 526,24
10.74
Σ(xi - x̄)2 Σ(yi-ŷ)2 ∑(xi- x̄)(yi-ȳ) - Nel ns. caso r= = 0.63
4.29∗3.99
Scarto Scarto Codevianza
quadratico quadratico
Analisi della regressione
10.74
- Nel ns. caso r=
4.29∗3.99
= 0.63
% Tasso
deviazione deviazione
popolazione omicidi di ogni di ogni
sotto il (n. om. X osservazio osservazio - La correlazione è positiva e piuttosto
Stato livello di 100mila ne dalla deviaz. al ne dalla deviaz. al alta. Per poter interpretare
U.S.A. povertà ab.) media quadrato media quadrato Codeviazione
correttamente questo dato è
x y (xi- x̄) (xi- x̄)2 (yi-ȳ) (yi-ȳ)2 ∑(xi- x̄)(yi-ȳ) necessario però procedere al calcolo
AK 9,1 9 -4,92 24,17 1,67 2,78 -8,19
del coeff. di determinazione, che è r2
AL 17,4 11,6 3,38 11,45 4,27 18,20 14,44
AR 20 10,2 5,98 35,81 2,87 8,21 17,15 - Nel ns. caso r2 = 0.39
….. …. …. … …. …. …. ….
WY 13,3 3,4 -0,72 0,51 -3,93 15,48 2,82
- Questo significa che 0.39 è la
900,41 778,87 526,24
proporzione della varianza del tasso di
Σ(xi - x̄)2 Σ(yi-ŷ)2 ∑(xi- x̄)(yi-ȳ) omicidi spiegato dalla varianza del
Scarto Scarto
tasso di povertà.
Codevianza
quadratico quadratico
Analisi della regressione
- Nel ns. caso r2 = 0.39
% Tasso
- Questo significa che 0.39 è la
popolazione omicidi
deviazione
di ogni
deviazione
di ogni
proporzione della varianza del tasso di
sotto il (n. om. X osservazio osservazio omicidi spiegato dalla varianza del
Stato livello di 100mila ne dalla deviaz. al ne dalla deviaz. al
U.S.A. povertà ab.) media quadrato media quadrato Codeviazione
tasso di povertà.
x y (xi- x̄) (xi- x̄)2 (yi-ȳ) (yi-ȳ)2 ∑(xi- x̄)(yi-ȳ) - Invece 0.37 (1-0.63) è la proporzione
AK 9,1 9 -4,92 24,17 1,67 2,78 -8,19 relativa alla mancanza di qualsiasi
AL 17,4 11,6 3,38 11,45 4,27 18,20 14,44 correlazione tra povertà e omicidi…
AR 20 10,2 5,98 35,81 2,87 8,21 17,15
….. …. …. … …. …. …. ….
WY 13,3 3,4 -0,72 0,51 -3,93 15,48 2,82
900,41 778,87 526,24
Σ(xi - x̄)2 Σ(yi-ŷ)2 ∑(xi- x̄)(yi-ȳ)
Scarto Scarto Codevianza
quadratico quadratico
Analisi della regressione
- Nel ns. caso r2 = 0.39
- Questo significa che 0.39 è la
% Tasso proporzione della varianza del tasso di
deviazione deviazione
popolazione omicidi
sotto il
di ogni
(n. om. X osservazio
di ogni omicidi spiegato dalla varianza del
osservazio
Stato livello di 100mila ne dalla deviaz. al ne dalla deviaz. al tasso di povertà.
U.S.A. povertà ab.) media quadrato media quadrato Codeviazione
- Invece 0.37 (1-0.63) è la proporzione
x y (xi- x̄) (xi- x̄)2 (yi-ȳ) (yi-ȳ)2 ∑(xi- x̄)(yi-ȳ) relativa alla mancanza di qualsiasi
AK 9,1 9 -4,92 24,17 1,67 2,78 -8,19 correlazione tra povertà e omicidi…
AL 17,4 11,6 3,38 11,45 4,27 18,20 14,44
AR 20 10,2 5,98 35,81 2,87 8,21 17,15
- Infine, 0.24 è la proporzione di
….. …. …. … …. …. …. ….
varianza tra le due variabili dovuta
all’errore oppure all’intervento di altri
WY 13,3 3,4 -0,72 0,51 -3,93 15,48 2,82
fattori non presi in considerazione
900,41 778,87 526,24
dall’indagine.
Σ(xi - x̄)2 Σ(yi-ŷ)2 ∑(xi- x̄)(yi-ȳ)
Scarto Scarto Codevianza
quadratico quadratico
Analisi della regressione
- Ora si tratta di individuare i parametri
necessari per la costruzione dell’equa-
% Tasso
deviazione deviazione zione di regressione (o di previsione).
popolazione omicidi di ogni di ogni
sotto il (n. om. X osservazio osservazio
Stato livello di 100mila ne dalla deviaz. al ne dalla deviaz. al
U.S.A. povertà ab.) media quadrato media quadrato Codeviazione
x y (xi- x̄) (xi- x̄)2 (yi-ȳ) (yi-ȳ)2 ∑(xi- x̄)(yi-ȳ)
AK 9,1 9 -4,92 24,17 1,67 2,78 -8,19
AL 17,4 11,6 3,38 11,45 4,27 18,20 14,44
AR 20 10,2 5,98 35,81 2,87 8,21 17,15
….. …. …. … …. …. …. ….
WY 13,3 3,4 -0,72 0,51 -3,93 15,48 2,82
900,41 778,87 526,24
Σ(xi - x̄)2 Σ(yi-ŷ)2 ∑(xi- x̄)(yi-ȳ)
Scarto Scarto Codevianza
quadratico quadratico
Analisi della regressione
- Ora si tratta di individuare i parametri
necessari per la costruzione dell’equa-
% Tasso
deviazione deviazione zione di regressione (o di previsione).
popolazione omicidi di ogni di ogni
sotto il (n. om. X osservazio osservazio - Poiché l’equazione della retta è
Stato livello di 100mila ne dalla deviaz. al ne dalla deviaz. al
U.S.A. povertà ab.) media quadrato media quadrato Codeviazione
ŷ=mx+q allora bisogna trovare m e q
x y (xi- x̄) (xi- x̄)2 (yi-ȳ) (yi-ȳ)2 ∑(xi- x̄)(yi-ȳ)
AK 9,1 9 -4,92 24,17 1,67 2,78 -8,19 ∑(xi− x̄)(yi−ȳ) 526.24
AL 17,4 11,6 3,38 11,45 4,27 18,20 14,44 - m= ∑( xi− x̄)2
= = 0.58
900.41
AR 20 10,2 5,98 35,81 2,87 8,21 17,15
….. …. …. … …. …. …. ….
WY 13,3 3,4 -0,72 0,51 -3,93 15,48 2,82
900,41 778,87 526,24
Σ(xi - x̄)2 Σ(yi-ŷ)2 ∑(xi- x̄)(yi-ȳ)
Scarto Scarto Codevianza
quadratico quadratico
Analisi della regressione
- Ora si tratta di individuare i parametri
necessari per la costruzione dell’equa-
% Tasso
deviazione deviazione zione di regressione (o di previsione).
popolazione omicidi di ogni di ogni
sotto il (n. om. X osservazio osservazio - Poiché l’equazione della retta è
Stato livello di 100mila ne dalla deviaz. al ne dalla deviaz. al
U.S.A. povertà ab.) media quadrato media quadrato Codeviazione
ŷ=mx+q allora bisogna trovare m e q
x y (xi- x̄) (xi- x̄)2 (yi-ȳ) (yi-ȳ)2 ∑(xi- x̄)(yi-ȳ)
AK 9,1 9 -4,92 24,17 1,67 2,78 -8,19 ∑(xi− x̄)(yi−ȳ) 526.24
AL 17,4 11,6 3,38 11,45 4,27 18,20 14,44 - m= ∑( xi− x̄)2
= = 0.58
900.41
AR 20 10,2 5,98 35,81 2,87 8,21 17,15
….. …. …. … …. …. …. ….
WY 13,3 3,4 -0,72 0,51 -3,93 15,48 2,82 - q = ȳ - mx̄ cioè 7.33-(0.58*14.02)= -0.86
900,41 778,87 526,24
Σ(xi - x̄)2 Σ(yi-ŷ)2 ∑(xi- x̄)(yi-ȳ)
Scarto Scarto Codevianza
quadratico quadratico
Analisi della regressione
- Ora si tratta di individuare i parametri
necessari per la costruzione dell’equa-
% Tasso
zione di regressione (o di previsione).
deviazione deviazione
popolazione omicidi di ogni di ogni - Poiché l’equazione della retta è ŷ=mx+q
sotto il (n. om. X osservazio osservazio allora bisogna trovare m e q
Stato livello di 100mila ne dalla deviaz. al ne dalla deviaz. al
U.S.A. povertà ab.) media quadrato media quadrato Codeviazione
x y (xi- x̄) (xi- x̄)2 (yi-ȳ) (yi-ȳ)2 ∑(xi- x̄)(yi-ȳ) - m = ∑(xi− x̄)(yi−ȳ) = 526.24 = 0.58
AK 9,1 9 -4,92 24,17 1,67 2,78 -8,19 ∑( xi− x̄)2 900.41
AL 17,4 11,6 3,38 11,45 4,27 18,20 14,44
AR 20 10,2 5,98 35,81 2,87 8,21 17,15 - q = ȳ - mx̄ cioè 7.33-(0.58*14.02)= -0.86
….. …. …. … …. …. …. ….
WY 13,3 3,4 -0,72 0,51 -3,93 15,48 2,82
900,41 778,87 526,24 - Dunque l’equazione della retta è
Σ(xi - x̄)2 Σ(yi-ŷ)2 ∑(xi- x̄)(yi-ȳ) ŷ=0.58x-0.86
Scarto Scarto Codevianza
quadratico quadratico
Analisi della regressione
- L’equazione della retta seve anche per
calcolare i residui, cioè gli errori di
% Tasso previsione (la distanza di ogni coppia xy
deviazione deviazione
popolazione omicidi di ogni di ogni dalla retta).
sotto il (n. om. X osservazio osservazio
Stato livello di 100mila ne dalla deviaz. al ne dalla deviaz. al ŷ=0.58x-0.86
U.S.A. povertà ab.) media quadrato media quadrato Codeviazione
x y (xi- x̄) (xi- x̄)2 (yi-ȳ) (yi-ȳ)2 ∑(xi- x̄)(yi-ȳ)
AK 9,1 9 -4,92 24,17 1,67 2,78 -8,19
AL 17,4 11,6 3,38 11,45 4,27 18,20 14,44
AR 20 10,2 5,98 35,81 2,87 8,21 17,15
….. …. …. … …. …. …. ….
WY 13,3 3,4 -0,72 0,51 -3,93 15,48 2,82
900,41 778,87 526,24
Σ(xi - x̄)2 Σ(yi-ŷ)2 ∑(xi- x̄)(yi-ȳ)
Scarto Scarto Codevianza
quadratico quadratico
Analisi della regressione
- L’equazione della retta seve anche per
calcolare i residui, cioè gli errori di
% Tasso previsione (la distanza di ogni coppia xy
deviazione deviazione
popolazione omicidi di ogni di ogni dalla retta).
sotto il (n. om. X osservazio osservazio
Stato livello di 100mila ne dalla deviaz. al ne dalla deviaz. al ŷ=0.58x-0.86
U.S.A. povertà ab.) media quadrato media quadrato Codeviazione
x y (xi- x̄) (xi- x̄)2 (yi-ȳ) (yi-ȳ)2 ∑(xi- x̄)(yi-ȳ)
- Il concetto è: per una certa unità
AK 9,1 9 -4,92 24,17 1,67 2,78 -8,19
statistica, ad es. il Kentucky, dato il suo
AL 17,4 11,6 3,38 11,45 4,27 18,20 14,44 x (20.4), cioè il suo tasso di povertà,
AR 20 10,2 5,98 35,81 2,87 8,21 17,15 quale dovrebbe essere il suo y (cioè il
….. …. …. … …. …. …. …. suo tasso di omicidi) secondo la
WY 13,3 3,4 -0,72 0,51 -3,93 15,48 2,82 previsione fatta dalla retta?
900,41 778,87 526,24
Σ(xi - x̄)2 Σ(yi-ŷ)2 ∑(xi- x̄)(yi-ȳ)
Scarto Scarto Codevianza
quadratico quadratico
Analisi della regressione
- L’equazione della retta seve anche per
calcolare i residui, cioè gli errori di
% Tasso previsione (la distanza di ogni coppia xy
deviazione deviazione
popolazione omicidi di ogni di ogni dalla retta).
sotto il (n. om. X osservazio osservazio
Stato livello di 100mila ne dalla deviaz. al ne dalla deviaz. al ŷ=0.58x-0.86
U.S.A. povertà ab.) media quadrato media quadrato Codeviazione
x y (xi- x̄) (xi- x̄)2 (yi-ȳ) (yi-ȳ)2 ∑(xi- x̄)(yi-ȳ)
- Il concetto è: per una certa unità
AK 9,1 9 -4,92 24,17 1,67 2,78 -8,19
statistica, ad es. il Kentucky, dato il suo
AL 17,4 11,6 3,38 11,45 4,27 18,20 14,44 x (20.4), cioè il suo tasso di povertà,
AR 20 10,2 5,98 35,81 2,87 8,21 17,15 quale dovrebbe essere il suo y (cioè il
….. …. …. … …. …. …. …. suo tasso di omicidi) secondo la
WY 13,3 3,4 -0,72 0,51 -3,93 15,48 2,82 previsione fatta dalla retta?
900,41 778,87 526,24
- Basta sostituire 20.4 alla x
Σ(xi - x̄)2 Σ(yi-ŷ)2 ∑(xi- x̄)(yi-ȳ)
dell’equazione. Il risultato è y = 10.97
Scarto Scarto Codevianza
quadratico quadratico
Analisi della regressione
- Basta sostituire 20.4 alla x
dell’equazione. Il risultato è y = 10.97
% Tasso
popolazione omicidi
deviazione
di ogni
deviazione
di ogni
- Questo significa che se il Kentucky
sotto il (n. om. X osservazio osservazio fosse in linea con le previsioni della
Stato livello di 100mila ne dalla deviaz. al ne dalla deviaz. al
U.S.A. povertà ab.) media quadrato media quadrato Codeviazione
retta, dovrebbe avere un tasso di
omicidi di 10.97 (mentre invece è
x y (xi- x̄) (xi- x̄)2 (yi-ȳ) (yi-ȳ)2 ∑(xi- x̄)(yi-ȳ)
«solo» di 6.6).
AK 9,1 9 -4,92 24,17 1,67 2,78 -8,19
AL 17,4 11,6 3,38 11,45 4,27 18,20 14,44
AR 20 10,2 5,98 35,81 2,87 8,21 17,15
….. …. …. … …. …. …. ….
WY 13,3 3,4 -0,72 0,51 -3,93 15,48 2,82
900,41 778,87 526,24
Σ(xi - x̄)2 Σ(yi-ŷ)2 ∑(xi- x̄)(yi-ȳ)
Scarto Scarto Codevianza
quadratico quadratico
Analisi della regressione
- Basta sostituire 20.4 alla x
dell’equazione. Il risultato è y = 10.97
% Tasso
popolazione omicidi
deviazione
di ogni
deviazione
di ogni
- Questo significa che se il Kentucky
sotto il (n. om. X osservazio osservazio fosse in linea con le previsioni della
Stato livello di 100mila ne dalla deviaz. al ne dalla deviaz. al
U.S.A. povertà ab.) media quadrato media quadrato Codeviazione
retta, dovrebbe avere un tasso di
omicidi di 10.97 (mentre invece è
x y (xi- x̄) (xi- x̄)2 (yi-ȳ) (yi-ȳ)2 ∑(xi- x̄)(yi-ȳ)
«solo» di 6.6).
AK 9,1 9 -4,92 24,17 1,67 2,78 -8,19
AL 17,4 11,6 3,38 11,45 4,27 18,20 14,44 - Se facciamo la differenza (6.6 – 10.97),
AR 20 10,2 5,98 35,81 2,87 8,21 17,15 vediamo che c’è un residuo negativo
….. …. …. … …. …. …. …. pari a -4.37
WY 13,3 3,4 -0,72 0,51 -3,93 15,48 2,82
900,41 778,87 526,24
Σ(xi - x̄)2 Σ(yi-ŷ)2 ∑(xi- x̄)(yi-ȳ)
Scarto Scarto Codevianza
quadratico quadratico
% Tasso
residuo
(distanza)
di ogni
Analisi della
regressione
deviazione deviazione
popolazione omicidi di ogni di ogni coppia xy
sotto il (n. om. X osservazio osservazio dalla retta
Stato livello di 100mila ne dalla deviaz. al ne dalla deviaz. al di residuo al
U.S.A. povertà ab.) media quadrato media quadrato Codeviazione previsione quadrato
x y (xi- x̄) (xi- x̄)2 (yi-ȳ) (yi-ȳ)2 ∑(xi- x̄)(yi-ȳ) residui residui^2
AK 9,1 9 -4,92 24,17 1,67 2,78 -8,19 4,54 20,60
AL 17,4 11,6 3,38 11,45 4,27 18,20 14,44 2,29 5,24
AR 20 10,2 5,98 35,81 2,87 8,21 17,15 -0,63 0,40
….. …. …. … …. …. …. …. …. ….
WY 13,3 3,4 -0,72 0,51 -3,93 15,48 2,82 -3,52 12,36
900,41 778,87 526,24 471,32

- Lo stesso calcolo andrebbe fatto per ciascuna unità statistica…


% Tasso
residuo
(distanza)
di ogni
Analisi della
regressione
deviazione deviazione
popolazione omicidi di ogni di ogni coppia xy
sotto il (n. om. X osservazio osservazio dalla retta
Stato livello di 100mila ne dalla deviaz. al ne dalla deviaz. al di residuo al
U.S.A. povertà ab.) media quadrato media quadrato Codeviazione previsione quadrato
x y (xi- x̄) (xi- x̄)2 (yi-ȳ) (yi-ȳ)2 ∑(xi- x̄)(yi-ȳ) residui residui^2
AK 9,1 9 -4,92 24,17 1,67 2,78 -8,19 4,54 20,60
AL 17,4 11,6 3,38 11,45 4,27 18,20 14,44 2,29 5,24
AR 20 10,2 5,98 35,81 2,87 8,21 17,15 -0,63 0,40
….. …. …. … …. …. …. …. …. ….
WY 13,3 3,4 -0,72 0,51 -3,93 15,48 2,82 -3,52 12,36
900,41 778,87 526,24 471,32

- Lo stesso calcolo andrebbe fatto per ciascuna unità statistica…


- Sommando i residui di ciascuna unità statistica elevati al quadrato (per renderli tutti
positivi), si ottiene un totale che è denominato SSE (Sum of Squared errors)
% Tasso
residuo
(distanza)
di ogni
Analisi della
regressione
deviazione deviazione
popolazione omicidi di ogni di ogni coppia xy
sotto il (n. om. X osservazio osservazio dalla retta
Stato livello di 100mila ne dalla deviaz. al ne dalla deviaz. al di residuo al
U.S.A. povertà ab.) media quadrato media quadrato Codeviazione previsione quadrato
x y (xi- x̄) (xi- x̄)2 (yi-ȳ) (yi-ȳ)2 ∑(xi- x̄)(yi-ȳ) residui residui^2
AK 9,1 9 -4,92 24,17 1,67 2,78 -8,19 4,54 20,60
AL 17,4 11,6 3,38 11,45 4,27 18,20 14,44 2,29 5,24
AR 20 10,2 5,98 35,81 2,87 8,21 17,15 -0,63 0,40
….. …. …. … …. …. …. …. …. ….
WY 13,3 3,4 -0,72 0,51 -3,93 15,48 2,82 -3,52 12,36
900,41 778,87 526,24 471,32

- Lo stesso calcolo andrebbe fatto per ciascuna unità statistica…


- Sommando i residui di ciascuna unità statistica elevati al quadrato (per renderli tutti
positivi), si ottiene un totale che è denominato SSE (Sum of Squared errors)
% Tasso
residuo
(distanza)
di ogni
Analisi della
regressione
deviazione deviazione
popolazione omicidi di ogni di ogni coppia xy
sotto il (n. om. X osservazio osservazio dalla retta
Stato livello di 100mila ne dalla deviaz. al ne dalla deviaz. al di residuo al
U.S.A. povertà ab.) media quadrato media quadrato Codeviazione previsione quadrato
x y (xi- x̄) (xi- x̄)2 (yi-ȳ) (yi-ȳ)2 ∑(xi- x̄)(yi-ȳ) residui residui^2
AK 9,1 9 -4,92 24,17 1,67 2,78 -8,19 4,54 20,60
AL 17,4 11,6 3,38 11,45 4,27 18,20 14,44 2,29 5,24
AR 20 10,2 5,98 35,81 2,87 8,21 17,15 -0,63 0,40
….. …. …. … …. …. …. …. …. ….
WY 13,3 3,4 -0,72 0,51 -3,93 15,48 2,82 -3,52 12,36
900,41 778,87 526,24 471,32

- Lo stesso calcolo andrebbe fatto per ciascuna unità statistica…


- Sommando i residui di ciascuna unità statistica elevati al quadrato (per renderli tutti
positivi), si ottiene un totale che è denominato SSE (Sum of Squared errors)
- Questa somma delle distanze di ogni punto del grafico di dispersione dalla retta è la minima
possibile: per questo la retta di previsione è chiamata anche retta dei minimi quadrati.
% Tasso
residuo
(distanza)
di ogni
Analisi della
regressione
deviazione deviazione
popolazione omicidi di ogni di ogni coppia xy
sotto il (n. om. X osservazio osservazio dalla retta
Stato livello di 100mila ne dalla deviaz. al ne dalla deviaz. al di residuo al
U.S.A. povertà ab.) media quadrato media quadrato Codeviazione previsione quadrato
x y (xi- x̄) (xi- x̄)2 (yi-ȳ) (yi-ȳ)2 ∑(xi- x̄)(yi-ȳ) residui residui^2
AK 9,1 9 -4,92 24,17 1,67 2,78 -8,19 4,54 20,60
AL 17,4 11,6 3,38 11,45 4,27 18,20 14,44 2,29 5,24
AR 20 10,2 5,98 35,81 2,87 8,21 17,15 -0,63 0,40
….. …. …. … …. …. …. …. …. ….
WY 13,3 3,4 -0,72 0,51 -3,93 15,48 2,82 -3,52 12,36
900,41 778,87 526,24 471,32

- Questa somma delle distanze di ogni punto del grafico di dispersione dalla retta è la minima
possibile: per questo la retta di previsione è chiamata anche retta dei minimi quadrati.
- Qualsiasi altra equazione provocherebbe un aumento di SSE.
% Tasso
residuo
(distanza)
di ogni
Analisi della
regressione
deviazione deviazione
popolazione omicidi di ogni di ogni coppia xy
sotto il (n. om. X osservazio osservazio dalla retta
Stato livello di 100mila ne dalla deviaz. al ne dalla deviaz. al di residuo al
U.S.A. povertà ab.) media quadrato media quadrato Codeviazione previsione quadrato
x y (xi- x̄) (xi- x̄)2 (yi-ȳ) (yi-ȳ)2 ∑(xi- x̄)(yi-ȳ) residui residui^2
AK 9,1 9 -4,92 24,17 1,67 2,78 -8,19 4,54 20,60
AL 17,4 11,6 3,38 11,45 4,27 18,20 14,44 2,29 5,24
AR 20 10,2 5,98 35,81 2,87 8,21 17,15 -0,63 0,40
….. …. …. … …. …. …. …. …. ….
WY 13,3 3,4 -0,72 0,51 -3,93 15,48 2,82 -3,52 12,36
900,41 778,87 526,24 471,32

- Questa somma delle distanze di ogni punto del grafico di dispersione dalla retta è la minima
possibile: per questo la retta di previsione è chiamata anche retta dei minimi quadrati.
- Qualsiasi altra equazione provocherebbe un aumento di SSE.
- In conclusione: un SSE basso evidenzia la bontà di una retta (e quindi della sua equazione)
nella previsione di y sulla base di x.

Potrebbero piacerti anche