Sei sulla pagina 1di 38

Correlazioni e Regressioni

Una linea di regressione è…


Y
Linea retta usata per
predire e stimare il
valore di Y dato il valore
di X

• La linea retta che meglio rappresenta il trend dei


punti presenti nel diagramma (scatter diagram)

• La linea che minimizza la somma delle distanze al


quadrato dei punti dalla linea stessa
Equazione di regressione
Y = bo + b1 X1

b1 - Inclinazione: riassume il valore medio di


cambiamento in Y per unità di cambiamento in
X.

bo -Y Intercetta

Y =Valore Predetto
Esempio Ticket Tickets
price sold
18.00 4513
Il prezzo del biglietto (Ticket price) 24.50 3223
30.00 3088
ed il numero di biglietti venduti 25.00 3909
33.00 2492
(Tickets sold) sono stati registrati 23.00 3889
27.00 3359
al Red Rock Theatre. Esiste una 22.00 3737
relazione tra le due misure ? 32.00
16.00
2148
4736
26.00 3146
29.00 2945
15.00 5136
24.00 3982
21.00 3882
28.50 3141
23.50 3620
20.00 4323
34.00 2587
22.50 3963

Data Set: Simple Regression v1.MTW


Passi per l'analisi di regressione
1. Creare un grafico scatter (scatter plot)– sembra esserci una
relazione lineare ?
2. Calcolare la correlazione (Cercare eventuali alte correlazioni tra i predittori
(X) e tra predittori e risposte (Y). Non eliminate i predittori X basandovi su solo su
questa analisi)

3. Preparare la linea di regressione


4. Aggiungere la linea al grafico
5. Controllare la validità della regressione
6. Usare la linea di regressione
Scatter Diagrams
Strumento di analisi grafica per determinare visivamente
la forza della relazione tra causa potenziale ed effetto

Ticket sales vs Ticket Price

5000
Tickets sold

4000

3000

2000
15 25 35
Ticket price
Correlazione
Il coefficiente di correlazione, r, misura la forza della relazione
lineare
-1 £ r £ 1

Relazione negativa perfetta r = -1.0


Nessuna relazione lineare r=0
Relazione positiva perfetta r = +1.0

Buoni valori di ½r½


- Processi di produzione: 0.7
- Altri processi : 0.4

r2: misura la percentuale di variazione in Y spiegata dalla


relazione lineare tra X e Y
Calcolare le correlazioni

Comandi Minitab™:
Stat>Basic Statistics>Correlation
Variables: Ticket Price, Tickets Sold

Minitab™ Output:
Correlazione (Pearson)
Correlazione tra Ticket Price e Tickets Sold = -0.956
P-Value = 0.000
Preparare la linea di regressione

Comandi Minitab™:
Stat>Regression>Regression>Fit regression model…
Graphs…>Four in one
Risultati della regressione
Regression Analysis: Tickets Sold versus Ticket Price
Analysis of Variance

Source DF Adj SS Adj MS F-Value P-Value


Regression 1 10270172 10270172 192,57 0,000
Ticket Price 1 10270172 10270172 192,57 0,000
Error 18 959981 53332
Total 19 11230153

Model Summary

S R-sq R-sq(adj) R-sq(pred)


230,938 91,45% 90,98% 89,38%

Coefficients

Term Coef SE Coef T-Value P-Value VIF


Constant 6984 250 27,95 0,000
Ticket Price -137,38 9,90 -13,88 0,000 1,00
Risultati della regressione
Regression Analysis: Tickets Sold versus Ticket Price

Regression Equation

Tickets Sold = 6984 - 137,38 Ticket Price

Fits and Diagnostics for Unusual Observations

Tickets
Obs Sold Fit Resid Std Resid
9 2148,0 2588,1 -440,1 -2,06 R

R Large residual
Equazione di regressione
• Y = 6984 - 137 X
X = Ticket Price Y = Tickets Sold
• Esiste una forte relazione lineare tra Ticket Price (costo dei
biglietti) e Ticket Sales (vendita dei biglietti).
• Adjusted R2 = .910
• 91.0% della variazione nella vendita di biglietti (Ticket Sales) è
spiegabile dalla relazione esistente con il costo dei biglietti
(Ticket Price).
• Correlazione r = radice quadrata di .915 = .956
• L’equazione di regressione è utile per predire la vendita
dei biglietti per prezzi tra $15 e $34.
• CAUTELA per prezzi inferiori o superiori.
Aggiungere la linea al grafico
Comandi Minitab™
Stat>Regression>Fitted Line Plot
Fitted Line Plot
Tickets Sold = 6984 - 137,4 Ticket Price
5500 S 230,938
R-Sq 91,5%
5000 R-Sq(adj) 91,0%

4500
Tickets Sold

4000

3500

3000

2500

2000
15 20 25 30 35
Ticket Price
Worksheet: SIMPLE REGRESSION V1.MTW
Controllare la validità della regressione
R ed R2 danno una misura della bontà di adattamento della regressione.

Prima di utilizzare la regressione occorre fare una verifica sui residui:

Residuo = valore osservato – valore predetto


• Grandi residui indicano scarso adattamento e outliers
• Eventuali pattern suggeriscono trasformazioni

Normal probability plot – linea retta


Fitted Line Plot – valori osservati simili ai fit, nessun
pattern evidente o variabilità
Residuals vs order (time) – nessun pattern evidente
Residuals vs X – nessun pattern evidente
Residuals vs fitted values – nessun pattern evidente

Eventuali pattern possono suggerire modelli di regressione alternativi.


Pattern dei residui
Varianza non costante
(provare regressioni pesate)

Aggiungere un termine lineare


al modello

Aggiungere un termine
quadratico al modello
Residuals Versus the Order of the Data
(response is Tickets)
Grafici diagnostici Residuals Versus the Fitted Values
(response is Tickets)

400
400
300
300
200
200
100
100

Residual
0
Residual

0
-100
-100 -200

-200 -300

-300 -400

-400 -500
2000 3000 4000 5000
-500
Fitted Value
2 4 6 8 10 12 14 16 18 20
Observation Order

Nessun pattern evidente


Nessun trend temporale

Residuals Versus Ticket p


(response is Tickets)

400

300

200

100

Residual
0

-100

-200

-300

-400

-500
15 25 35
Ticket p

Normal Probability Plot Nessun trend ovvio rispetto a Price


è approssimativamente
lineare
Osservazioni influenti
Regression Plot

6 A

5 Linea con A incluso

4
Y

Linea con A omesso

1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2.0

X
Usare la
linea di regressione
Le equazioni di regressione possono essere usate
per predire Y:

• Interpolazioni: predire Y per valori di X interni al


range iniziale dei dati
• Estrapolazioni: predire Y per valori di X esterni al
range iniziale dei dati

Occorre estrema cautela nel predire valori di Y


esterni al range dei dati.
Estrapolazione

?
?
Y

Data Range Extrapolation

X
Più di una X

X’s Sì CORRELATION
MULTIPLE REGRESSION
continue? SCATTER PLOTS

No


2 X’s? TWO-WAY ANOVA

No

DESIGN OF
EXPERIMENTS
Più di una X continua

Screening per le X importanti:


• Calcolare la matrice delle correlazioni di Y con
tutte le X.
• Esaminare i diagrammi scatter delle X con Y. Esiste
una relazione lineare ?

La regressione multipla potrebbe essere appropriata.


Esempio
Può essere spiegato l’uso dell’elettricità con la temperatura esterna, il volume di
produzione, i giorni lavorativi, il numero di impiegati e di visitatori ? Indaga la
relazione tra queste variabili.
Working Production
Avg Temp Days Kilograms Visitors Employees Electricity Kwh
70.4 20 18506 45 224 199752
78.8 22 6306 96 184 130079
55.5 21 13552 33 224 154737
54.0 21 14052 55 147 141435
44.0 22 15551 32 218 158380
64.7 22 11897 87 193 151992
80.5 23 14508 45 193 175223
80.5 21 15551 55 171 159063
64.7 22 14504 88 209 181521
64.2 22 18506 24 207 188428
70.4 22 14497 79 171 159177
64.2 22 14489 81 209 172183
72.5 22 13459 8 216 159146
70.4 20 14489 49 218 171418
70.4 22 14504 50 213 176957
54.0 20 14725 66 209 160524
63.4 22 18506 50 211 179848
54.0 20 14497 74 224 158160
43.1 20 14497 71 204 154570
63.4 21 14504 47 208 164356
78.9 20 18506 21 147 172840
54.0 21 15551 55 207 154821
71.4 22 14497 88 159 150680
63.4 23 6306 50 209 131163 Data Set: Multi-Regression v1.MTW
71.4 22 6306 6 218 134811
Scatter plots
Comandi Minitab: 185000

Graph>Plot>Graph Variables
175000

Electricity Kwh
165000

Y X 155000

Kwh Avg. Temp


145000

135000

Kwh Production 125000

Kwh Employees 40 50 60
Avg Temp
70 80

Kwh …

185000 185000

175000
175000

Electricity Kwh
165000
Electricity Kwh

165000
155000
155000
145000
145000
135000
135000
125000
125000
145 155 165 175 185 195 205 215 225
5000 7000 9000 11000 13000 15000 17000 19000 Employees
Production Kgs.

Cosa suggeriscono i grafici?


Matrice delle correlazioni
Comandi Minitab:
Stat>Basic Statistics>Correlation
Variables: Avg. Temp.,Working Days, Production Kilograms,Visitors, Employees, Electricity Kwh

Avg Temp Working Production Visitors Employee


Working 0.284
0.169
Production -0.116 -0.406
0.580 0.044
Visitors -0.076 0.019 -0.127
0.717 0.928 0.544
Employee -0.343 -0.021 -0.072 -0.235
0.093 0.921 0.731 0.259
Electric 0.134 -0.197 0.814 -0.141 0.242
0.524 0.346 0.000 0.503 0.244
Regressione Multipla
Y = b o + b 1 X 1 + b 2 X2

bo - Y intercetta
b1 - cambiamento di Y per cambiamento unitario di X1
b2 - cambiamento di Y per cambiamento unitario di X2
Y = Valore predetto

Ovviamente altre X possono essere aggiunte al modello.

Se le X risultano tra loro fortemente correlate fare attenzione (multicollinearità):

• coefficienti di regressione troppo grandi


• coefficienti di correlazione con segno sbagliato
Statistiche di regressione
• R2 e R2 (adjusted) sono misure della quantità di variazione di Y
spiegata dalla relazione lineare con le X.
– R2 aumenta sempre includendo ulteriori X.
– R2 (adj) aumenta solo se si includono X significative.
– Riferirsi sempre a R-squared (adj) come % variazione spiegata
• Variance Inflation Factor (VIF) è una misura di quanto aumenta
la variazione nei coefficienti di una regressione a causa della
correlazione dei predittori (X).
– Se le X non sono correlate VIF=1.
– Se VIF è >5, i coefficienti di regressione sono stimati con insufficiente
precisione (multicollinearità).
Eseguire la regressione
Comandi Minitab:
Stat>Regression>Regression>Fit Regression model
Response: Electricity Kwh
Continuous Predictors: Avg. temp, Working Days,
Production Kgs, Visitors, Employees.
Graphs: Residuals: regular
Residual Plots: Four in One
Eseguire la regressione
Regression Analysis: The regression equation is:

Electricity Kwh = - 53699 + 646 Avg Temp + 1471 Working Days


+ 4.80 Production Kgs. + 82.1 Visitors + 350 Employees

Predictor Coef SE Coef T P VIF


Constant -53699 36794 -1.46 0.161
Avg Temp 645.7 134.4 4.80 0.000 1.3
Working 1471 1465 1.00 0.328XX 1.3
Producti 4.8034 0.4081 11.77 0.000 1.2
Visitors 82.09 52.56 1.56 0.135XX 1.1
Employee 349.70 59.62 5.87 0.000 1.3

S = 6059 R-Sq = 90.2% R-Sq(adj) = 87.6%

Analysis of Variance
Source DF SS MS F P
Regression 5 6411324665 1282264933 34.92 0.000
Residual Error 19 697592100 36715374
Total 24 7108916765

XX – variabili che non contribuiscono significativamente alla regressione


Adattare la linea di regressione
• Quando ci sono due X, le Y predette si
rappresentano su un piano

• Con più di due X, la rappresentazione visiva è


difficile
Controllare la validità della regressione
Residual Plots for Electricity Kwh
Normal Probability Plot Versus Fits
99
N 25 10000
AD 0,345
90
P-Value 0,456

Residual
Percent

50 0

10

1 -10000
-10000 -5000 0 5000 10000 120000 140000 160000 180000 200000
Residual Fitted Value

Histogram Versus Order


10000
4,5
Frequency

Residual

3,0
0

1,5

0,0 -10000
-10000 -5000 0 5000 10000 2 4 6 8 10 12 14 16 18 20 22 24
Residual Observation Order
Controllare la validità della regressione
• p-value per Working Days = 0.328>0.05.
• p-value per Visitors = 0.135>0.05
• Queste variabili non sembrano contribuire
significativamente.
• Ripetere la regressione con tre variabili:
Average Temperature, Production Kilograms, &
Employees
Nuova regressione
Regression Analysis: The regression equation is:

Electricity Kwh = - 8592 + 640 Avg Temp + 4.54 Production Kgs. +


324 Employees

Predictor Coef SE Coef T P VIF


Constant -8592 18497 -0.46 0.647
Avg Temp 639.6 131.8 4.85 0.000 1.2
Producti 4.5419 0.3840 11.83 0.000 1.0
Employee 324.17 58.75 5.52 0.000 1.2

S = 6265 R-Sq = 88.4% R-Sq(adj) = 86.8%

Analysis of Variance
Source DF SS MS F P
Regression 3 6284747092 2094915697 53.38 0.000
Residual Error 21 824169672 39246175
Total 24 7108916765
Controllare la validità della regressione
Residual Plots for Electricity Kwh
Normal Probability Plot Versus Fits
99
N 25
AD 0,247
90 10000
P-Value 0,728

Residual
Percent

50
0

10
-10000
1
-10000 0 10000 120000 140000 160000 180000 200000
Residual Fitted Value

Histogram Versus Order

4,5
10000
Frequency

Residual

3,0

0
1,5

-10000
0,0
-10000 -5000 0 5000 10000 15000 2 4 6 8 10 12 14 16 18 20 22 24
Residual Observation Order
Regressione Stepwise
Regressione Stepwise
Stepwise Selection of Terms

Candidate terms: Avg Temp; Working Days; Production Kgs.; Visitors;


Employees

-----Step 1---- ----Step 2---- ----Step 3----


Coef P Coef P Coef P
Constant 103180 57100 -8592
Production Kgs. 4,150 0,000 4,261 0,000 4,542 0,000
Employees 222,9 0,009 324,2 0,000
Avg Temp 640 0,000

S 10204,9 8915,97 6264,68


R-sq 66,31% 75,40% 88,41%
R-sq(adj) 64,84% 73,16% 86,75%
R-sq(pred) 61,67% 69,97% 84,94%
Mallows’ Cp 44,24 28,63 5,45

α to enter = 0,05; α to remove = 0,05


Jim’s
Appliances
Activity
Un produttore di lavapiatti è interessato a predire l’aspettativa
di vita di uno dei suoi modelli. (Life)
I seguenti dati sono stati raccolti su 75 lavapiatti che sono state
sostituite:

Uso medio settimanale - Usage per week


Temperatura dell’acqua calda - Temperature
Tempo ciclo tipico (carico leggero-85 min, normale-97 min, pesante-120
min, più un opzionale pre risciacquo 9 min) Cycle
Durezza dell’acqua - Hardness
Reddito familiare - Income

Data set: Dishwasher v1.mtw


Breakout Activity

Obiettivo: Analizzare una regressione multipla


Istruzioni: Investigare la relazione tra Vita, Uso
settimanale, Temperatura, Tempo ciclo, Durezza dell’acqua
e Reddito familiare realizzando una appropriata
regressione

( Data set: Dishwasher v1.MTW)

Deliverable: Equazione di regressione multipla

Tempo: 20 minutes