Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
APPUNTI
In questo articolo voglio mostrarti come eseguire un'analisi di regressione lineare in Excel e come
interpretare i risultati.
La prima domanda a cui vogliamo dare una risposta è: perché fare la regressione lineare Excel?
Supponiamo di lavorare in una azienda. Immaginiamo che ci vengono forniti diversi dati e ci venga
chiesto di effettuare una stima delle vendite per il prossimo anno.
Probabilmente esistono diversi fattori che possono influenzare l’andamento delle vendite.
Ma quali sono quelli davvero importanti? Quali di questi vale la pena prendere in considerazione e
quali, invece, possono essere ignorati?
Eseguire l'analisi di regressione lineare semplice in Excel ci aiuterà a trovare le risposte che
cerchiamo.
La variabile dipendente (o variabile y) è la variabile risposta ovvero il fattore principale che si sta
tentando di comprendere e prevedere.
Attraverso l'analisi di regressione possiamo capire come si comporta la variabile dipendente (y)
quando varia una delle variabili indipendenti (x). Questo ci consente di determinare
statisticamente quale delle variabili ha un impatto rilevante.
Inoltre, possiamo fare una ulteriore distinzione. Possiamo distinguere tra regressione lineare
semplice e regressione lineare multipla.
La regressione lineare semplice consente di individuare la relazione tra una variabile dipendente
e una variabile indipendente attraverso l’utilizzo di una funzione lineare.
In entrambi i casi, se la relazione tra i dati NON segue una linea retta, è necessario utilizzare una
regressione non lineare.
Cerchiamo di capire subito il tipo di relazione tra la variabile indipendente (Spesa in pubblicità)
e la variabile dipendente (Quantità venduta). Per far questo inseriamo un diagramma a
dispersione.
Il grafico ci informa che il tipo di relazione è di tipo lineare. La retta è crescente. Possiamo pertanto
dedurre che ad un aumento della spessa in pubblicità possa corrispondere un aumento delle vendite.
Dove:
È il numero di osservazioni.
è la variabile dipendente.
è la variabile indipendente.
è l’errore statistico. Noto anche come errore stocastico. Rappresenta la differenza tra il valore
effettivo di una variabile dipendente e il suo valore previsto.
Ora, vediamo i tre metodi principali per eseguire l’analisi di regressione lineare in Excel.
Il primo metodo per eseguire la regressione in Excel utilizza il componente aggiuntivo chiamato
Strumenti di analisi.
Fai su File e successivamente su Opzioni. Nella finestra di dialogo Opzioni di Excel, seleziona la
voce Componenti aggiuntivi.
Dopo aver selezionato Componenti aggiuntivi, seleziona Strumenti di analisi e fai clic su Vai.
A questo punto Excel mostrerà la finestra di dialogo Componenti aggiuntivi. Applica la spunta su
Strumenti di analisi e fai clic su OK.
Ora potrai trovare gli Strumenti di analisi nella scheda Dati all’interno della barra
multifunzione.
Eseguiamo una semplice regressione lineare in Excel prendendo in considerazione le vendite negli
ultimi 24 mesi e le spese in pubblicità per lo stesso periodo di una azienda del settore
agroalimentare.
Nella colonna B abbiamo la Spesa per la pubblicità che è la variabile indipendente (X). Nella
colonna C abbiamo la Quantità venduta che rappresenta la variabile dipendente (Y).
Ovviamente, come accennato in precedenza, esistono diversi fattori che possono influenzare
l’andamento delle vendite. Tuttavia, in questo esempio, ci concentreremo solo su una variabile: la
spesa in pubblicità.
Procediamo. Nella scheda Dati, fai un clic sul pulsante Analisi dati presente nel gruppo Analisi.
Dalla finestra di dialogo Analisi dati, seleziona la voce Regressione e fai clic su OK.
Seleziona l’intervallo di celle C1:C25 che rappresenta l’Intervallo di input Y ovvero la variabile
dipendente (Quantità venduta).
Seleziona l’intervallo di celle B1:B25 che rappresenta l’Intervallo di input X ovvero la variabile
indipendente (Spesa in pubblicità).
Nel caso della regressione multipla, è necessario selezionare due o più colonne adiacenti con
diverse variabili indipendenti.
Applica la spunta sulla casella Etichette se sono presenti le intestazioni nella parte superiore degli
intervalli appena selezionati.
In modo facoltativo potrai decidere se la retta di regressione deve passare per l’origine. Ciò
significa che, se l’opzione Passa per l’origine è attiva, il valore della variabile dipendente sarà
uguale a zero quando il valore indipendente è uguale a zero.
Sempre in modo facoltativo potrai decidere il livello di confidenza. Per fare ciò, selezionare la
casella di controllo Livello di confidenza e quindi immettere il livello di confidenza che desideri
utilizzare.
Seleziona l’Opzione di output per specificare dove Excel deve posizionare i risultati dell’analisi di
regressione.
Per posizionare i risultati dell’analisi della regressione in un intervallo nel foglio di lavoro
esistente, seleziona il pulsante di opzione Intervallo di output, quindi identifica l’indirizzo
dell’intervallo nella casella di testo Intervallo di output. Per posizionare i risultati della regressione
in un’altra posizione (Nuovo foglio di lavoro o Nuova cartella di lavoro), seleziona uno degli altri
pulsanti di opzione.
Nel nostro caso, per comodità, scegliamo l’opzione Nuovo foglio di lavoro.
Seleziona la casella di controllo Residui se desideri ottenere la differenza tra i valori previsti e
quelli effettivi.
Sebbene la procedura per eseguire la regressione sia semplice, l’interpretazione dei risultati è un po’
più complicata.
Per semplificare il lavoro e favorire la lettura e l’interpretazione dei dati, suddividiamo l’output in
quattro diverse parti.
Questa parte descrive la misura in cui l’equazione di regressione lineare calcolata si adatta ai dati di
origine.
Questo valore rappresenta il coefficiente di correlazione che misura la forza di una relazione
lineare tra due variabili. Il coefficiente di correlazione può essere qualsiasi valore compreso tra 1 e
-1. Il suo valore assoluto indica la forza della relazione. Maggiore è il valore, più forte è la
relazione.
R al quadrato
È il valore che misura la proporzione della variazione della variabile dipendente che viene
spiegata dalla retta di regressione. Questa proporzione deve essere un valore compreso tra zero e
uno ed è spesso espresso come percentuale. Rappresenta il coefficiente di determinazione che
viene utilizzato come indicatore della bontà dell’adattamento. Mostra quanti punti cadono sulla
retta di regressione. Il valore di R al quadrato viene calcolato dalla somma totale dei quadrati
ovvero è la somma degli scostamenti quadrati dei dati di origine dalla media.
Nell’esempio, il valore di R al quadrato è 0,9716. Ciò significa che il 97% dei valori si adatta al
modello di analisi di regressione. In altri termini, il 97% delle variabili dipendenti (valori Y
ovvero la Quantità venduta) sono spiegate da variabili indipendenti (valori X ovvero la Spesa di
pubblicità). Di solito, un valore di R al quadrato uguale o superiore al 95% è considerato una
buona misura.
R al quadrato corretto
Errore standard
Questo valore mostra la precisione dell’analisi di regressione: più piccolo è questo valore, più è
precisa l’equazione di regressione. È da considerarsi un’altra misura di bontà di adattamento.
Mentre R al quadrato rappresenta la percentuale della varianza delle variabili dipendenti
spiegata dal modello, l’Errore standard è una misura assoluta che mostra la distanza media
attorno alla retta di regressione.
Osservazioni
Questa parte è dedicata all’ANALISI VARIANZA. Viene usata raramente per l’analisi della
regressione lineare semplice.
Questo valore dà un’idea di quanto sono statisticamente significativi (ovvero affidabili) i risultati.
Se il valore della Significatività F è inferiore a 0,05 (5%), il modello utilizzato è buono. Se è
maggiore di 0,05, probabilmente è meglio scegliere un’altra variabile indipendente.
Ad esempio, con una spesa mensile in pubblicità di 78 euro (quella del mese di gennaio), la
quantità venduta sarebbe di circa:
Il coefficiente della Spesa in pubblicità ci dice che per ogni aumento di un euro nella pubblicità, la
quantità venduta aumenta di 0,45 unità. Questa rappresenta un’informazione preziosa che può
essere utile per fare una previsione sula quantità venduta. Ad esempio, se la spesa per la pubblicità
è pari a 200 euro, è possibile raggiungere una quantità venduta di 70,63 unità.
In questo modo è possibile scoprire il numero della quantità che potrà essere venduta con qualsiasi
importo specificato di spesa in pubblicità (variabile X).
Per questo motivo, i residui possono aiutarci a capire di quanto differiscono i valori effettivi dai
valori previsti.
Per il mese di Gennaio (spesa in pubblicità mensile di 78 euro), il residuo è di circa -1,81.
Pertanto, se aggiungiamo questo numero al valore previsto (15,81), otteniamo il valore effettivo
(14).
Se lo desideri, puoi anche creare un grafico a dispersione per l’analisi dei residui.