Sei sulla pagina 1di 16

Video 1

Buongiorno, ricapitoliamo il punto a cui siamo arrivati l’ultima volta. Abbiamo introdotto il modello di
regressione lineare semplice, ricordo come è definito: una variabile di risposta, una quantità che noi
vogliamo prevedere e in questo modello si assume che la variabile di risposta osservata ,y per
l’osservazione i-esima, sia modellata come una composizione di due parti, componenti:
- la prima β 0 + β 1 x i (con indice i per riferirsi all’osservazione i-esima) viene chiamata la parte strutturale;
- poi abbiamo una seconda parte, indicata con la lettera greca epsilon con indice i, che indica l'errore.
Il senso dell’errore è quello di rappresentare tutte le informazioni relative alla variabile di risposta che non
possiamo o non riusciamo direttamente a spiegare attraverso l'utilizzo della variabile indipendente o
predittore x. Quindi l’errore contiene tutta l’informazione relativa alla variabile di risposta che non è
possibile prevedere, spiegare, usando le informazioni che derivano dal predittore x.
La parte strutturale contiene ed è costituita da una retta, una funzione lineare di x, dove beta 0 è il
coefficiente, l’intercetta della parte strutturale e beta 1 l’inclinazione, il coefficiente angolare della
medesima componente del modello di regressione lineare semplice.
Il modello si chiama semplice perché in questa prima introduzione assumiamo che la parte strutturale
includa un solo predittore, quindi semplice significa un solo predittore. Vedremo successivamente che è
possibile inserire nella parte strutturale più di un predittore, in quel caso il modello da semplice diventa
multiplo. Dedicheremo a questa generalizzazione del modello di regressione lineare una buona parte del
nostro tempo nelle prossime lezioni.
Nella slide che avete di fronte adesso abbiamo l’output proposto da R per uno degli esempi che stiamo
considerando nell'ambito della regressione lineare, questo esempio è relativo a un'azienda che si assume
venda il proprio prodotto sia attraversa il canale distributivo tradizionale che attraverso il canale
distributivo elettronico, quindi attraverso il proprio sito di e-commerce.
Abbiamo raccolto i dati per 40 giorni consecutivi su: le vendite totali giornaliere realizzate dall’azienda in
ognuno dei 40 giorni (total_daily_sales), negli stessi giorni abbiamo anche raccolto un’informazione sul
numero di acquisti on line (variabile chiamata online purchases), effettuati attraverso il sito di e-commerce
dell'azienda.

Stavamo commentando il contenuto di questo output perché vi ricordo che negli esami il vostro compito
sarà quello principalmente di interpretare gli output che vi verranno mostrati. In questo output sono
presenti varie parti:
- una prima parte chiamata con questo piccolo titolo cioè Call, è una parte che potrete tranquillamente
saltare perché contiene il codice che è stato eseguito per generare questo output, quindi LM, giusto per
informarvi anche su questa ulteriore informazione ma ovviamente, non avendo il software a disposizione
durante l'esame, non vi chiederò di imparare codici e saperli applicare quindi potete saltare
tranquillamente la parte che inizia con Call;
- una seconda parte intitolata Residuals, qui abbiamo alcuni indici di sintesi per il residuo del modello di
regressione lineare. Vi ricordo che i residui sono definiti come le distanze verticali delle osservazioni dalla
retta, quindi se questa è la nostra retta stimata, i residui rappresentano per ogni puntino la distanza
verticale del puntino dalla retta e costituiscono gli errori di previsione che il nostro modello, la retta, sta
commettendo quando prevede il valore della variabile di risposta. Per il momento, nonostante i residui
siano una quantità molto importante dell’analisi della regressione lineare a cui dedicheremo una sessione
successivamente, li lasciamo stare;
- una terza parte, terza tabella che si chiama Coefficients questa è la tabella principale che è contenuta nel
modello di regressione, l’output del modello di regressione lineare. Gli output per la regressione lineare
sono pressoché identici in tutti i software che potete trovare, anche Excel più o meno presenta l’output in
queste forme;
- infine abbiamo una quarta parte in cui trovate degli indici che sintetizzano la bontà del modello,
rappresentano quanto il modello è buono nel prevedere la variabile di risposta.
Adesso ci concentreremo sulla terza parte cioè la tabella dei coefficienti, perché è la parte più importante
all’interno dell’output del modello di regressione.
In particolare vedete che la prima colonna di questa tabella, che si intitola Estimate, riporta le stime dei due
coefficienti beta 0 e beta 1 del nostro modello di regressione semplice.
La prima riga, che si chiama Intecept, rappresenta e contiene tutte le informazioni relative alla stima di beta
0; la seconda riga, chiamata con il nome della variabile, del predittore che è stato utilizzato nel modello di
regressione lineare, contiene le informazioni circa la stima
del coefficiente angolare dell’inclinazione, beta 1 del nostro
modello.
Quindi la stima campionaria di beta 0 cioè quello che noi
abbiamo chiamato b0, quindi ricordatevi che il modello
stimato lo scriviamo in questo modo:
Allora b0 è la stima basata sul campione di beta 0 ed è uguale nel nostro esempio a 1714,9 circa e b1 invece
è la stima campionaria di beta 1 basata sul campione, nel nostro esempio uguale a 84,7.

Quindi per prima cosa abbiamo già descritto le informazioni che trovate in questa slide, direi di scrivere
l'equazione in forma completa del modello che abbiamo stimato.
Questa è quella che abbiamo chiamato la nostra y cappuccio, in questo modello il total daily sales (abbiamo
aggiunto un cappuccio sopra la variabile di risposta):

Passiamo a mostrare graficamente a cosa corrisponde questa retta, abbiamo il nostro diagramma di
dispersione, ogni puntino è uno dei 40 gg del nostro campione e la retta corrisponde alla retta stimata,
quella che è riportata nella stessa slide poco sopra.
Ora passiamo a interpretare i due coefficienti b0 e b1; vi ricordo, prima di analizzare i coefficienti
separatamente, che la retta che vedete nel diagramma di dispersione è interpretabile come media della
variabile di risposta y, fissato il valore della variabile x, il predittore. I valori lungo la retta indicano la stima
del valor medio di y per ogni fissato valore di x, abbiamo già ricordato che l’interpretazione è questa, cioè
valore medio di y per un x fissato. Molto importante ricordarsi che la retta va interpretata in termini di
media del valore y. Per esempio, in corrispondenza di acquisti pari a 60 la retta stimata ci dice all’incirca che
abbiamo stimato che la media, mi raccomando la media, delle vendite totali, nei giorni in cui il numero di
acquisti online è 60, è all’incirca poco più di 6000 dollari, all’incirca 6300, 6400. Non significa che in tutti i
giorni in cui abbiamo questo numero di acquisti online realizzeremo esattamente questo ammontare di
vendite. Abbiamo una stima della media di y nei giorni in cui online purchases è uguale a 60. In alcuni di
questi giorni in cui online purchases è pari a 60 avremo vendite superiori, in altri inferiori ma in media, il
valore medio che ci aspettiamo di realizzare in quelle giornate è pari a questo 6300.

Video 2
Passiamo quindi ad interpretare i coefficienti che abbiamo stimato, b0 e b1, cominciando da b0, anche se
tra i due coefficienti quello più rilevante, dal punto di vista pratico, è l’inclinazione, cioè quel numero che ci
dice quanto ci aspettiamo che vari il valore previsto di y, al variare del valore del predittore:
 B0 è la stima basata sul
campione dell’intercetta
beta 0 della parte
strutturale del modello. È
interpretata come valore
medio che ci aspettiamo,
la stima del valore medio
della variabile di risposta,
nella situazione in cui il
predittore x è fissato in 0;
nell’esempio questo
1714,9 significa che nei
giorni in cui ci aspettiamo
x=0 cioè online purchases
uguale a 0 (ci aspettiamo
di non avere alcun tipo di
acquisto online sul nostro
sito), stimiamo che in
media avremo comunque
un ammontare medio di vendite totali pari a 1714,9 dollari. In assenza di vendite online b0 ci dice
che in media in quei giorni ci aspettiamo un ammontare di vendite pari a 1714,9. In questo
specifico esempio l’interpretazione che possiamo a dare a b0 è la stima della quota di vendite
giornaliere non attribuibile al canale elettronico ma a quello distributivo tradizionale. È ovvio che
l’interpretazione va adattata al contesto applicativo considerato. In generale però bisogna stare
attenti nell’interpretare l’intercetta, perché l’interpretazione richiede di concentrarsi su uno
scenario particolare, cioè che x=0. In alcune situazioni questo scenario può avere un senso, una
interpretazione da un punto di vista economico, di business; in molti altri casi l’intercetta non ha
una interpretazione economicamente sensata, proprio perché per interpretare questo numero,
l’intercetta stimata, è necessario considerare uno scenario che nella stragrande maggioranza dei
casi non è mai stato osservato nel campione.
Anche nel nostro esempio, nel nostro data set non è mai stato osservato un giorno senza vendite
online, per cui in senso stretto il numero relativo all’intercetta stimata è difficile da interpretare,
questo è vero in generale in tutti i modelli di regressione lineare, lo vedremo più volte negli esempi
futuri, e il motivo per cui è difficile abbiamo già detto è che per interpretare l’intercetta bisogna
estrapolare la retta al di fuori degli scenari che sono stati osservati nel campione relativamente alla
variabile x.
Questa operazione di estrapolazione è un'operazione che in generale è pericolosa, perché al di
fuori del range osservato per la x, noi non abbiamo informazioni circa la relazione tra y e x, noi
abbiamo raccolto informazioni solo sul range effettivamente osservato per la variabile x.

Nell’esempio quello che vedete nello schermo adesso sono tutti i valori degli acquisti on line
effettuati giornalmente, che va da circa 21 a 98-99. La retta ci dà delle previsioni che hanno senso
solo all’interno di questa regione, se volessimo fare previsioni per valori di on line purchases che
sono all'esterno, al di fuori di questo intervallo, purtroppo questo vorrebbe dire che dobbiamo
estrapolare la retta (chiaramente l'estrapolazione può avvenire sia a sinistra ma anche a destra,
anche in questo caso si parla di estrapolazione).

Quando si interpreta l’intercetta del modello, bisogna considerare uno scenario in cui il valore di x
è fissato a 0 perché l’intercetta è il valore di y quando in una retta x è fissato a 0; anche nel nostro
esempio nonostante il valore di b0 abbia un senso da un punto di vista economico, vedete che
quell’interpretazione comunque è il risultato di una estrapolazione.
Vedremo che in generale questa operazione di estrapolazione ci porterà ad interpretare
l’intercetta in un modo che non ha un senso da un punto di vista di business, economico, per
questo motivo molte volte, nella stragrande maggioranza dei casi procederemo a saltare
direttamente l’intercetta proprio perché è affetta da questo problema di estrapolazione e invece ci
concentreremo sull’interpretazione del coefficiente più importante che è il coefficiente di
inclinazione a cui adesso passiamo.

 Il coefficiente angolare, l’inclinazione, la stima di questo coefficiente b1(nel nostro esempio 84,7) si
può interpretare come variazione, in questo caso aumento, semplicemente perché è positivo
quindi 84,17 si interpreta come un aumento della stima della media di y quando noi aumentiamo il
valore del predittore di una unità. Rispiegandolo in termini di significato delle nostre variabili lo
possiamo interpretare come 84,7 ci indica qual è l'incremento della stima della media delle vendite
giornaliere all'aumentare di una unità per quanto riguarda il numero di acquisti on line effettuati
giornalmente. Quindi abbiamo stimato usando il nostro dataset che in media ogni giorno per ogni
acquisto on line aggiuntivo che le vendite totali aumentino di 84,7. Chiaramente essendo un
numero positivo ha un senso economico perché più vendite on line si effettuano, più cresce
l’ammontare delle vendite complessive giornaliere. Appunto come abbiamo già ripetuto,
l'inclinazione è un coefficiente che ha una rilevanza maggiore da un punto di vista pratico perché ci
sta indicando quanto velocemente la variabile risposta mediamente si modifica al variare della
variabile x.
Ripetiamo, in generale (mi raccomando queste interpretazioni generali devono essere adattate
sempre ai contesti specifici considerati), la stima del coefficiente angolare di un modello di
regressione lineare semplice si interpreta come variazione della media di y in corrispondenza di un
incremento unitario della variabile x, questa è l'interpretazione da usare ogni volta.

Video 3
Dopo aver interpretato i coefficienti, b0 e b1, le stime rispettivamente di beta 0 di beta 1, passiamo a dare
alcune prime indicazioni su come si fa a valutare la bontà complessiva del
modello.
Uno degli indici che si può utilizzare (in realtà i vari indici che di volta in volta
presenteremo sono tra loro tutti legati e cercheremo di esplicitare queste relazioni tra i vari indici),
cominciamo con il primo che, nell’output che abbiamo visto in precedenza di R, è riportato nella parte in
fondo, nella quarta parte dell'output, è il cosiddetto standard error dei residui.

Abbiamo detto che i residui sono indicati con la lettere e, sono differenze tra valori osservati e i valori
previsti per la variabile risposta, rappresentano gli errori di previsione che commette il modello nel
prevedere la variabile y.
Questi residui sono a volte positivi, a volte negativi:
-sono positivi per i puntini che nel diagramma di dispersione stanno sopra la retta, perché in quel caso la
retta che dà le previsioni del nostro modello (y cappuccio che vengono fuori dalla retta), i valori previsti,
sono più piccoli dei valori effettivamente osservati e quindi in quel caso i residui sono positivi;
-mentre per le osservazioni, per i punti, che nel diagramma di dispersione stanno sotto la retta stimata, i
residui sono negativi.
Quindi i residui non sono uguali per tutte le osservazioni, non a caso abbiamo usato l'indice i per definire il
residuo e questo significa che ogni osservazione hai il proprio residuo che può essere positivo o negativo,
può essere grande o piccolo, quindi c'è una variabilità dei residui.
Lo standard error dei residui non è altro che una stima della deviazione standard degli errori. Gli errori sono
gli epsilon, i residui sono le stime campionarie degli epsilon, lo standard error dei residui è una stima della
deviazione standard degli errori ed è dato da questa quantità:

Dove: n è la dimensione del campione, SSE indica la somma dei quadrati dei residui (abbiamo già visto qual
è la definizione di SSE, la possiamo riportare anche sulle slide).

Corrispondente alla somma per i che va da uno ad n dei residui elevati al quadrato.
Se vi ricordate questa è la quantità che viene minimizzata dal metodo dei minimi quadrati per calcolare le
stime dei due coefficienti b0 e b1.
Questa quantità, cioè lo standard error dei residui, viene utilizzata per misurare quanto i valori previsti
siano vicini ai valori effettivamente osservati per la risposta:
- più i punti sono vicini alla retta, più la retta rappresenta un modello migliore, buono per i nostri dati, per
spiegare la y in funzione della x, in quella situazione i residui, le distanze dei punti della retta, saranno
piccole quindi vuol dire che la variabilità di questi errori, residui è bassa e quindi il valore di S, lo standard
error dei residui sarà basso, in quel caso concludiamo che è il modello rappresenta una buona descrizione
della relazione tra y ed x.
-quando invece i punti si distribuiscono in modo più sparso, più distante mediamente dalla retta, in quel
caso i residui saranno più grandi, le distanze dai punti della retta saranno più grandi, quindi anche la loro
variabilità sarà maggiore, ovvero S sarà maggiore e quindi in quella situazione concluderemo il contrario,
che il modello non rappresenta una buona sintesi della relazione tra y ed x.
Quindi l'idea è che più piccolo è il valore di S e migliore il modello. S è un indice, numero che ha un’unità di
misura che è la stessa di y, quindi nel nostro esempio S è espresso in dollari. Abbiamo detto che lo standard
error dei residui è riportato nella parte finale dell’output, sotto la dicitura residual standard error, quindi
ricordiamo ancora che minore è lo standard error dei residui, migliore è il modello.
ll problema nel valutare quanto è piccolo o grande S, è che S ha una unità di misura e quindi dipende anche
dalla scala che si usa per esprimere il valore della y, per cui vedremo che nonostante sia un numero che è
importante (e anzi lo useremo più in maniera piuttosto diffusa quando tra qualche settimana introdurremo
modelli di regressione più avanzati perché rappresenterà una delle metriche che si può utilizzare nel caso di
modelli di analisi di regressione), purtroppo ha questo limite per quanto riguarda il singolo modello, cioè
quello di dipendere dall’unità di misura, scala della variabile di risposta, è di difficile interpretazione.

Per questo sono stati sviluppati altri indici, ce n'è uno in particolare che è molto famoso, popolare, forse
anche troppo popolare (proveremo a spiegare perché) che è il cosiddetto indice R quadro. R quadro è
definito come rapporto tra due somme dei quadrati: al numeratore vedete abbiamo questa quantità
chiamata SSR, che sta per somma dei quadrati della regressione, e al denominatore abbiamo SST, indica la
somma dei quadrati totali.
Cosa rappresentano queste due quantità? Guardando la formula (riportata più che altro per completezza e
per capire di che cosa stiamo parlando, per capire a fondo come interpretare questo indice non è
fondamentale che ci si ricordi le formule per gli esami, può essere utile perché consente di fare ulteriori
ragionamenti ma non avrete delle domande dirette su qual è la formula per la R quadro o piuttosto per lo
standard error dei residui).

 Forse è meglio partire dal denominatore che è più familiare: rappresenta nient'altro che la parte
principale quando si vuole calcolare la varianza dei valori di y (definita come somma dei valori
osservati di y meno la media dei valori di y elevato al quadrato il tutto diviso per n o n-1) ed è la
parte principale della varianza corrispondente a questo SST. Quindi il denominatore indica la
variabilità totale osservata per la variabile di risposta;
 al numeratore invece se notate la formula è di fatto la stessa, con l'unica differenza che, invece che
i valori osservati di y, abbiamo i valori previsti di y (infatti c'è il cappuccio sopra la y), indica che
rappresenta non la variabilità dei valori osservati ma la variabilità dei valori previsti attraverso il
modulo di regressione.

Quindi l'indice R quadro mette a rapporto la variabilità dei valori previsti rispetto alla variabilità totale e
quindi si interpreta (adesso diremo perché si può interpretare in questo modo) come quota della variabilità
totale, al denominatore, spiegata dal modello di regressione lineare. È un numero che (infatti si può
dimostrare in questa equazione che avete qui in fondo sulla slide), R quadro è un numero sempre
compreso tra 0 e 1, questo perché la variabilità totale SST in un modello di regressione è uguale alla
variabilità spiegata dal modello più la variabilità residua.
Ricordatevi che il modello di regressione lineare è definito come composizione di due parti: strutturale e di
errore, la parte strutturale è quella che dà origine a questo SSR, la parte di errore è quella che dà origine
alla SSE. Quindi variabilità totale è la somma della variabilità spiegata dal modello più la variabilità non
spiegata dal modello cioè quella residua.
Video 4

Come abbiamo detto R quadro è un numero che è comprese tra 0 e 1, questo perché il numeratore non
può mai essere più grande del denominatore nella definizione di R quadro. In generale più R quadro è
vicino a 1, migliore è il modello nel senso che il modello che stiamo considerando, cioè la specifica variabile
x che abbiamo deciso di usare nella parte strutturale è buona nel prevedere la variabile risposta; viceversa
quanto più è vicino a 0, minore è la capacità previsiva del modello. Nella slide successiva mostriamo alcuni
casi, dati, diagrammi di dispersione e relativi valori di R quadro. Prima di proseguire facciamo notare che il
valore di R quadro, come indice di valutazione della bontà di un modello, a volte viene sovrastimato, molte
volte se userete queste tecniche vi capiterà che si utilizzi come principale se non unico indice per valutare la
bontà del modello, cosa non corretta, è uno degli elementi in base a cui valutare, non l’unico, è il più
popolare ma non necessariamente il più importante. Come vedrete dagli esercizi su moodle, quando si
tratta di valutare la bontà del modello, si deve valutare nella sua completezza e globalità. Passiamo a
esempi di diagrammi di dispersione, di rette stimate e R quadro.

Cominciamo dall’esempio in alto a sinistra, il digramma mostra chiaramente una relazione molto molto
forte di tipo lineare crescente tra y ed x, in una situazione del genere il valore di R quadro sarà sicuramente
vicino al massimo cioè +1, questo perché la retta in quel caso rappresenta una spiegazione molto molto
efficace e quasi esaustiva (ecco perché vicino a +1) della relazione lineare tra y e x.
Stessa cosa accade per lo scenario in alto a destra, abbiamo esattamente la stessa situazione in termini di R
quadro, nel senso che continua a essere vero che in quel diagramma di dispersione la relazione tra y e x
continua a essere spiegata molto bene attraverso la retta che rappresenta il modello di regressione stimata.
Anche in questo caso R quadro si avvicina a +1, la differenza tra queste prime due situazioni è che nel
riquadro a sinistra la relazione è positiva crescente, in quello a destra è decrescente. R quadro quindi non
distingue tra inclinazioni o rette che sono positivamente o negativamente inclinate, distingue solo tra
situazioni in cui i punti sono vicini alla retta piuttosto che lontani dalla retta.
Ad esempio, lontani come nel caso del diagramma mostrato in basso a sinistra. I punti sono molto distanti
dalla retta, essendo molto distanti dalla retta, la retta stessa non rappresenta una spiegazione molto
efficace della relazione tra y e x, la retta sarà poco utile per prevedere la y in funzione della x, quindi il
valore di R quadro sarà vicino a 0, cioè il suo minimo. La variabilità totale della y che noi abbiamo osservato
non è praticamente spiegata quasi per nulla o molto poco dalla retta di regressione, dalle previsioni, dalla
variabile x.
Infine ultimo esempio molto importante, perché purtroppo è un esempio che si osserva molto spesso nella
pratica, la situazione in cui abbiamo la maggior parte dei punti che si dispongono in questa parte del
diagramma di dispersione e poche osservazioni molto distanziate che rappresentano quello che noi
abbiamo chiamato outlier. Se noi basassimo la nostra valutazione del modello solo su R quadro, purtroppo
questo non andrebbe bene, il diagramma di dispersione che stanno stiamo commentando rappresenta un
esempio che va in quella direzione, se notate infatti in questa situazione la presenza degli outlier fa sì che la
retta stimata rappresenti alla fine un modello che non è così poco efficiente. La retta in questo caso è un
modello che spiegherà una parte non trascurabile della variabilità osservata della y, ovvero R quadro non
assumerà dei valori vicino a 0, però purtroppo questo risultato in una situazione di questo genere è
fuorviante, perché l'indice R quadro che non è vicino a 0 non è in questa situazione un indicatore della
bontà del modello. Questo
perché quell’R quadro non troppo
vicino a 0 è un numero quasi
esclusivamente determinato dalla
presenza di quei pochi outlier che
abbiamo in alto a destra nel
diagramma di dispersione.

Se pensassimo di eliminare gli


outlier dalla nostra analisi,
rifacessimo l'analisi stimando la
retta ma rimuovendo le tre
osservazioni dal campione e
usassimo solo i dati che sono
inclusi nel resto del campione,
osserveremo che la retta di regressione, da quella che è rappresentata nel grafico come inclinata
positivamente, utilizzando solo i dati in basso a sinistra, diventerebbe una retta praticamente orizzontale
cioè non esiste praticamente nessuna relazione lineare che spiega y in funzione della x sulla base di questi
dati che rappresentano la maggioranza del nostro campione.
La relazione che viene fuori è fuorviante perché influenzata dalla presenza di outlier, quindi utilizzare da
solo R quadro per valutare la bontà del modello di regressione lineare in generale non è una cosa corretta,
perché potrebbero esserci situazioni in cui R quadro ci dà informazioni fuorvianti.

Ritorniamo a questo punto all’output della regressione lineare che è quello riproposto nella slide, in
particolare ci soffermiamo sui due indicatori che abbiamo appena introdotto cioè:
- lo standard error dei residui che nel nostro esempio è uguale a 1147 (riportato abbiamo detto nella parte
finale dell' output sotto il titolo residual standard errors), questo numero è espresso in dollari in questo
caso la stessa unità misura della variabile di risposta, è difficile da interpretare, perché quel valore dipende
dall'unità di misura, dalla scala della variabile y. Questo numero però è legato in modo molto stretto a R
quadro,
-R quadro è proposto nella riga successiva sotto il titolo multiple R-squared, uguale nel nostro esempio a
0,6898 quasi 69%, è un numero che va da 0 a 1, possiamo esprimerlo in percentuale. 0,69 vuol dire che il
nostro modello di regressione lineare, cioè la variabile on line purchases da sola è in grado di spiegare quasi
il 69% della variabilità totale osservata per le vendite totali giornaliere, quindi ripeto questo numero indica
che il numero di acquisti on line effettuato ogni giorno è in grado di spiegare quasi il 69% della variabilità
osservata per la variabile di risposta, vendite totali giornaliere.

Quindi possiamo dire che è un modello piuttosto buono, tenendo presente che stiamo utilizzando solo una
informazione, le vendite on line, quindi da solo questo numero di vendite on line può spiegare una buona
parte della variabilità osservata dalle vendite totali.
Potremmo dire che per questa azienda le vendite on line rappresentano il driver principale delle vendite
totali,chiaramente la parte del residuo che rimane per arrivare al 100% da 69%, cioè il 31%, rappresenta
invece il peso, il contributo fornito dalle vendite attraverso il canale tradizionale. Lo standard error dei
residui ed R quadro sono legati tra di loro, perché quando R quadro è vicino a 1 necessariamente lo
standard error tenderà ad essere più basso e viceversa, quindi sono legati in modo inverso (più grande è
l'uno, più basso è l'altro).
Video 5

Fino a questo momento abbiamo basato le valutazioni del modello solo sui dati campionari, abbiamo solo
analizzato indici che erano stati ottenuti sulla base delle osservazioni che abbiamo il campione. Abbiamo
dedicato molto tempo nella prima parte del corso a introdurre e ripassare alcuni concetti importanti di
statistica di base, abbiamo detto che di solito le decisioni manageriali non hanno un impatto solo limitato
alle osservazioni raccolte ma tale impatto va molto oltre, riguarda l'intera popolazione a cui i nostri dati
campionari fanno un riferimento. Quindi è necessario fare la cosiddetta analisi inferenziale, cercare di
capire se i risultati ottenuti sulla base del campione possono anche essere estesi, nel senso che valgono
almeno in linea approssimativa, anche per l'intera popolazione di riferimento. Sappiamo, perché abbiamo
ripassato questi strumenti in linea generale nella prima parte del corso, che gli strumenti di statistica
inferenziale principali che abbiamo a disposizione sono test di ipotesi statistici e intervalli di confidenza. Ora
applichiamo questi strumenti anche al coefficiente di inclinazione nel modello di regressione lineare
semplice (si potrebbe fare lo stesso tipo di valutazione, cioè test e intervalli di confidenza, anche per la
intercetta, però, visto che abbiamo già sottolineato i limiti nella stragrande maggioranza dei casi
dell'interpretazione da un punto di vista di business e manageriale dell’intercetta, nel resto del corso
dedicheremo molto poca attenzione alla descrizione dei risultati relativi all’intercetta, ci concentreremo
principalmente sull inclinazione).
Cominciamo a vedere come si fa un test, in realtà non dobbiamo fare nulla perché i risultati sono già tutti
riportati nell’output, dobbiamo solo interpretare i risultati. Cerchiamo adesso di valutare l'affidabilità
statistica, capiamo come si fa a valutare l'affidabilità statistica del coefficiente angolare.

Solitamente il primo passo è effettuare il test t per coefficiente beta 1, qui purtroppo c'è un errore, il
coefficiente angolare è b1, non b0.
Se vi ricordate tutti i test sono composti da due ipotesi, h0 ipotesi nulla, H1 ipotesi alternativa e, alla luce
dei dati campionari, dobbiamo valutare se l'ipotesi nulla può essere scartata in favore dell’ipotesi
alternativa oppure questo non possa essere fatto e quindi non è possibile confermare l'ipotesi alternativa
come quella più ragionevole tra le due.
Nel contesto del modello di regressione lineare semplice, l’ipotesi nulla nel test t per l'inclinazione
corrisponde all’affermazione secondo cui l'inclinazione beta 1 nell’intera popolazione (ricordate b1 è la
stima basata sul campione di beta 1, che è il valore non noto della inclinazione relativa a tutti i dati
dell'intera popolazione; quello che vogliamo fare è cercare di capire quali sono i valori probabili di beta 1
che è la quantità non conosciuta, b1 è la stima basata sul campione e la conosciamo, nel nostro esempio
84,7, questo è il motivo per cui nell’ipotesi di un test vengono coinvolti i coefficienti non noti di un
modello), l'ipotesi nulla nel test t per il coefficiente beta 1 è l'affermazione secondo cui l'inclinazione nella
popolazione è 0.
Visto che stiamo parlando di una retta vuol dire che y non è linearmente prevedibile utilizzando la variabile
x se beta 1=0, quindi h0 indica la situazione peggiore a cui potremmo trovarci di fronte nell’intera
popolazione, cioè la situazione in cui y non si può prevedere utilizzando una funzione lineare della x.
Questa ipotesi h0 è confrontata con l’ipotesi alternativa che vedete ovvero l'inclinazione è un qualsiasi
valore diverso da 0, quindi in qualche modo h1 dice che y nella popolazione è linearmente dipendente dalla
variabile x nel problema che stiamo considerando.
Come al solito, se vi ricordate, i passi per condurre un test sono quattro, il primo è quello appena visto, cioè
ricordarsi quali sono le due ipotesi da confrontare (ribadisco che in tutti gli esempi che vedremo di
regressione lineare, le ipotesi relative alle inclinazioni saranno sempre queste due, non dovete decidere
qual è il valore di inclinazione che si testa, il test default effettuato riportato in qualsiasi software che
effettua analisi di regressione lineare è un test in cui si confronta inclinazione della popolazione uguale a 0
contro inclinazione della popolazione diversa da 0). Lo step numero due nella conduzione di un test è, se vi
ricordate, il calcolo di una statistica test; quella che si utilizza per fare questo specifico test è quella che
vedete scritta qua sotto viene chiamata t di solito, proprio perché il test si chiama t( perché è basato su una
distribuzione di probabilità chiamata distribuzione t, a noi non interessano questi dettagli più tecnici)
definita come il rapporto tra b1, stima del coefficiente angolare e s di b1, il denominatore, che è la stima
dello standard error di b1. Se vi ricordate, lo standard error di una statistica non è altro che è una misura
della precisione della stima, più basso è lo standard error, maggiore è la precisione nell’output già
commentato in precedenza.

Questi standard error sono riportati nella seconda colonna della tabella dei coefficienti, torniamo un
secondo alla slide in cui avevamo l’output; come vedete la prima colonna contiene le stime di b0 e b1, la
seconda contiene i valori degli standard error per ognuno dei due coefficienti, quindi il b1 nel nostro
esempio e 84,69, S di b1 standard error di b1 invece è il secondo valore nella seconda colonna, 9,21. I valori
t value sono quelli della statistica test, se noi dividiamo 84,7 per 9,21 otteniamo il valore di t, la statistica
test per il b1 che è 9,193.
Una volta calcolato il valore della statistica test (vedete che non va calcolato a mano ma è già riportato
nell’output dell'analisi) il passo numero tre per un test è calcolare il p value (anche in questo caso non a
mano, nel nostro caso non andrà mai calcolato a mano ma è riportato nella colonna successiva, l'ultima
colonna Pr maggiore di , è il p value).
Questi due quindi sono i due p value per i test t, il primo sulla intercetta, il secondo sull’inclinazione. Quindi
il p value (passo tre del test) su beta 1 è uguale a 3,36e-11 ( questa si chiama notazione scientifica, serve
per indicare valori molto piccoli, in particolare questo -11 non significa altro che 3,36×10^-11 un numero
molto molto piccolo che in sostanza è 0,00 così via dieci volte 0 e poi abbiamo 336). L'ultimo passaggio dei
test, se vi ricordate, consiste nel prendere una decisione circa il rifiuto o meno di h0, questa decisione va
presa confrontando il p value con un valore di riferimento, che è il famoso Alfa, cioè livello di significatività
del test (solitamente pari al 5%, cioè 0,05; se negli esercizi non vi viene detto nulla in contrario, utilizzate p
value pari al 5%, altrimenti l'esercizio riporta il valore del p value da usare). L’ulltimo passo richiede di
confrontare il p value con il livello di significatività che si intende utilizzare, se nel nostro esempio
utilizzassimo il valore standard del 5% otterremmo che, visto che il p value è più piccolo del livello di
significatività, si può rifiutare l'ipotesi nulla.
Nel nostro specifico esempio (e questa vi ricordo che è la regola generale dei test), si rifiuta l'ipotesi nulla se
il p value è minore di Alfa, questa è la situazione che abbiamo nel nostro esempio per l'inclinazione e quindi
concludiamo che in modo netto (perché il p value è molto molto piccolo) possiamo rifiutare l’ipotesi nulla e
concludere che i dati forniscono una evidenza molto forte, molto chiara, circa il fatto che l'inclinazione nella
popolazione sia un valore diverso da 0.