Sei sulla pagina 1di 25

Powered by

Webinar SPS
La Regressione logistica con Statistics for Data Analysis
Webinar | Agenda

Introduzione a Statistics for Data Analysis

Contesto introduttivo

Regressione logistica

Esempio con Statistics for Data Analysis

Ringraziamenti

www.spss.it
Webinar | Agenda

Introduzione a Statistics for Data Analysis

Contesto introduttivo

Regressione logistica

Esempio con Statistics for Data Analysis

Ringraziamenti

www.spss.it
SPS | LaunchBox Statistics for Data Analysis

https://www.spss.it/downloadv27-win

Icona sul Desktop


SPS | APP Statistics for Data Analysis

Cercala con:
Statistics for Data Analysis

www.spss.it
Webinar | Agenda

Introduzione a Statistics for Data Analysis

Contesto introduttivo

Regressione logistica

Esempio con Statistics for Data Analysis

Ringraziamenti

www.spss.it
Contesto introduttivo

A risposta quantitativa:
regressione lineare

A risposta qualitativa:
Metodi supervisionati regressione logistica,
problemi di
classificazione

Risposta
quantitativa/qualitativa:
Metodi statistici di K-Nearest neighbors ,
apprendimento Boosting

PCA

Metodi non supervisionati

Cluster analisi

www.spss.it
Contesto introduttivo

Y=1 (evento/successo)

Y= variabile target oggetto di


studio dicotomica

Y=0 (evento
complementare/insuccesso)

www.spss.it
Contesto introduttivo

Attenzione: ciò che interessa, dunque, non è il valore atteso (o predetto), come nella
regressione lineare, ma la probabilità che un dato soggetto appartenga a meno a uno dei
due gruppi.

www.spss.it
Contesto introduttivo

Il modello di regressione logistica viene utilizzato quando si è interessati a studiare o


analizzare la relazione causale tra una variabile dipendente dicotomica e una o più variabili
indipendenti quantitative. Ha molte applicazioni, ad esempio:
• In ambito psicometrico: si è interessati a valutare l’evento «attacco di panico» in un
individuo in funzione del suo livello di ansia e dell’età.
• In ambito medico: valutare l’impatto di una particolare operazione chirurgica
(positivo/negativo) in funzione delle condizioni fisiche del paziente prima dell’operazione
(stato di avanzamento della malattia, quadro clinico, esami,..).
• In ambito marketing: valutare l’apprezzamento/non apprezzamento di un cliente per un
nuovo prodotto alimentare (es. biscotti) in base a prezzo, sapore, forma, farcitura (es. al
cioccolato),…
• In ambito sportivo: analisi del successo/insuccesso di un atleta/squadra in base agli indici
di performance, caratteristiche ambientali, del terreno di gioco/pista…

www.spss.it
Webinar | Agenda

Introduzione a Statistics for Data Analysis

Contesto introduttivo

Regressione logistica

Esempio con Statistics for Data Analysis

Ringraziamenti

www.spss.it
Regressione logistica

𝑒𝑥𝑝𝛽0 +𝛽1 𝑋1 +𝛽2 𝑋2 +⋯+𝛽𝑘𝑋𝑘+𝜖


𝑷 𝒀 = 𝟏| 𝑿 =
1 + 𝑒𝑥𝑝𝛽0 +𝛽1 𝑋1 +𝛽2 𝑋2 +⋯+𝛽𝑘𝑋𝑘+𝜖

𝑷(𝒀 = 𝟏)
𝑶𝒅𝒅𝒔(𝒀=𝟏) =
1 − 𝑷(𝒀 = 𝟏)

𝐹𝑢𝑛𝑧𝑖𝑜𝑛𝑒 𝑙𝑜𝑔𝑖𝑡: ln 𝑶𝒅𝒅𝒔(𝒀=𝟏) = 𝛽0 + 𝛽1 𝑋1 + 𝛽2 𝑋2 + ⋯ + 𝛽𝑘 𝑋𝑘

La stima dei parametri 𝛽 avviene con il metodo della massima verosimiglianza.


Tale metodo conduce a stime che massimizzano la probabilità di ottenere quel determinato
insieme di osservazioni.

www.spss.it
Regressione logistica

Ad esempio, se si considera un modello con una sola esplicativa che chiamiamo x


(quantitativa continua), si avrà l’odds ratio (stima rischio relativo):

𝑂𝑑𝑑𝑠(𝑌=1|𝑥+1)
𝑂𝑅 = = 𝑒𝑥𝑝𝛽
𝑂𝑑𝑑𝑠(𝑌=1|𝑥)

• OR=1: un incremento unitario di x non altera la probabilità di


sviluppare l’evento (Y=1).
• OR>1: un incremento unitario di x aumenta la probabilità di sviluppare
l’evento (Y=1, x è considerato fattore di rischio).
• OR<1: un incremento unitario di x fa diminuire la probabilità di
sviluppare l’evento (Y=1, x è considerato fattore protettivo).

www.spss.it
Regressione logistica

Capacità predittiva del modello: matrice di classificazione

𝑉𝑁 + 𝑉𝑃 169 + 99
=
𝑛 380

www.spss.it
Regressione logistica

Test di ipotesi (di Wald) sui coefficienti di regressione (𝛽):

𝑯𝟎 : 𝜷𝒋 = 𝟎 Equivalenti!! 𝑯𝟎 : 𝑶𝑹(𝒆𝒙𝒑𝜷𝒋 ) = 𝟏
൝ ൝
𝑯𝟏 : 𝜷𝒋 ≠ 𝟎 𝑯𝟏 : 𝑶𝑹(𝒆𝒙𝒑𝜷𝒋 ) ≠ 𝟏

• Accetto 𝐻0 se p-value(sign.)>0.05 →variabile non significativa (si può omettere!)


• Rifiuto 𝐻0 se p-value(sign.)≤0.05 →variabile significativa per il modello!

www.spss.it
Webinar | Agenda

Introduzione a Statistics for Data Analysis

Contesto introduttivo

Regressione logistica

Esempio con Statistics for Data Analysis

Ringraziamenti

www.spss.it
Applicazione pratica

1)Trasforma→ Ricodifica in variabili differenti

www.spss.it
Applicazione pratica

2)Analizza→ Regressione→ Logistica binaria

www.spss.it
Applicazione pratica

2.1)Menù regressione logistica:

www.spss.it
Applicazione pratica

2.2)Esempio output modello di regressione logistica: tabella di classificazione

www.spss.it
Applicazione pratica

2.3)Esempio di output coefficienti ed OR:

𝐵2 𝐵1

𝐵0 OR
Significatività
test di Wald

www.spss.it
Applicazione pratica

2.4.1)Interpretazione output OR:

• 𝑂𝑅 > 1: un tiro in porta in più (di differenza) effettuato dalla squadra A


rispetto alla squadra B incide positivamente sulla possibile vittoria della
squadra A.
• 𝑂𝑅 < 1: un cartellino rosso di differenza per la squadra A rispetto alla
squadra B incide negativamente sulla possibile vittoria della squadra A.

www.spss.it
Applicazione pratica

2.4.2)Esempio previsione:

Ipotizziamo che in una partita tra squadra A e squadra B ci siano i seguenti score:
• Diff_xG (A-B)=1.17
• Diff goal all’intervallo(A-B)=1
• Diff red cards (A-B)=0
• Diff_tiri in porta (A-B)= 5

Possiamo prevedere la probabilità di vittoria della squadra A, sulla base del nostro modello:

𝑒 −0.915+0.345∗𝟏.𝟏𝟕+1.337∗𝟏−0.552∗0+0.246∗𝟓
𝑷 𝒀 = 𝟏| 𝑿 = −0.915+0.345∗𝟏.𝟏𝟕+1.337∗𝟏−0.552∗0+0.246∗𝟓
= 𝟎. 𝟖𝟖𝟔
1+𝑒

www.spss.it
Conclusione

✓ OK con outcome dicotomico


✓ Eventualmente rendere dicotomico l’outcome
✓ Significatività delle variabili esplicative
✓ Commenti sull’OR/valutazione bontà di classificazione
✓ Utilizzabile per prevedere la probabilità di appartenenza ad una
determinata categoria

www.spss.it
Webinar | Regressione logistica

@Sales

RINGRAZIAMENTI
Sales & Training Teams @SPS

www.spss.it