Sei sulla pagina 1di 95

Metodi statistici per la segmentazione e il

posizionamento
REGRESSIONE LINEARE
Lezione 1,2,3
Un semplice problema
 Una compagnia di Fintech – azienda di finanziamenti, dove si richiedono prestiti - è
interessata a prevedere l'ammontare medio di un finanziamento richiesto dai propri clienti.
Prestito per una compravendita. Queste aziende raccolgono una serie di dati e si cerca di
avere un modello che ci preveda l’importo richiesto dal cliente.
 L'ufficio marketing ritiene che un possibile fattore per prevedere tale quantità sia
dall'anzianità del cliente (es. indicatore di un rapporto di fiducia).
All'azienda interessa se il cliente riesce a ripagare il prestito. Di solito un cliente più
anziano richiede un importo maggiore. L'anzianità è un fattore importante (rapporto di
fiducia).
 Per rispondere a questa domanda, vengono raccolte informazioni su 200 clienti.
 L’azienda che fa finanziamenti vuole vedere la relazione tra
anzianità e importi. Si parla con qualcuno che ci dà
informazioni su un certo numero di clienti e se sussiste una
relazione tra anzianità e quanti soldi chiedono in prestito.
Raccogliamo informazioni con la matrice dati (clienti, anni
rapporto=misura di anzianità quanto tempo è cliente e sussiste
il rapporto professionale, finanziamento medio- ammontare
finanziamento). Ogni dato è un’osservazione che corrisponde ad un cliente.

Associazione tra due variabili


 Spesso siamo interessati a valutare il comportamento congiunto delle due variabili
 Rappresentiamo i punti in un diagramma a dispersione (scatter plot), ossia un grafico (x,y)
in cui riportiamo sulle x il valore di anzianità e sulle y l'ammontare del finanziamento medio
Si crea un diagramma di
dispersione ovvero un grafico che
permette di visualizzare il
comportamento congiunto di due
variabili. Le variabili sono
anzianità- x e ammontare del
finanziamento- y. Inoltre, si
confrontano i clienti selezionati
con il totale dei clienti.
Un modello statistico
 Relazione tra una variabile risposta (finanziamento) e una esplicativa (anzianità)
C'è una relazione lineare crescente, un nuovo cliente fa un'operazione con ammontare
basso e un cliente più anziano fa un’operazione di solito con ammontare più elevati.
Vogliamo un modello che ci descriva ciò e in grandi linee i clienti più anziani sono più
propensi a chiedere cifre più elevate e viceversa.
 Cercare di fornire una spiegazione sulla relazione tra le due variabili
È un primo esempio di modello di regressione: in questo l’oggetto che più ci interessa è la
variabile risposta ovvero la quantità che ci interessa prevedere tramite il modello statistico.
Si cerca di fornire una spiegazione sulla relazione tra due variabili:
- Variabile esplicativa/controllo (anzianità)  La variabile esplicativa ci permette di spiegare
se il cliente più anziano chiede un importo maggiore. Questa è la variabile su cui si può
giocare e quindi controllare. Es. 100 persone, alcune vaccino vero e altre placebo, vado a
fare il test su quali hanno avuto più contagi e chi no.
- Variabile risposta (finanziamento)
 Proviamo ad utilizzare un modello statistico per rispondere a questa domanda
 Si utilizza un modello statistico per rispondere a questa domanda. Si controllano tutte le
variabili (anziani/giovani), soprattutto le variabili di controllo. Es. Gaviscon. È una variabile
che va a determinare la risposta. Per controllare il finanziamento entra in gioco la volontà
della persona ovvero quanto chiedere in prestito ma non decide sull'anzianità.
Informazione oggettiva e ferma che possiamo controllare Es. F/M. Ha senso utilizzare ciò
che noi sappiamo per fare previsioni su ciò che non possiamo controllare. Abbiamo questi
dati con 200 clienti, arriva un cliente nuovo registrato e non ha ancora chiesto il
finanziamento, quello che vogliamo fare è quanto chiederà come finanziamento medio
(variabile risposta) sulla base degli altri dati (variabili esplicative). Può anche essere che non
venga richiesto un finanziamento ma con anzianità elevata. Es. assicurazione (consulenza).
 Un modello è una rappresentazione semplificata di un fenomeno d'interesse, funzionale ad
un obiettivo specifico. Ossia un'approssimazione semplice del fenomeno che (speriamo)
possa essere utile
Semplificata: vediamo quanto il cliente è anziano per capire l'ammontare è semplificato,
si fa finta che le persone siano tutte uguali e l’unica cosa che si vede è quanto si fida lui.
Fenomeno d'interesse, funzionale ad un obiettivo specifico: con questo modello ci si
deve fare qualcosa, deve essere un’operazione precisa, perseguire un obiettivo es. trovare e
prevedere l’ammontare finanziamento.
 Il modello più semplice a cui possiamo pensare è il modello lineare: assumiamo che la
relazione tra la variabile risposta (y, finanziamento) e la variabile esplicativa (x, anzianità)
sia una y=α + βx , da una linea retta.
Il modello più semplice a cui possiamo pensare è il modello lineare (linea retta tra
anzianità e ammontare), assumiamo che la relazione tra la variabile risposta y
finanziamento e la variabile esplicativa x anzianità sia una retta.
α 2> α
α 2< α Y =mx+q
Y =α + βx

β <0
Quella che chiamiamo variabile risposta Y dobbiamo legarla alla variabile esplicativa β . La
relazione che possiamo assumere è una retta ovvero quantificata da due quantità Y e X.
α e β sono le quantità ignote che quantificano tutte le possibili rette sul piano. α è
l’intercetta. β è una misura di coefficiente angolare ovvero l’inclinazione.
 Qual è il significato di α e β? Tali quantità sono dei parametri che determinano
univocamente la retta che passa per i punti.
 Si noti che tali quantità non sono osservabili (noi osserviamo solo x e y)
Se α cambia, la retta si sposta e si ottengono una serie di rette parallele. Se α 2> α
l’intercetta sale. Se α 2< α allora l’intercetta scende.
Se β >0il coefficiente è positivo e quindi la retta è crescente. Se β <0il coefficiente è
negativo e la retta sarà negativa.
NB! Per trovare x e y dati alfa e beta. Y=2+1,5x se x=0, y=2, se x=1, y=3,5.

Relazione lineare
 Al variare di α e β possiamo ottenere tutte le possibili rette
del piano
 Interpretazione: α corrisponde al valore di y quando
x=0 (nuovo cliente)
 Interpretazione: β corrisponde alla variazione di y
quando x aumenta di un anno
 Valori di β>0 indicano che al crescere della x, cresce la y
 Valori di β<0 indicano che al crescere della x, decresce la y
 β misura il livello di associazione tra le due variabili
 α un valore "base" della risposta
Alfa e beta sono le quantità che vogliamo stimare. Al contrario le variabili x e y utilizzate per
spiegare l’una e l’altra sono quantità che dobbiamo osservare. Alfa e Beta sono ignote mentre x e y
sono note. Vogliamo avere una retta che ci permetta di raccontare qualcosa rispetto alle variabili.
Alfa è il valore osservato nella variabile risposta quando quella esplicativa x è uguale a 0.
Beta è la relazione dell’equazione: positivo è relazione crescente e viceversa ma anche l’intensità
ovvero quanto velocemente cresce o decresce. La derivata della retta è Beta, descrive la misura di
quanto veloce una retta sale e cresce. La retta deve passare all'interno del modello.
Stima dei parametri
 Quali sono i valori di α e β "migliori"?
 Idealmente, quelli che ci permettono di avere la retta che "meglio approssima" la relazione
tra i punti
 Ricordiamoci che stiamo usando un modello statistico: sappiamo che la relazione non sarà
esatta (impossibile), ma speriamo sia ragionevole
 Chiamiamo ora xi il valore della variabile esplicativa per il cliente i-esimo, e yi della risposta,
per i=1, 2,…,ni=1,2,…,n (tutti i clienti)
 Prediamo un singolo cliente, e quindi un singolo valore di xi
 Dati dei valori di α e β il modello ci dice che il valore "previsto" per yi (chiamiamolo Ŷi) sarà
pari a Ŷi=α + βxi
 Si noti che tale valore cambia se cambiamo α e β
Quali sono i valori di alfa e beta migliori? Si fa il metodo dei minimi quadrati.
Abbiamo xi ovvero abbiamo unità di statistica diversa il cliente sarà iesimo ovvero x1,2,3 e con
ammontare y1,2,3. Le xi sono fissate (anzianità). Facciamo finta di non avere la variabile risposta,
andiamo a vedere cosa ci dice il modello sul finanziamento che ci chiederà il cliente. Il modello
chiederà sempre: Beta volte anni di anzianità + alfa = Y con cappuccio. Mettiamo il cappuccio sulle
quantità che stiamo stimando, xi e yi li osserviamo. Questa è una stima che il modello ci fornisce.
Facciamo una stima sull’ammontare del cliente iesimo. La stima y cappuccio cambia al cambiare di
alfa, perché le rette disegnate sono diverse. Dato il valore dell'anzianità il valore che otteniamo è
deterministico: quando cambiano alfa e beta cambia anche la previsione, a rette diverse
corrispondono valori diversi.

 In ogni caso, non ci aspettiamo che sia esattamente uguale al vero valore di yi per il
cliente ii esimo. Chiamiamo questo errore εi= yi−Ŷ i= yi−α −βxi
 εi viene chiamato residuo: misura di quando la nostra previsione si discosta dal valore che
cerca di prevedere
Reinseriamo il fatto che il vero valore del finanziamento lo abbiamo. Vediamo quanto queste
previsioni si discostano dal valore che abbiamo. Sappiamo che la stima non sarà mai esatta. Nel
momento in cui facciamo previsioni y cappuccio sappiamo che questa quantità corrisponde alla
differenza tra quello che abbiamo osservato veramente (finanziamento cliente iesimo) e confronto
con la previsione del modello statistico. È positiva se stiamo sottostimando finanziamento >
previsione e negativa se stiamo sovrastimando. Ci auspichiamo che sia piccola. Confrontiamo i due
modelli per calcolare l'errore, vogliamo avere un modello benché sbagliato sia comunque
ragionevole. Calcoliamo quindi il residuo.
Ei= residuo/errore: Il valore vero della risposta- valore previsione: yi-alfa-beta*xi. È ciò che avanzo,
una parte residuale del modello. Una misura su quanto ci stiamo discostando dal modello.
I residui e i minimi quadrati
 Fissiamo α e β, disegniamo la retta di regressione
 Per ogni punto xi disegniamo
anche (xi, Ŷ i), ossia i valori
previsti dalla retta (per
definizione, stanno esattamente
sulla retta)
 Tra tutte le rette (e quindi tutti gli
α e β), cerchiamo quella che si
avvicina di più ai punti

 Andiamo a vedere le previsioni per il cliente che sto analizzando. Per il cliente 2 abbiamo
anzianità pari a 14, la retta prevede ammontare pari a 1000. I triangoli verdi sono y cappuccio: per
averli mi basta avere la retta e i valori xi. Le stime sono posizionate tutte nella retta. Clienti anziani
avranno valori previsti più alti solo per coefficiente angolare positivo. La distanza tra due è il
residuo. La previsione del 2 va peggio del cliente 1 perché il residuo è più piccolo; quindi, minore è
la distanza e quindi il residuo, migliore è la previsione del modello che è in grado di fornirci.

 Il criterio dei minimi quadrati individua la retta che rende minima la somma dei quadrati
dei residui
 I residui possono essere positivi (stiamo sovra-stimando) o negativi (sottostima)
 Ha senso considerare i residui al quadrato (come facevate con la varianza)
 e considerare gli errori che provengono da tutte le osservazioni

∑ εi2
i=1

C'è un problema ovvero il fatto che i residui possono essere positivi e negativi. Sottostima di
1000: residuo +1000 o sovrastima di 1000: residuo -1000. Se sommo i due termini, gli scarti della
media risulta che il residuo è 0. Si utilizza il residuo quadratico, sommo tutti i residui al quadrato.
Ho 200 clienti con 200 errori, se sommassi e basta potrei avere un modello che va male con
residuo basso.

 Ricordando che espressione ha εi e scrivendo il problema di minimizzazione


n
argminα , β =∑ ( y i−α−β x i )
2

i=1

 I valori che rendono minima questa espressione (soluzione del problema di minimo) sono
chiamarli α^ e ^β (lo usiamo per ottenere ^y )
Tra tutte le possibili funzioni quindi tra tutti gli alfa e beta voglio la coppia che mi garantisce che
quella somma dei residui calcolati sia la minore possibile.
Soluzione
 Il problema ha una soluzione analitica
n n
1 1
 Chiamiamo Y = ∑ y i la media delle yi, e in modo analogo x= ∑ x ⅈ
n i=1 n i=1
n
1
 Ricordiamo che cov(x,y)= ∑ ( x −x ) ( y i− y )∈R
n i=1 i
 caso particolare: cov(x,x)=var(x)
 Otteniamo
^β= cov ( x , y )
var ( x )

α^ = y − ^β x
 La relazione stimata sarà
^y i= α^ + ^β x i

 Nel nostro esempio, α^ = 5863.046 mentre ^β = 315.977

Alfa e beta sono le incognite e xi e yi le conosciamo. Come si fa per trovare il minimo di una
funzione rispetto ad alfa e rispetto a beta? Beta è la derivata, si minimizza tramite la derivata. La
derivata parziale è definita come funzione di due variabili. Calcolo derivata, =0, la soluzione
derivata =0 è la condizione di primo ordine, il punto su cui la derivata è nulla è un punto di
massimo o minimo. Questa funzione è sempre concava e se troviamo un punto in cui il gradiente è
uguale a 0 siamo sicuri che sia un minimo.
Anche senza fare la derivata le soluzioni sono analitiche. Ho i valori di alfa e beta ovvero le
quantità che mi permettono di avere la retta con le soluzioni migliori. I parametri sono ricavabili in
forma chiusa. Beta è ricavabile = cov/var. Var = 1 variabile alla volta e cov= 2 variabili
congiuntamente. Ottenuto questo si ottiene la stima migliore che è data dal valore medio della
variabile risposta- B volte la quantità xi.

Riassunto: Problema azienda fintech, in particolare sviluppare un modello statistico per vedere
l’aumentare del finanziamento medio. Si vuole segmentare il tipo di clientela, chi chiede quanto di
un finanziamento. Si sviluppa questo modello che ci permette di identificare quali sono questi
clienti e di spiegare quali sono le caratteristiche che determinano la divisione della clientela.
Abbiamo una variabile risposta, qualcosa che vogliamo prevedere di cui non abbiamo il controllo in
funzione di una variabile esplicativa sotto il nostro controllo. Non avrebbe senso il modello di
regressione per prevedere l’anzianità dei clienti, ma piuttosto l’ammontare del finanziamento
medio. Intercetta ci dice il livello medio e coefficiente angolare che ci dice se la nostra x aumenta
come varia la variabile risposta. B>0 x cresce quindi y cresce se B<0 x cresce quindi y decresce, B=0
non importa l’anzianità chiederà sempre lo stesso importo. Di queste rette ne abbiamo tante e al
variare di alfa e beta abbiamo tutte le possibili rette. Vogliamo prendere il valore di alfa e beta che
hanno senso ovvero che sono finalizzate a ottimizzare la mia variabile risposta. Utilizziamo i residui
come misura di cattivo adattamento del modello e prendiamo tra tutte le possibili rette che
possiamo disegnare prendiamo quella che permette di avere minori residui. Sappiamo che sarà
un’approssimazione e non sarà mai uguale a 0, in generale deve sbagliare il meno possibile. I
residui possono essere positivi o negativi a seconda che il modello sottostimi o sovrastimi. Non si
somma e basta perché il rischio è vedere qualcosa di molto piccolo, invece che minimizzare la
somma dei residui si considera il residuo al quadrano e per definizione diventa tutto positivo e poi
si sommano.
n
( x−x )2
Varianza = somma scarti quadrati della media = ∑ .
i=1 n
n
( x i−x ) ( y i− y )
Covarianza = utilizza più variabili congiunte, quanto variano insieme = ∑
1=1 n
Cov>0 significa che se un finanziamento cresce l’altro cresce
Cov<0 significa che se uno cresce l’altro decresce
La soluzione analitica ovvero che il valore ottimale del modello di regressione è dato dalla
covarianza della variabile esplicativa e la varianza. La stima del coefficiente angolare è cov/var. La
stima dell’intercetta è data dalla media della variabile risposta alla quale sottraiamo beta volte la
media della variabile esplicativa. Ottenuti alfa e beta cappello otteniamo la variabile risposta
stimata.

Graficamente
 La relazione risulta quindi finanziamento =
5863.046 + 315.977 * anni
 Ogni anno di anzianità aumenta il
finanziamento medio di circa 316 euro

Che cosa vogliono dire i parametri del modello di regressione? Il modello dice che se arriva un
cliente nuovo allora il valore previsto è pari 5863 euro. Per un cliente più anziano si moltiplicano gli
anni al coefficiente di regressione.
Anni=0 finanziamento 5863€
Anni=10finanziamento 5863+315,977*10=9023
Se x*=10Y=α+β*10
Se x*+1=11Y= α+β*11
Y(x*+1) -Y(x*) = α+ βx*-( α -β(x*+1)) = α + βx*- α -βx*-β  β
La variabile risposta aumenta di Beta quando aumentiamo il grado di anzianità indipendentemente
dagli anni che stiamo considerando. Se l’incremento della variabile esplicativa è anni di anzianità la
variabile risposta sarà sempre aumentato di Beta ovvero 315,977 * anni di anzianità.
Estensione a più variabili
 Spesso vogliamo misurare l'effetto di più
variabili esplicative
 Ad esempio, un'altra informazione utile da
considerare è se il soggetto ha o meno dei figli,
e se tale informazione contribuisce al livello di
finanziamento medio
 La variabile figli rappresenta una variabile
categoriale o discreta. Per natura, è diversa da una variabile numerica, come quelle che
abbiamo visto finora
Immaginare che i finanziamenti dipendano solo dall’anzianità è sbagliato. Quindi spesso si
misura l’effetto di più variabili esplicative. Inserisco altre informazioni in più perché mi aspetto che
l’ammontare del finanziamento non dipenda solo dall’anzianità. La nuova variabile è con figli o
senza.

Graficamente
Come possiamo includere una variabile qualitativa
all’interno del modello.
Il grafico mette in relazione due variabili: risposta ed
esplicativa. Le variabili esplicative si possono dividere
in:
 Variabili quantitative: anni di rapporto o
finanziamento medio, misurare la
differenza tramite un numero oppure
quantità decimale.
 Variabili qualitative: espressi con i triangoli
rossi senza figli e triangoli neri con figli, un
altro esempio è il sesso M/F.

Due variabili, ma variabili qualitative


 I modelli di regressione "funzionano" solo con variabili quantitative, cioè numeri (mentre la
variabile figli / no-figli rappresenta una stringa)
 L'idea (molto semplice) è quella di trasformare variabili qualitative in numeriche, tramite
opportune codifiche
 La più semplice è la codifica tramite variabili dummy
 Una dummy è una variabile indicatrice, che va appunto ad indicare una specifica modalità
di una variabile
 La variabile figli assume valori: Con figli e Senza figli.
 La trasformiamo in una variabile Ha Figli? che assume il valore 0 se la risposta è no,
e 1 altrimenti (quindi ha figli)
Aggiungiamo quindi una variabile in più a questo grafico rispetto a quello precedente. In alto a
destra sono clienti molto anziani che chiedono
finanziamenti elevati e che tendenzialmente hanno
figli. Si utilizza una procedura che ci permette di
trasformare la variabile qualitativa in variabile
numerica. Il metodo che si utilizza è tramite la
variabile dummy. È una variabile indicatrice (0,1),
trasformiamo questa variabile Figli in valori
numerici Hafigli che abbiano senso.

 Questa strategia si applica con tutte le variabili qualitative


 Nel caso di variabili a due modalità (es Maschio - Femmina), è sufficiente creare una singola
variabile dummy
 In generale, per variabili con k livelli, saranno necessarie k−1 variabili indicatrici
 Una modalità sarà presa come "riferimento" (la otteniamo come complementare alle altre)

Non tutte le variabili qualitative si


ottengono in questo modo. Esempio:
regioni con tre modalità.
In generale può assumere k
modalità, saranno necessarie k-1
variabili indicatrici. Es. Nord, Sud e
centroguardo solo se è nord e sud.

Trasformiamo
 In questo modo abbiamo trasformato delle variabili qualitative in variabili quantitative,
senza perdere informazione (possiamo sempre tornare indietro)
 Possiamo inserire queste variabili nel modello lineare come segue
Yi=α+β1xi1+β2xi2
 dove xi1 rappresenta la prima variabile esplicativa e xi2 la seconda. Ogni variabile avrà
associato un coefficiente dedicato (abbiamo β2 in più rispetto a prima)
 Nel nostro esempio il modello diventa (aggiungendo figli)
finanziamento = α + β1× anzianità + β2× Hafigli
 Quindi, se il cliente non ha figli (quindi Hafigli assume il valore 0)
finanziamento = α + β1× anzianità
 Se il cliente ha figli (quindi Hafigli assume il valore 1)
finanziamento = α + β1× anzianità +β2×1= (α+β2) + β1× anzianità
Abbiamo trasformato variabili qualitative in variabili
quantitative. Andiamo ad aggiungere un altro indice
appendice, per il soggetto i-esimo e la variabile che stiamo
considerando 1,2. Ci aspettiamo che il valore di queste sia
diverso e abbiamo una variabile in più. Yi=alfa+B1xi1
(prima variabile esplicativa) + B2xi2(misura il valore della
variabile esplicativa della seconda) L’effetto di queste
variabili è diverso nella variabile risposta. Vogliamo
misurare sia l’effetto anzianità sia l’effetto di avere figli.

Finanziamento Y = α+β1 anni + β2 figli [0,1] Con figli 1, senza figli 0.


Senza figli: x2=0 Finanziamento = α+β1 anni + β2*0
Con figli: x2=1 Finanziamento = α+β1 anni + β2*1 = (α+β2) + β1*anni

 Y= α+β1*x
 Y= (α+ β2) + β1*x
Le due rette hanno uguale coefficiente angolare ma intercetta diversa:
β1 è il coefficiente di inclinazione ed è lo stesso in entrambi i casi. Questo ci dice quanto
aumenta il finanziamento se la persona ha figli.
α  è l’intercetta cambia nel grafico a seconda che ci siano figli o meno. Risulta più elevata con
figli.
NB! Questo modello mi dice che: L’anzianità del cliente ha uguale effetto sul finanziamento medio
che aumenta di β1 all’aumentare di x1. Quello che cambia è che una persona che ha figli parte da
un finanziamento medio un po' più elevato, in quanto parte da (α+ β2).

Due variabili, ma quantitative


 Inseriamo sia l'anzianità del cliente (anni.rep) che il reddito (reddito)
Yi=α+β1xi1+β3xi3
 Alcune considerazioni valgono anche in questo caso
finanziamento = α + β1× anzianità + β3× reddito
ogni coefficiente βj rappresenta la variazione della variabile risposta, aumentando l'esplicativa
associata di 1, e tenendo l'altra ferma
 Ad esempio: persona con reddito pari a 1000 euro, e anzianità pari a 1010
finanziamento 10 = α + β1×10*β3×1000
 Persona con reddito pari a 1000 euro, e anzianità pari a 11
finanziamento 11= α+ β1×11+ β3×1000
La differenza tra finanziamento 11 e finanziamento 10 corrisponde esattamente a β1
Vogliamo un modello che tiene sempre l’effetto dell’anzianità ma tiene conto dell’effetto di
un’altra variabile ma quantitativa ovvero il reddito. Coefficiente va a misurare quanto cambia la
variabile esplicativa quando aumento la variabile risposta di uno tenendo ferma l’altra. Si misurano
gli effetti netti che ci permette di misurare l’effetto dell’anzianità al netto del reddito. Perché? Ci
aspettiamo che anzianità e reddito si muovono insieme di solito; tuttavia, in qualche modo
vogliamo che il nostro modello si pulisca da questo effetto però ci interessa misurare solamente
l’effetto di reddito oppure di anzianità. Si muove una variabile tenendo ferma l’altra.

Reddito si muove, anzianità ferma Reddito resta fermo e anzianità si muove


xi3=1000 xi3= 1000
xi3’=1001 xi1=10
xi1=10 rimane fermo x1’=11
Yi= α + β1×10*β3×1000 Yi= α + β1×10*β3×1000
Yi= α+ β1×10+ β3×1001 Yi= α+ β1×11+ β3×1000

Questo modello funziona solo se teniamo ferma una di quelle variabili.


La variazione Y(reddito*1001) -Yi(reddito*1001) = β3

Geometria con due esplicative quantitative

Interpretazione
 Il modello con due esplicative (siano
queste qualitative o quantitative) rappresenta un caso di regressione multipla
 In tale modello, i coefficienti di regressione possono essere interpretati come degli effetti
condizionati, che misurano l'effetto di ogni singola variabile esplicativa sulla risposta,
tenendo ferme le altre (ossia condizionandoci)
 In questo modo misuriamo l'effetto di ogni variabile, al netto delle altre
 Perché questo è importante?
 Quando modelliamo più di una variabile, dobbiamo tenere conto di effetti congiunti: ad
esempio, nei dati che stiamo analizzando, i clienti più anziani sono anche quelli più
facoltosi.
 Questo causa due problemi: se immaginiamo di "muovere" l'anzianità, muoviamo anche il
reddito (ad esempio, andiamo a valutare un cliente specifico).
 A noi però interessa misurare solo l'effetto dell'anzianità (la possiamo controllare, e magari
decidere di promuovere un certo prodotto l'anno prossimo)
 Potrebbero non esistere dei clienti con le caratteristiche che ci interessano: ad esempio, un
soggetto con molti anni di rapporto (40) ma con un reddito basso (ad esempio, 500)
Soluzione
 il modello lineare risolve entrambi i problemi

 La relazione stimata risulta


yi=5983.559+176.026xi1+0.512xi3
 Per un cliente con 40 anni di rapporto e reddito 500
yi=5983.559+176.026×40+0.512×500
ossia 13280.498
 Per esercizio, provate con un cliente con 1200 euro, e verificare che la differenza tra le due
previsioni corrisponde esattamente a β3^ (1200−500) = 358.238

Ancora più variabili


 Il modello lineare può essere esteso ad un numero arbitrario di variabili esplicative,
quantitative o qualitative (trasformate)
 Nella formulazione più generale (considerando pp variabili) otteniamo
yi=α+β1xi1+β2xi2+…βpxip+εi
 Da adesso in poi includeremo sempre i residui: sappiamo che il modello non è esatto, ma
soggetto ad errore
 Da un punto di vista geometrico, tale modello non rappresenta più una retta, ma un
iperpiano
 Il criterio di stima è lo stesso: la formula per i residui sarà ancora ε i= y i−^y i e quindi
n n n

∑ ( εi )2=∑ ( y i−^y 1 )2=∑ ( y i−α + β 1 x i + β2 x i … ) 2


1 2

i=1 i=t i=1

 Anche in questo caso, è disponibile una soluzione analitica, anche se l'espressione risulta
più complicata. Può essere espressa tramite opportune operazioni matriciali
Riassunto: Il modo sensato per stimare la retta che spiega il modo migliore la relazione è la retta
che chiamiamo retta di regressione e che minimizza i quadrati dei residui. La retta che rende la
quantità minima è quella corretta.
- Quantitativa: es. reddito
- Qualitativa: es. figli, regioni che assumono un numero finito di modalità. Utilizziamo le dummy
che trasformano le qualitative in quantitative.
Dal punto di vista della specificazione del modello, in entrambi i casi il modello andrà a minimizzare
i residui. La forma dei residui può cambiare e contenere più termini.
Distinzione coefficienti:
1. Il modello di regressione lineare con una variabile quantitativa, se aumento di uno la variabile
esplicativa, in media il finanziamento medio aumenta di beta.
2. Il modello di regressione lineare con una variabile qualitativa, il coefficiente di regressione ci dice
quanto aumenta Y ovvero il reddito lasciando tutto fermo come l’anzianità. Perché? Vogliamo
misurare l’effetto solo dell’aumento del reddito.
Al netto che stiamo utilizzando un modello lineare, se abbiamo una covariata stiamo utilizzando
una retta e così via. Stiamo stimando una struttura molto rigida, la più semplice che possiamo
stimare. I minimi quadrati si garantiscono che di tutte le rette/strutture rigide stiamo scegliendo la
migliore, ovvero la meglio che approssima la relazione tra le nostre variabili dal punto di vista
numerico. Spesso non è detto che questo tipo di relazione sia soddisfacente.

Alcuni commenti
 La relazione lineare potrebbe essere troppo restrittiva
 In alcune applicazioni, la relazione potrebbe essere polinomiale
 Ad esempio, l'età spesso ha un effetto quadratico su patologie
 Dopo aver stimato un modello, è utile considerare come sono i residui e, in generale,
valutare la bontà di adattamento tramite opportune misure (quanto bene o male prevede)
 Una possibile misura è data dal coefficiente di determinazione R2R2. Tale quantità
confronta la varianza spiegata dal modello con la varianza delle osservazioni.
n

∑ ( ^y i − y )2
R2= i=1
n

∑ ( y i − y )2
i=1

 A livello di interpretazione, ci dice quanta informazione il nostro modello è in grado di


spiegare, rispetto a tutta l'informazione disponibile

 Questa relazione lineare non è soddisfacente perché questo è


limitato. Es. studi medici, studi fertilità: come risposta invece come
finanziamento abbiamo la fertilità e lo stimiamo in funzione dell’età.
Non è una funzione lineare, ha una relazione quadratica perché avrà un
massimo. Negli esempi precedenti l’anzianità ha una relazione crescente
e quindi lineare.

Questo dipende dalla scelta del modello. In alcuni casi viene


utilizzato il modello polinomiale lineare y i=α + β 1 x + β 2 x 2 +ε i , mettiamo
dentro delle altezze, dei polinomi. Continua ad essere lineare - sulle x
possono fare ciò che vogliono ma i coefficienti sono lineari – ci
permette quindi di stimare le relazioni con una curva un po’ più
flessibile.
Una cosa che possiamo fare sempre in ambito di modelli lineare è cercare di scegliere una retta,
tra tutte voglio la migliore, complessivamente quanto bene va? Riesco a calcolare quanto va bene
la retta? La misura da utilizzare è chiamata R^2. Crea un rapporto tra le ^y e le y e va a riportare
una loro versione centrata al quadrato di valori. R^2 spiega quanta variabilità spiega il modello.
Non ha un valore oggettivo dipende da quante variabili ha la nostra variabile risposta. Quindi
andiamo a rapportarlo con la variabile risposta. Es. se il finanziamento medio è uguale per tutti,
quella variabile non ha senso spiegarla perché costante. Non è un fenomeno che voglio prevedere.
Ma R^2 quanta variabilità il nostro modello riesce a spiegare rapportata rispetto a quante info a
quanta variabilità è presente nei nostri dati. Se è più vicino a uno più il modello spiega.

Inferenza
 I nostri colleghi dell'area marketing ci hanno fornito dei dati soltanto
per n=200n=200 clienti
 In realtà la nostra azienda ha un numero molto maggiore di clienti. I dati a nostra
disposizione corrispondono ad un campione
 Idealmente, vorremmo essere in grado di dire qualcosa sulla nostra popolazione, cioè tutti i
clienti della nostra azienda (anche quelli futuri, per cui non sono ancora disponibili dei dati)
 Tale procedimento induttivo è alla base della statistica inferenziale: osservando un
campione, vogliamo generalizzare le nostre conclusioni alla popolazione di riferimento
 Perché non studiamo direttamente tutta la popolazione?
 Tale processo potrebbe essere troppo costoso (inviare un questionario a tutti i clienti= o
impossibile (clienti deceduti)

La statistica inferenziale: Abbiamo una serie di info e dato un campione casuale semplice –
piccola popolazione- provenienti da una popolazione ancora più grande, cerco di capire che
relazione sussiste tra questo campione e tutta la popolazione di riferimento. Non si fa su tutta la
popolazione perché costerebbe troppo o non abbiamo accesso ad informazioni. L’inferenza, quindi,
è quando abbiamo un campione n=200 sulla base del totale delle osservazioni vogliamo
generalizzare, se questo campione è rappresentativo ovvero che ben definisce tutta la
popolazione, allora mi aspetto che i risultati che ottengo siano verosimili o utili per caratterizzare il
comportamento.

 Le procedure inferenziali ci
permettono di quantificare
l'incertezza delle nostre stime
 Infatti, la specifica stima dei
coefficienti che abbiamo ottenuto
è legata al campione che i nostri
colleghi ci hanno fornito. Se
avessimo un campione differente,
anche la nostra stima cambierebbe di conseguenza.
Dal punto di vista statistico il fatto che se ragioniamo su un campione fa sì che abbiamo dei
risultati che sono soggetti a incertezza. La popolazione è molto grande, per semplicità abbiamo un
campione di n=200, la stima che otteniamo dipende fortemente dallo specifico campione che
abbiamo osservato. Retta regressione: Una covarianza/varianza mentre alfa è media stimata per il
coefficiente di regressione. Quindi se il campione cambia anche le statistiche cambiano, la media e
altezza delle persone di un campione è diversa dalla media e altezza di altri campioni, benché
provengano dalla stessa popolazione. Diverse osservazioni ottengo diverse stime.

Quanto ci fidiamo?

 Vogliamo caratterizzare la precisione delle nostre stime


 Da un punto di vista statistico, la quantità che viene utilizzata per ottenere la stima dei
coefficienti è definita stimatore
 In particolare, uno stimatore è una variabile aleatoria, in quando funzione del campione
casuale (che è a sua volta una variabile aleatoria)
 In quanto variabile aleatoria, possiamo definire alcune proprietà di interesse. Siamo
interessati ad una misura di precisione definita errore standard (deviazione standard dello
stimatore)
 Sotto alcune semplici assunzioni (sulla varianza del termine di
errore), risulta possibile calcolare in modo analitico gli errori
standard associati alle stime dei coefficienti
 L'output di un software classico, infatti, riporta,
Inclinazione e altezza della retta di regressione è diversa nei due grafici per clienti diversi. La
domanda è che quando abbiamo una retta di regressione quanto ci fidiamo? Vogliamo quindi una
misura che quantifichi con precisione le nostre stime, quanto precisa è la nostra stima. Possiamo
farlo dal punto di vista statistico perché utilizziamo quantità che sono stimatori. Lo stimator è una
funzione che utilizziamo per ottenere delle stime. Le stime ottenuto per un modello di regressione
è una stima puntuale dei coefficienti di regressione. Estimate= stima puntuale Y, B1, B3 cappuccio.
Uno stimatore è una variabile aleatoria significa che, caso per caso, può assumere valori diversi, il
finanziamento medio è aleatoria perché ogni persona ha un valore diverso e non so quale persona
viene pescata all’interno della popolazione. Evento con probabilità 1= sicuramente accadrà, Evento
con probabilità 0 = evento non accadrà.
Come li usiamo?
 possiamo utilizzare le stime degli errori standard per costruire degli intervalli di confidenza
(IC)
 In particolare, un IC è una variabile aleatoria che contiene, con una certa probabilità
fissata (1−α), il vero valore del parametro (nella popolazione)
 Gli intervalli più comuni sono costruiti in questo modo
stima ± z α ∕ 2 std.err
dove zα rappresenta un opportuno quantile della distribuzione dello stimatore
 In caso di numerosità elevate, lo stimatore ha una distribuzione Gaussiana multivariata.
 Il livello di confidenza canonico che si utilizza corrisponde a α=0.05 e un
quantile z0.975=1.96≈2, e quindi costruendo intervalli approssimati del tipo
stima ±2 std.err
 Tali intervalli sono chiamati alla Wald

Abbiamo osservazioni che sono variabili aleatorie, tutte le osservazioni che facciamo saranno a
loro volta variabili aleatorie. Es. calcolo media, prendo due persone avrò una media prendo altre
due persone e avrò una media diversa. Questa differenza è l’incertezza. L’operazione che ci
permette di calcolare la media è lo stimatore, perché è una quantità che ci permette di calcolare
stime. Tutte le quantità che utilizzeremo sono delle stime ottenute da degli stimatori. Il punto è che
se osservo persone diverse, osservo diverse stime. Lo stimatore è caratterizzato dalla variabilità. Es.
Età Tutta via le stime che ottengo non saranno molto diverse, tutto sommato sono intorno ad un
certo numero, non saranno sempre uguali ma tra tutti i campioni possibili saranno vicini ad un
numero. Il punto cruciale è che una misurazione dell’errore dello stimatore è una quantificazione
di quanto vicini o lontani sono tra di loro le varie stime che lo stimatore mi può dare. L’errore
standard è una stima della varianza dello stimatore. È una stima di quanto variabile la mia variabile
aleatoria ha con la media campionaria. È la quantità che utilizziamo che quantificare quanto ci
fidiamo di questo numero. Utilizziamo questa quantità per calcolare intervalli di confidenza che è a
sua volta variabile aleatoria/stimatore, è la quantità che ci dice con una certa probabilità
tendenzialmente abbastanza alta, qual è l’intervallo di valori nel quale ci aspettiamo il vero effetto
di tutti i miei campioni dell’aumento della variabile es. reddito. Possiamo calcolare quindi sia la
stima puntuale che l’intervallo di confidenza ovvero quanto siamo certi o incerti della stima
puntuale che abbiamo avuto tramite intervallo di confidenza. La stima puntuale è 180 ma con un
certo intervallo di confidenza il vero valore starà in un range. Invece di avere solo una stima
puntuale precisa possiamo caratterizzare quanto ci fidiamo nel fornire un range. Dal punto di vista
pratico costruiamo l’intervallo tramite una stima puntuale sommare e sottrarre la stima meno la
deviazione standard. Stima +/- quantile * deviazione standard. L’intervallo di 95% allora alfa è 0,05
e alfa/2= 1,96 = quantile normale standard con quantile 0,95. Stima puntuale +/- due volte errore
standard. Con il 95% di probabilità gli anni di rapporto (variabile) il vero effetto di questa sta tra
[150, 202]. Se costruiamo l’intervallo approssimato con il 95% di probabilità, il vero valore di
effetto anni di rapporto sta tra [149,5; 202,5]. Questi sono intervalli WALD.

Aerei che rientrano sono colpiti in certe zone, tipologia di dato che ha Wald. Il primo tipo di
approccio è che in questi punti colpiti andiamo a rafforzare, questo non funziona perché se ti
interessa capire il punto più fragile non puoi vedere solo gli aerei che ce l’hanno fatta. Si chiama
pregiudizio di sopravvivenza, avviene quando si guardano le cose sopravvissute e invece si
dovrebbero guardare quelle che non ce l’hanno fatta. Non c’erano abbastanza dati.

Nel nostro esempio

 Anche con numerosità moderate (nel nostro esempio, n=200 clienti), gli intervalli non si
discostano di molto
 interpretazione dei parametri: con il 95%di probabilità, il valore del coefficiente β1 nella
popolazione (effetto dell'anzianità) è (149.846, 202.207)
 La costruzione degli intervalli di confidenza (o, più precisamente, la conoscenza della
distribuzione dello stimatore) ci permette di effettuare anche dei test statistici, per testare
l'ipotesi che un coefficiente sia o meno rilevante per prevedere la variabile risposta

Errore standard minore la stima è più accurata. In particolare, l’effetto di anzianità con 95% di
probabilità è sempre positivo. Anzianità cresce il livello di finanziamento, quanto è soggetto ad
incertezza.

Intervalli di confidenza e test

 Un intervallo di confidenza rappresenta un


insieme di valori "possibili" per un dato
parametro. Nel caso del modello di
regressione, βj=0 indica che la j-esima
variabile non ha effetto sulla risposta

Stima e intervallo di confidenza, la procedura si


può ottenere tramite test statistico. Una parte che
testa l’ipotesi che ogni coefficiente di regressione
sia uguale a 0. Perché lo facciamo? Dobbiamo caratterizzare quanto varia questa stima. L’intervallo
di confidenza ci dice che tra tutti i campioni da stimare con il 95% di probabilità stanno in questo
intervallo.
Nel modello di regressione lo 0 ci dice il modello che abbiamo stimato ci dice che:
y i=α + β 1 x 1 + β 2 x 2 +B 3 x 3 +εⅈ
Cosa succede se il coefficiente β 2=0 , l’equazione si semplifica così:
y i=α + β 1 x 1 + B3 x 3 +εⅈ
Quella variabile due non spiega nulla, es. reddito. Se il coefficiente associato al reddito è 0 vuol dire
che non serve. Es. anni non importa quanti anni ha il livello di finanziamento non cambia. In questo
caso il modello di regressione ci dice che quella variabile non è utile a prevedere la risposta se le
altre cambiano. Questa variabile non ha effetto sulla variabile risposta, se aumentiamo il reddito la
variabile risposta non cambia. Abbiamo delle stime soggette ad errore e non ci aspettiamo che la
nostra stima sia esattamente uguale a 0 in centro. Per effetto del campione che osserviamo ci
aspettiamo di non osservare esattamente 0. Sappiamo che non osserveremo questo però ci
chiediamo cosa succede se considero una stima di incertezza invece del punto e basta.

Nel 95% dei casi la stima dei casi non è 0 e non ha effetto in
basso, se invece la mia stima del mio intervallo di variabilità
fosse come in alto allora non sono tanto sicuro che questa
variabile non abbia effetto. Nel 95% dei campioni che voglio osservare in
alcuni c’è effetto 0 e in alcuni questo coefficiente sparisce. Quella
variabile potrebbe avere coefficiente uguale a 0 e quindi no effetto.

 La valutazione della precisione delle stime ci permette di quantificare se un


certo coefficiente è significativo
 Test statistico per verificare l'ipotesi H0: βj=0, H1: βj≠0
 p-value: costruito confrontando la statistica test con la sua distribuzione "sotto H0 (ossia, se
il vero valore del coefficiente è pari a 0)
 In particolare, il valore della statistica t è riportato nella colonna t value
 Se H0 è vera, βj/se(βj) si distribuisce approssimativamente come una normale standard (o
esattamente come una T di Student)
 Calcoliamo quindi il valore osservato della statistica test ^β / s e^ ( β ), che sarà un numero. Ad
J J

esempio, per la variabile anni.rap otteniamo 175.871 / 13.324 = 13.2


 Quanto estremo è questo valore, rispetto alla distruzione sotto H0? idea: se il valore è
"distante", allora probabilmente H0 è sbagliata, e quindi il valore del coefficiente è diverso
da 0
 Il p-value rappresenta esattamente questa
quantità, in scala delle probabilità
 Il p-value rappresenta la probabilità di
osservare un valore più estremo, se H0 è
vera (quanto estremo è un valore, rispetto
alla distribuzione)


J
 → Ho → N ( 0 , 1 ), questa variabile aleatoria, se questa ipotesi è vera sappiamo come si
S e^ ( βJ )
distribuisce una certa quantità con la Normale, gaussiana standard. Se una variabile non ha effetto
in un mondo di tutte le osservazioni possibili, lo stimatore ad esso associata ha una distribuzione di
una normale (0,1).
175,8/13,3 = 13 è una stima standardizzata. L’idea del test e poi del p-value è confrontare questo
numero con questa distribuzione perché sappiamo che: se H0
è vera si distribuisce come una normale e quindi se questa
variabile non ha effetto ovvero colleziono tutti i campioni
possibili e ottengo una normale standard. Calcolo tutti i valori
della statistica e questi hanno distribuzione normale standard.
Avrò tanti valori in cui il valore è 0, meno in valori diversi da 0.
Se osservo un valore completamente anomalo
ad esempio 13, è un valore anomalo per la
distribuzione sotto H0, qualcosa non funziona. La
nostra evidenza empirica è a sfavore con H0.
Un valore di 4 che è un po' più estremo è molto
probabile che se questa è vera il valore osservato
sia estremo. Il p-value misura questa cosa ovvero
misura questi valori e quanto è probabile trovare
un valore uguale o più grande. Se è molto poco
allora significa che il valore è estremo e quindi
l’ipotesi di dire che è una normale non va bene.
Se il valore è coerente con la distribuzione allora è a favore di H0.
Non vale per la variabile figli, vale per reddito e anzianità. Vuol dire che l’effetto di questa
variabile anche se la sua stima puntuale è 0, se consideriamo l’intervallo di variabilità allora
abbiamo che lo 0 è incluso e questa variabile non è significativa nel nostro modello. Non abbiamo
evidenza a supporto che sia diverso da 0. Lo vediamo nella colonna dove ci sono le stelline, se non
ne abbiamo allora non c’è evidenza. Avere tante stelline vuol dire che non contiene 0 e c’è effetto
per la variabile.
Lezione 4,5,6

REGRESSIONE LOGISTICA
La regressione logistica

 Indichiamo con Y la variabile risposta e con X le variabili esplicative (covariate)


 La variabile risposta, in questa sessione, sarà di natura binaria, e quindi assume due soli
valori: sì/ no, Venezia / Padova, cliente attuale / ex cliente
 Prendiamo una categoria come riferimento, e la chiamiamo 1 (come con le variabili
dummy) e modelliamo pr[Y=1] = π(x)
 ovviamente π ∈ [0,1], essendo una probabilità
 Perché non usiamo il modello lineare? Idealmente, potremmo ignorare la natura della
variabile risposta, e lavorare su un modello del tipo
pr[Y=1] = α+βxi+εi
 ossia, trasformare la variabile risposta in una dummy e stimare su questa un modello di
regressione lineare
 Alcuni problemi:
o Il modello lineare non ci garantisce che le previsioni siano nell'intervallo della
variabile risposta! Avere probabilità maggiori di 1 o minori di 0 non è il massimo
o le assunzioni che abbiamo fatto su εi non hanno senso in questo caso

Nella regressione logistica cambia il tipo di variabile risposta e la struttura del modello cambia
poco. La differenza con il modello standard è che la variabile risposta sarà binaria/dicotomica
ovvero si /no. L’esempio tipico è quello del churn. Il churn è il processo per cui il cliente per vari
motivi abbandona l’azienda, si forniscono spiegazioni sul perché accade e quali fattori determinano
la probabilità che il cliente abbandoni e si forniscono previsioni per i clienti futuri.

Un esempio pratico
 studio del fenomeno del churn: abbandono da parte di un cliente
 Determinare quali sono i fattori principali che determinano
l'abbandono
 Segmentare i clienti in categorie di rischio (basso / medio / alto)
sulla base della stima della probabilità di abbandono
 Strategie mirate (la promozione costa!)
 il churn viene rappresentato tramite una variabile binaria chID: 1 in
caso di abbandono, 0 altrimenti
Nel modello di regressione logistica, poiché la nostra variabile ha natura binaria (si/no)
prendiamo una categoria di riferimento e modelliamo la probabilità che la nostra variabile risposta
assuma. Nel modello di regressione normale si otteneva Y, ora sono due valori. Qual è la
probabilità che uno dei due si verifichi. Ci concentriamo su una di queste due categorie e l’oggetto
della nostra regressione sarà la nostra probabilità che:
Y { dummy , no churn }
PR { Y =churn } =π ( x ) ∈[0 , 1]
PR { Y =no churn }=1−π ( x )

Cerchiamo di usare un modello statistico che ci dice qual è la probabilità che una delle due si
verifichi. Ci si concentra nel punto di vista che ci fornisce il problema. Se un evento dice che il
cliente abbandona, avere un modello che ci permette di fare questo, ci permette di ipotizzare tutto
sui clienti/ di segmentare i clienti con rischio basso, medio o alto.
Non è possibile fare questo: PR { Y =churn } =¿α+βxi+εi in quanto il primo valuta
[0,1] e il secondo è tutti i valori. Quindi la probabilità vive tra 0 e 1. La cosa che
cambia è la variabile risposta!

Riassunto: Abbiamo un modello statistico per fare regressione: prevediamo una variabile risposta
su variabili esplicative e in particolare la differenza è che la nostra variabile risposta è in questo
caso si parla di variabile risposta binaria, una variabile a due livelli (vero/falso- si/no). L’esempio è
quello del churn/abbandono: la nostra domanda è cercare di capire perché e stabile un modello
per i clienti futuri. Abbiamo un evento 0,1 che si verifica o meno e ci si concentra sul fatto che si
verifichi e sulle probabilità che la nostra risposta Y assuma uno di quei valori; quindi, la variabile
risposta non sarà più una variabile quantitativa ma sarà una probabilità che indica probabilità di
successo della variabile dicotomica. La probabilità è definita tra 0 e 1 per definizione 0=evento
impossibile e 1= evento certo.
Ha dei vincoli: questo non c’era nel precedente caso di finanziamento perché poteva vivere dove
voleva, doveva essere solo maggiore di 0, in questo caso il nostro modello è molto ridotto in
questo caso quando facciamo previsioni, deve fornirci quantità che stanno tra 0 e 1.
Ci comporta due tipi di problemi: Uso una retta che non ha questa proprietà di 0 e 1, quindi le
previsioni che ottengo dal modello lineare non rispetta il vincolo della probabilità, si sta facendo un
modello non tiene conto della struttura presente nei dati. Il secondo è che se i dati sono così
limitati e utilizzare i minimi quadrati non funziona visto la natura limitata della variabile risposta.
Per questo motivo utilizziamo la regressione logistica.
Esempio del churn: fenomeno del marketing per cui un cliente decide di abbandonare. Abbiamo
un cliente e questo decide di andare in un’altra azienda. Vogliamo spiegare questo comportamento
e cercare di segmentare la clientela alla base di questi dati. La prima segmentazione: prendo quelli
che stanno e quelli che se ne vanno, è una visione limitata, perché a noi non interessa quantificare
chi se ne va e chi no ovvero quantificare chi abbandona, ma ci interessa cercare di spiegare perché
e quali caratteristiche permettono di prevedere perché i clienti decidono di abbandonare.

L’alternativa è fare un sondaggio ma questa operazione costa, più cose vengono fatte in modo
distaccato e meglio è. In questo caso sappiamo se il cliente ha proseguito o meno con il contratto e
uno storico e costruiamo il modello.
Es: Compagnia telefonica: la profilazione del cliente è molto ricca: info demografiche (età, sesso,
residenza) e azienda specifiche (info relative al cliente sul servizio che si offre, minuti di telefonate).
La distinzione tra le info è che quelle specifiche le ha solo la compagnia telefonica. Vogliamo fare
un modello che ci permette di legare quanto un cliente telefona rispetto alla probabilità di
abbandonare o no. Variabili numeriche vanno beneVariabili qualitative: Queste due variabili
non vanno bene all’interno dei modelli e vanno trasformate in variabili dummy. 1= abbandona, 0=
non abbandona. PR (Y=1) = churn si. Nella regressione logistica si fa un passaggio in più di
trasformazione.

Probabilità e odds
 Definiamo con π una certa probabilità, che per definizione sta tra 0 ed 1
 Ad esempio, π è la probabilità che un cliente decide di abbandonare la nostra azienda
 La quota (o, in inglese, odds) è il rapporto tra la probabilità ed il suo complemento ad uno
π
odds=
1−π
 Per definizione, la quota è sempre positiva
 Ad esempio, π=0.8 fornisce una quota 0.8/0.2=4
 Una quota di 4 ci dice che l'evento (abbandono) è 4 volte più probabile: mi
aspetto 4 abbandoni per ogni cliente che rimane con noi
 Una quota di 0.33, invece, ci dice che l'evento è 0.33 volte "meno probabile". 1 abbandono
ogni 3 persone che rimangono (utile invertire)
 Per valori piccoli, odds e probabilità sono molto simili (denominatore vicino ad 1) e quindi
risulta semplice interpretarli
 In tal caso, è utile moltiplicare ×10: 33 abbandoni per 100 clienti che rimangono
Gli odds sono corrispondenti alla quota scommesse. Una quota è definita come la probabilità
diviso il suo complemento a uno, ovvero probabilità di successo/probabilità di insuccesso. Nel caso
delle scommesse: probabilità di vincere/probabilità di perdere. Nel caso dell’abbandono:
probabilità abbandono/ probabilità non abbandono.
Nel caso di probabilità 0,8 ovvero alta, il complemento ad 1 è 0,2  0,8/0,2= 4. 80% abbandono,
20% che rimanga con noi. Uno dei due eventi si verifica per forza. Abbiamo una quota di 4, significa
cioè che mettiamo in relazione due quantità in termini relativi, stiamo facendo un rapporto.
Se questo rapporto è 4 significa che il numeratore è 4 volte più grande del denominatore: la
probabilità di successo è 4 volte più grande di avere un insuccesso. Se abbiamo 10 schedine, ci
aspettiamo di avere 4 vittorie per ogni schedina che perdiamo. L’abbandono è 4 volte più probabile
del non abbandono ovvero mi aspetto 4 abbandoni per ogni cliente perso. Più l’evento è
improbabile scommetto 1 e vinco 4. La quota viene vista con una misura di quanto andiamo a
guadagnare rispetto ad una scommessa. Prendo le probabilità e le metto in una scala relativa,
invece di guardarla tra 0 e 1 lo metto in termini relativi.
La quota è sempre positiva perché la probabilità è sempre maggiore di 0 ma anche sempre
minore di 1. Queste quantità nel numeratore e denominatore sono sempre positive. Cosa succede
quando:
- Numeratore grande: probabilità di successo più alta rispetto all’insuccesso.
- Denominatore grande: significa avere una quota maggiore di 1, otteniamo una quantità minore di
1, una frazione/proporzione. Es. 0,33- 1/3. Significa se il rapporto è così allora il numeratore è 0,33
volte più grande del denominatore. L’insuccesso è più probabile del successo, ogni 3 persone ci
sarà un abbandono. La quota può essere invertita come si vuole, dal punto di vista nostro vincere
la scommessa dal punto di vista nostro o della SNAI. Dal punto di vista applicativo dipende cosa ci
interessa e quello che otteniamo è sempre lo stesso.

Nel caso di quote comprese tra 0 e 1:


π
1. Possiamo invertirla l’Odds=
1−π
π
 Numeri >1 significa che se = 5 allora π=5 (1−π ), probabilità churn è 5 volte
1−π
rispetto a no churn.
π
 Numeri <1 significa che se =0 , 33 (probabilità di successo è 1/3 rispetto a quella di
1−π
π −1
insuccesso) allora la giriamo =3 (insuccesso è 3 volte quella di successo).
π
Non stiamo considerando la probabilità ma il rapporto di probabilità.
PR ( Y =churn )
=0 ,25
PR ( Y =no churn )
PR(Y =no churn)=4∗PR(Y =churn)
PR ( Y =no churn )=1−PR(Y =churn)
Se otteniamo una quantità maggiore di 0 significa che il no churn è maggiore rispetto a churn.
Fissiamo uno e poi otteniamo l’altro. N>1 = tot volte più grande e N<1 bisogna stare attenti ad
interpretarla ovvero un numero che è 0,33 volte un altro significa che è più piccolo.

2. Invece che andare a considerare l’evento che non abbandona, consideriamo quello che
abbandona ma in una misura diversa.
π
 =0 , 33 questa è un po' complicata da interpretare perché la prima interpretazione delle
1−π
quote ci dice quanto abbiamo al numeratore sul denominatore, il 0,33 successi rispetto ad
insuccessi. Quindi moltiplichiamo, per non avere più virgole, per 100, per 1000 e 0,33:1 e 33:100
abbiamo 33 successi/abbandoni rispetto a 100 insuccessi/non abbandoni.
Odds ci dice una probabilità diversa rispetto alla probabilità, è un rapporto di probabilità, ci dice
quanto più grande o più piccolo il successo è rispetto all’insuccesso. Ci sono delle quantità,
soprattutto quando le probabilità sono talmente piccole che considerare probabilità o odds è la
stessa cosa. PR di successo = 0,01 il denominatore è 1-0,01 prendere l’odds in questo caso o la
0 , 01
probabilità è la stessa cosa. =0 , 01. Se la probabilità è piccola e il denominatore è molto
1−0 , 01
vicino ad uno e quindi è come non dividere. ODDS molto simili alla PROBABILITA’! Ci dice che
abbiamo 0,01 successi per 1 insuccesso, ci fidiamo.
C’è un evento, la valutazione oggettiva è che la probabilità è la soglia per la quale la persona
decide di scommettere. Le probabilità devono essere lette in modo opportuno. Es. Intervisti 100
persone sulle elezioni e si generalizza la risposta su tutta la popolazione americana su repubblicani
e democratici, il campionamento deve essere fatto in modo oculato, ci saranno sicuramente errori.
Le elezioni in USA si contano i seggi e non le teste e si contano gli stati / grandi elettori la metà più
uno. I sondaggi dicevano che Trump aveva il 30% di probabilità di vincita rispetto a Clinton. Il 30%
di probabilità non è basso! L’esempio: probabilità del 30% di morire.

Trasformiamo
 Utilizziamo una trasformazione delle probabilità, per
mappare [0,1] in una scala continua
 La trasformazione utilizzata viene detta logit, e corrisponde al
logaritmo delle quote
 Se π è una probabilità, definiamo
π
y=logit [ π ]=log ⁡( )
1−π
 la trasformazione inversa risulta
exp ( y )
π=logi t −1 [ y ]=
1+exp ( y )

La regressione logistica è una regressione che introduce quello che dobbiamo chiamare
trasformata logit che è il logaritmo delle quote. Le quote sono positive perché la probabilità è
positiva e 1- probabilità è positiva, se questo è positivo allora escludiamo il caso in cui la
probabilità sia uguale a 0 perché il logaritmo non è definito. Il logaritmo delle quote è una quantità
che può essere positiva o negativa e in particolare assume questa forma a S rovesciata.
 Funzione = 0, per probabilità 0,5 il successo è come l’insuccesso, entrambi hanno uguali
probabilità, la quota è uguale a 1, il logaritmo di 1 è 0.
 Per probabilità più piccola di 0,5, il logit assume valori negativi; il successo è meno
probabile dell’insuccesso assume valori negativi.
 Per la probabilità maggiore 0,5 il logit assume valori positivi.
La differenza è che il logit non è una retta, ha chiaramente un andamento crescente. Ci aspettiamo
che se la probabilità aumenta anche la trasformazione aumenta e viceversa. Dire che ho una
probabilità più alta di questo cliente, si traduce nel valore di logit più elevato del cliente. La
particolarità del logit è che ci permette di prendere una probabilità tra 0 e 1 e trasformarlo in
un’altra quantità che vive su tutto l’asse dei numeri reali. Logit è una misura di rischio:
- se è uguale a 0 significa che non si ha rischio, quota uguale, successo= insuccesso.
- se è negativo significa logit negativo, ho una quota più piccola di 1, la probabilità di successo <
probabilità di insuccesso, parte del grafico sotto 0,5.
- se è positiva significa logit positivo, ho una quota maggiore di 1, la probabilità di successo è >
probabilità di insuccesso, parte del grafico sopra a 0,5.

Inverto
Log<0
= quota

x=1
Log (x) = 0

Logaritmo è la trasformazione liscia monotona, che prende una quantità positiva e la trasforma
in una quantità che sta tra meno infinito e più infinito. Non andiamo direttamente a prendere la
probabilità perché, anche se positiva, sta tra 0,1 e quindi calcoliamo la quota che rimuove questo
vincolo che è una quantità positiva. Come rimuoviamo lo 0? Tenendo il logaritmo. Per valori di x>1
il logaritmo assume valori positivi. Il logaritmo cresce un po' più piano rispetto alla retta. È
comunque una funzione crescente. Es. Pil di un paese numeri molto grandi, se si prende il
logaritmo schiaccia questi numeri.
Tuttavia, il logaritmo è definito anche tra 0 e 1 e assume valori negativi in quel range. X=quota=1,
log (1) =0. Prendo probabilità  trasformo in quote  prendo le quote e trasformo in logit. Il
grafico si trasforma in S, funzione logistica, prende i numeri tra 0 e 1 e li mappa in quantità reali.
Elimina tutti i vincoli delle probabilità, numeri in 0,1, trasformo in logit e ottengo numeri in tutto
l’asse senza vincoli. REGRESSIONE LOGISTICA SARA’ UN MODELLO LINEARE SU QUESTO.
Si può invertire la funzione. Se y= log (x), il logaritmo si inverte con l’esponenziale: exp(y) =x. Si
inverte quindi la funzione e si fa il grafico con funzione esponenziale. In questo modo si ricava in
modo esplicito la relazione della x qualcosa funzione di y.

Nel modello lineare si aveva: y−q


=x x=g ( y )
y=mx+q y =f ( x) m
−1
y−q=mx g=f
Y =log (x )exp ( y)=exp log (x )
Nel modello del logaritmo abbiamo exp ( y)=x
l’esponenziale:

 Per valori di x>1 il logaritmo assume valori positivi


 Per valori 0<x<1 il logaritmo assume valori negativi

Si fa la stessa cosa con il logit. La forma è semplicemente ruotata. La quantità è definita tra 0,1 e
la trasformiamo e otteniamo un valore che sta tra tutti i reali. Quando invertiamo il logit partiamo
da una quantità di tutti i numeri positivi e negativi trasformiamo e otteniamo una quantità 0,1, cioè
una probabilità. Il logit parte da una probabilità, la trasforma in una quota e applica il logaritmo:
invertendo si parte da un numero positivo/negativo e si trasforma in una probabilità 0,1.
 Logit: π [0 , 1]  Logit ( π ¿ (+∞, -∞)
 Logit ( π ¿ (+∞, -∞)  Logit: π [0 , 1]

π=x x
exp ( y ) = exp ( y )∗( 1−x )=x
1−x
log ( 1−ππ ) exp ( y ) −x∗exp ( y )−x +1=0
exp ( y)−x (exp( y )+1)=0
Y =f ( π / x ) π / x=g ( y )
exp ( y )
−x∗exp ( y )+1=−exp ( y ) x=
exp ( y ) +1

Sono la stessa cosa vista da un punto di vista diverso. Esplicitiamo questa funzione come
funzione di π /x. Questa funzione è più complicata perché prende π la trasforma in quota, prende
la quota e la trasforma in logaritmo. La funzione ha un passaggio in più. Ci sono due possibilità:
1. Partiamo dalla probabilità logit (logaritmo delle quote), hai una quantità (+∞, -∞),
questo ci piace e si fa un modello di regressione lineare.
2. Partiamo dal logaritmo delle quote (+∞, -∞) otteniamo probabilità
Regressione logistica
 La regressione logistica corrisponde ad un modello lineare nella scala trasformata:

logit [ π ( x ) ] =log
[ π (x)
1−π ( x ) ]
= α + βx

 Ossia
α + βx
e
π ( x) = α + βx
1+ e
 Questo significa che avremo un effetto lineare nella scala logit, e non-lineare nella scala
delle probabilità
 Il coefficiente β determina il tasso di incremento. Quando β=0, la risposta è indipendente
dalla variabile esplicativa

 La regressione logistica ti dice parti dalle probabilità, calcola il logaritmo delle quote ovvero il
logit, si ottiene una quantità che sta tra (+∞, -∞). Questo ci piace per la regressione. Si fa un
modello di regressione lineare su questa trasformazione. La regressione logistica è definita come
un modello lineare definita sulla scala del logit (delle quote), sulla scala del logaritmo delle quote!
Abbiamo la nostra trasformazione logit, è modello lineare. Nel caso della regressione logistica non
può essere direttamente la y, ma prendiamo il logaritmo del rapporto della quota della probabilità
della y.
La regressione logistica ti dice di prendere il logit della
probabilità y=churn/(1− probabilità churn) . Questa probabilità si comporta male (0,1), la quota è
positiva, il logaritmo si comporta bene. Su questa quantità si fa un modello lineare con α + βx .
Prendo un grafico: dove abbiamo x: minuti di telefonate, la y: che è questa trasformazione logit ed
è una retta. Lavoro su questa scala, come la lego con i minuti? Con una regressione lineare. Su
questa scala ci faccio un modello lineare dove x è la variabile esplicativa (minuti).

logY (Pr (y= “churn)


π=PR( y ” churn ”)

log
( PR ( y =”churn ” )
)
1−PR ( Y ” churn ” )
=α + βx

x=quota
Dal punto di vista pratico si creano dei problemi: La probabilità è facile, la quota è un po' più
complicato, il log della quota è ancora più complicato. Es. il mio cliente ha il 10% di probabilità di
andare via, diventa una quota che diventa logaritmo. Ha problemi. Dal punto di vista matematico si
può andare in una direzione e anche nell’altra. Se parto dal modello lineare e voglio esplicitare
direttamente la probabilità? Questo modello cosa mi implica nella scala delle probabilità. Prima
avevamo detto che invertivamo log(x)/(1-x)=y per avere x qualcosa in funzione di y. Si fa la stessa
cosa si inverte la probabilità che y = churn all’interno della regressione logistica è data sempre da:
( α + βx )
PR ( y ” churn ” )=exp
exp ( α + βx ) +1
π (x )
log ( )=Ω
1−π ( x )
( y) exp (Ω )
π=exp =
1+exp ( Ω ) exp ( Ω ) +1

Dire che questa scala è un modello lineare è giusto. Il logit è l’unico termine in cui ci sono delle
linee rette. Il fatto che il modello non sia lineare ci crea delle complicazioni. Certamente vale una
proprietà del modello lineare ovvero il fatto che cosa succede se non ho Beta.
1. Nel caso del modello lineare con ordinate: log (PR Y=1)/(PR 1-Y=1),
ascisse: x.:
 B=0 la relazione che si stimava era sempre Beta e la retta non ha
pendenza, quindi, è una linea retta. Se il coefficiente è uguale a 0 la retta
stimata è piatta e il finanziamento medio rimane fisso.
 Se c’è una relazione risulta una retta alfa+beta*x con altezza alfa.
2. Nel modello logit risulta come il precedente ma in una scala diversa di
probabilità:
 B=0: Se la x cambia (minuti) e la beta =0 allora la variabile risposta non
cambia rimane sempre dritta. Che cosa succede se cambiando la
variabile esplicativa non cambia la risposta la prima non ha effetto sulla
seconda, il cambiamento di minuti non è importante per capire il churn o meno.
exp ( α )
L’altezza del grafico è se mettiamo B=0 e abbiamo una quantità fissa che non
exp ( α )+1
dipende da x. Non ha effetto non importa quanto cambia x ma la probabilità è sempre
la stessa.
 Nella scala delle probabilità Y=1, se c’è una relazione tra le variabili il grafico risulta a S
dipende dal valore dei coefficienti.
Riassunto: Problema di regressione in cui la nostra variabile risposta assume due sole modalità, es.
churn. Crea un po' di problemi quando andiamo ad utilizzare un modello di tipo di regressione
perché questa pone una semplice relazione tra più variabili esplicative e la nostra risposta, la più
semplice è la retta ma se la variabile risposta è una probabilità questo non va bene perché sarebbe
una retta tra 0,1. Quindi cosa si fa? Si lavora in una trasformazione della probabilità, facciamo un
logaritmo delle quote, primo passo la probabilità sta tra 0,1 e si rimuove i vincoli. La probabilità
può essere: Evento che succede: 1. Evento che non succede: 0.
1. Rimuoviamo il vincolo sull’1prendiamo la quota/odds: probabilità che abbandona/
probabilità che non abbandona. Perché utilizziamo le quote? È un rapporto tra due
quantità positive e quindi assume qualsiasi valore positiva.
- Può essere <1: probabilità che abbandoni < probabilità che non abbandoni,
denominatore < numeratore. Stiamo fornendo una misura relativa: la misura della
varianza è espressa al quadrato, es. duecento metri al quadrato, oltre a questo c’è la
deviazione standard e la si utilizza perché è espressa nella stessa unità di misura delle
osservazioni es. metri. Quando facciamo la quota anche le unità di misura si
semplificano, con i rapporti viene meno l’unità di misura considerata. Per la probabilità
è difficile capire l’unità di misura, se non pensandola come misura di rischio. L’unità di
misura si semplifica, infatti la quota è senza unità di misura. Anche la probabilità fa lo
stesso.
Si legge in termini relativi ovvero quale dei due è più probabile e quanto grande è uno
rispetto all’altro. Es. quota di 4: quante volte il numeratore è più grande del
denominatore? 4.
- Può essere >1 probabilità che abbandona > probabilità che non abbandona,
denominatore > numeratore. In questo caso, moltiplicare per un numero più piccolo di
1 fa diventare le cose più piccole nel caso in qui la quota sia 0,33.
Abbiamo due opzioni capire la quota se > o < di 1 oppure moltiplichiamo le quantità
come ci pare 33:100.
Se ci interessa di più la probabilità che rimanga o probabilità che non rimanga posso
girare la quota. Es. Codifica variabili dummy (scelta 1 l’evento che ci interessa dal punto
di vista dell’azienda, 1= muore, 0= non muore).
2. Rimuoviamo il vincolo sullo 0 la trasformazione per rimuovere il vincolo di positività è
il logaritmo. Ci concentriamo sui prezzi che sono positivi, i modelli lineari generali
funzionano bene se la nostra risposta è continua e appartiene a –
infinito e + infinito. Es. prezzo >0, prendiamo il logaritmo.
Introduciamo il logit che è il log della quota, è una trasformazione che agisce sulle
probabilità, calcola la quota e poi calcola il log della quota. Relazione probabilità del
logit è la S rovesciata, è una trasformazione che cresce sempre monotona, vogliamo che
l’ordine della probabilità sia mantenuto (cliente con alta probabilità di abbandonare
avrà un alto logit di abbandono).
Sull’asse delle x è probabilità:
 pr 0,5, logit è 0
 pr >0,5 logit positivo
pr <0,5 logit negativo.
3. Vediamo il logit come una misura di rischio, prendo pr 0,1 e trasformo in quantità che
sta a – infinito + infinito, è una misura di rischio: più alto è il valore logit più alto è il
valore della probabilità. Più è alto il rischio hanno alta probabilità che gli eventi
accadano e viceversa. Possiamo ragionare dalla probabilità e calcolare il rischio (logit)
ma sia gioco contrario ovvero ho il rischio (logit) e calcolo la probabilità: inverto la
funzione ad S:
 Logit 0, pr è 0,5
 Logit positivo, pr >0,5
 Logit negativo, pr <0,5
La funzione continua ad essere monotona crescente ovvero più
aumenta il rischio più aumenta la probabilità.
La regressione logistica: abbiamo regressione lineare e logit. Il logit è un
modello lineare definita sul logaritmo delle quote, sulla misura di rischio. Partiamo da una quantità
positiva elevando, prendiamo una quantità 0,1 con il logaritmo e ricaviamo una quantità + infinto-
infinito. È un problema senza vincoli e quindi specifichiamo una retta
Es. x qualsiasi variabile esplicativa (minuti) e la variabile risposta è il logit della probabilità se
decide di abbandonare. Stiamo partendo dalla probabilità che il cliente se ne vada e vogliamo
spiegarla in funzione delle covariate, es variabili esplicative (minuti), chi se ne va fa tante o poche
telefonate? Utilizziamo un modello statistico, prendo probabilità, calcolo quota, faccio logaritmo,
ho una quantità non vincolata e la metto in relazione con i minuti di chiamata: modello di
regressione lineare. A me interessa se il cliente va via o meno, so che le trasformazioni posso
sempre invertirle: sto implicitamente legando la variabile risposta alla probabilità che il cliente
abbandona.
Un modello per avere senso quando lego due variabili ci deve quantificare in modo opportuno
quanto forte o debole è l’associazione tra beta e tasso di crescita. Nella regressione vogliamo che
beta ci dica la pendenza della retta, beta > 0 retta crescente, beta < 0 retta decrescente, più elevato
beta in valore assoluto maggiore è il tasso di crescita. Vogliamo che questo accada anche qui. Il
modo in cui leggiamo beta è così per tutte le scale. Se B>0, quando aumenta x aumenta anche il
logit e le probabilità. In particolare, il caso più di interesse è che cosa succede se B=0, dal punto di
vista lineare diventava una retta nella quale si diceva che se cambia x, la retta rimane così. Questo
vale per qualunque scala andiamo a considerare, in quella logit abbiamo una linea retta ( se
cambia x, y rimane fermo) e anche nella scala delle probabilità (una linea retta e cambia solo
l’intercetta). Un modello per avere senso, il mio coefficiente mi deve dire come varia la mia
variabile risposta quando muovo l’esplicativa. Se beta= 0 non ci serve un modello statistico, es. se
anzianità non ha effetto sul finanziamento non ha senso fare un modello. No variabilità = no
statistica.

Interpretazione
 Prendendo l'esponente da entrambi i lati
π (x) x
=exp ( α + βx )=exp ( α ) [ exp ( β ) ]
1−π ( x )
x=0, la quota è uguale a exp(α)
 Quando x aumenta di 1, la quota viene moltiplicata per exp(β). Pertanto, l'effetto è additivo
sul log-odds (si sommano), ma moltiplicativo nelle quote (proprietà dei logaritmi)
 Questo rende l'interpretazione più delicata. ma comunque semplice
 Si noti che possiamo sempre ottenere delle previsioni per la probabilità ad età differenti
(vediamo dopo)

La regressione logistica è fatta così: logit [ π ( x ) ] =log [ π (x)


1−π ( x )]= α + βx dove [ π ] : PR ( Y =churn ) il

nostro cliente abbandona.

x=0 log [ π (x)


]
1−π ( x )
=∝

x=1 log [ π (x)


]
1−π ( x )
=∝+ β x=2 log
[
π (x)
1−π ( x ) ]
=∝+ 2 β

Se x aumenta di 1, Beta ci dice se la nostra variabile risposta Y (che è il log delle quote) di quanto
aumenta o diminuisce. Il problema è che questo è utile dal punto di vista matematico perché ci
permette di avere una scala su cui stimare la retta ma è più complicato da leggere. Per i coefficienti
dobbiamo dire qualcosa di più: quando invertiamo questa trasformazione ci sono due operazioni
coinvolte: la prima è che dalla probabilità calcolo la quota e la seconda dalla quota calcolo log.
Invece che considerare il log delle quote vado direttamente a considerare la scala quote. Se
l’operazione è invertibile si toglie il logaritmo:

exp log
( [ π (x)
1−π ( x ) ])
=exp ( ∝+ β )

π (x)
=exp ( ∝+ β ) → NO LINEARE ,non c ' è una retta
1−π ( x )
π (x)
=exp (∝)+exp ( βx)
1−π ( x )
π (x) x
=exp ( ∝ ) + [ exp ( β ) ]
1−π ( x )

x=0  exp ( ∝+ β )0=exp ( ∝ )


x=1  exp ( ∝ ) +exp ( β )1 proprietà
2
x=2 exp ( ∝ ) + [ exp ( β ) ]

exp ( A + B)=exp( A)∗exp(B)


exp ( A )
exp ( A−B )=
exp ( B )
−B A
exp ( A∗B )=[ exp ( A ) ] =[ exp ( B ) ]
log A∗B=LogA+ LogB
LogA /B=LogA−logBQuando si vuole studiare il comportamento di una funzione. Se inserisco
una x qualsiasi cosa succede in questa funzione? Come si faceva nella retta lineare y=mx+q. Stiamo
facendo qualcosa di simile.
 Quando x=0  Exp (∝ ¿. Es. Il cliente fa 0 minuti di telefonate e la quota che stima il mio
modello è pari a Exp (∝ ¿
 Quando x=1exp ( ∝ ) +exp ( β )1
2
 Quando x=2exp ( ∝ ) + [ exp ( β ) ]

Se nel caso del logit, quando x aumentava di uno la variabile risposta aumenta
di beta in modo lineare, ora si dice che beta ha effetto moltiplicativo ovvero
ogni volta che la mia variabile risposta aumenta di 1 la quota aumenta in
modo moltiplicativo e di quanto? Di Exp(B). Perfettamente coerente come nel
caso della retta, B>0 cresce e viceversa. In questo caso è uguale con beta>0:
abbiamo questo grafico. L’esponenziale che proprietà ha? Se lo valuto in un
punto maggiore di 0 ho una quantità positiva se lo valuto in un punto minore di 0 ho comunque
una quantità positiva ma tra 0 e 1.
 B>0  Exp (β)>1 quindi moltiplicare una quantità per un numero più grande di uno lo fa
aumentare. Exp (α) * Exp (β).
 B<0  Exp (β)<1 e quindi prendo sempre Exp (α), quindi moltiplicare qualcosa più piccolo
di uno vuol dire rimpicciolire. Come con le quote.
Nella scala log/odds: modello lineare con modello additivo si sommano le quote, ci sommo le beta,
deriva dal logaritmo. X aumenta, y aumenta di beta1,2,3.
Nella scala quote: modello lineare con modello moltiplicativo si moltiplicano le quote, deriva
dall’esponenziale. X aumenta, y aumenta di exp beta ^1,2,3.

in pratica
 Consideriamo un modello che prevede la probabilità di abbandono in funzione del numero
di minuti di chiamate mensili
 La stima dei parametri (per ora prendiamola per buona) ci fornisce -4.135, 0.012 per α^ e ^β ,
rispettivamente.
 calcolando Exp(α^ + ^β x) per valori diversi di x, otteniamo diverse stime delle quote, al variare
dei minuti di chiamata
 Quando il numero di chiamate è zero, la quota è Exp(α) = 0.016 (con valori piccoli, quote e
probabilità sono simili)
 Per un cliente che effettua un numero di chiamate medio (180.26), otteniamo 0.141
 Ossia, ci aspettiamo circa 7 abbandoni per ogni 50 clienti (7/50 =0.14)
Andiamo a vedere cosa succede in un caso concreto, possibilità di abbandono contro minuti
telefonate, cosa succede se otteniamo stime rilevanti.

PR ( Y =churn )
log =α + β∗minuti→ Stimo α ̂ e β ̂ :−4 , 13+0,012∗minuti
1−Pr ( Y =churn )
exp (−4 ,13+ 0,012∗minuti)
minuti
exp−4 ,13∗[ exp ( 0,012 ) ]

Se il cliente fa x=0 otteniamo una previsione della quota→exp (−4 , 13 )=0,016 ossia la probabilità
che il cliente abbandoni è 0,016 volte rispetto alla probabilità che il cliente che non abbandoni.
Quando si hanno numeri piccoli, dire che la quota 0,016 vuol dire che la probabilità è circa 0,02,
2%. Solo per numeri molto piccoli. Ci dice poco perché il cliente fa poche telefonate ed è un cliente
di poco interesse.
Andiamo quindi a calcolarlo per altri minuti di telefonate, possiamo considerare i minuti medi
180 ,26
x=180,26, allora exp−4 ,13∗[ exp ( 0,012 ) ] =0,141→ 14 : 100
0,14 è la previsione della quota rispetto al numero di minuti medio. La stima della quota è 0,14
ovvero la probabilità di churn è 0,14 volte la probabilità di no churn. Prendendo tutti i clienti con
numero di minuti medio, abbiamo 14 abbandoni per ogni 100 clienti. La quota è un po' più vicina
alla probabilità rispetto al logaritmo della quota. Abbiamo delle stime sui coefficienti di regressione
e andiamo a vedere la stima della probabilità o una sua trasformazione per valori interessanti della
nostra variabile esplicativa: si va a vedere la media, min, max di minuti. Prendo la media, min e
max del numero di minuti di chiamate, sostituisco il valore per fornire previsioni. Questo è più

vicino rispetto al log delle quote q= [ π (x)


1−π ( x ) ]
=1 allora q=π .

Interpretazione
 Molte delle funzioni utilizzate (logaritmo, esponenziale) sono monotone. Questo semplifica
l'interpretazione
 β>0 indica che l'effetto è positivo: al crescere di x, aumentano le log-quote, aumentano le
quote e anche le probabilità
 β<0 indica un effetto negativo della variabile esplicativa
 β=0 indica che non abbiamo effetto: le variabili sono indipendenti
 Volendo, è possibile avere un'interpretazione anche in scala delle probabilità, ma è
notevolmente più complicato in quando la funzione è non-lineare, e l'effetto varia in
funzione delle x
 In particolare, si può dimostrare che l'effetto sulla scala delle probabilità è pari a βπ(x)
[1−π(x)], e quindi varia in base ai valori di x e degli altri parametri
 Ad esempio, per un cliente con 100 minuti di telefonate otteniamo 0.001, mentre
con 300 0.005
 Più semplice considerare previsioni numeriche
Come leggiamo i coefficienti di regressione? Essendo la relazione monotona, qualsiasi scala
considerata è uguale o simile. Aumenta x aumenta/diminuisce y, di quanto dipende dalla scala
(Beta). La relazione è sempre la stessa ma viene trasformata a seconda delle tre scale (LOGIT;
QUOTE; PROBABILITA’):
1. Logit: relazione lineare, nella scala logit abbiamo una retta, α^ + ^β x . Se x aumenta di uno,
y aumenta di beta. Effetto additivo. Stima: −4 , 13+0 , 12(180)2
x
2. Quote: relazione non lineare, nella scala quote abbiamo exp ( α^ ) [ exp ( ^β ) ]
Ha un andamento esponenziale; quindi, qualsiasi punto x aumenta di uno, y aumenta
sempre di ( β^ ). Effetto moltiplicativo. exp−4 ,13∗[ exp ( 0,012 ) ]
180 ,26
=0,141
3. Probabilità: relazione non lineare, trasformazione inversa del logit, abbiamo
exp ( α^ + β^ x ) exp (−4 ,13+ 0,012 )
= =0 ,12. Effetto più complicato.
1−exp ( α^ + ^β x ) 1−exp (−4 , 13+0,012 )
La derivata è una misura del coefficiente angolare della retta tangente alla curva che la tocca in un
punto solo. Il coefficiente angolare di questa retta ha una forma analitica semplice perché è la
derivata della curva. In ogni punto x la retta tangente ha un coefficiente angolare pari a:
exp ( α + βx )
π ( x) =
1+exp ( α + βx )
βπ ( x ) [ 1−π ( x ) ] derivata
Beta ci dà una misura di quanto aumenta la mia probabilità quando la x aumenta di 1. Il
coefficiente viene moltiplicato dalla stima probabilità/ stima non probabilità, non importa dove
valuto il mio incremento unitario, l’aumento della variabile risposta è sempre beta cappuccio. Le
rette (tangenti) avranno sempre pendenze diverse. La velocità con cui questa curva cresce o
decresce è legata a beta ma dipende anche dal valore della x, Beta moltiplicato per x. Questa è la
derivata di quella sotto.
Beta* valore probabilità stimata* 1-probabilità non stimata: se x aumenta di 1, la variabile risposta
ovvero la probabilità aumenta di beta * probabilità*1-non probabilità.
1. Stime coefficiente, disegniamo le curve, valutiamo i punti di x di interesse (numeri di
chiamate medio). Otteniamo delle stime di probabilità che confrontiamo per
dividere la clientela
2. Abbiamo una retta semplice, abbiamo una relazione complicata ma possiamo
semplificarla: con probabilità*1-probabilità.
^β ( 0 ,12 ) ( 1−0 , 12 )=0 ,1

π ( 180 )=1201−π ( 180 )=0 ,88


π ( x )∗( 1−π ( x ) )=0 , 1 e ^β=0,012
^β π ( x )∗1−π ( x )=0 ,01
Quindi vado a sostituire i vari valori di x, stimo la probabilità e moltiplico per il
coefficiente, 0,01 per valori vicini al valore medio 180, la retta tangente della curva
avrà una pendenza di 0,01.
Nella scala delle probabilità possiamo avere un effetto un po' lineare, che assomiglia ad una
retta ma questo effetto dipende dallo specifico valore di x su cui stiamo calcolando il valore. Es. 100
minuti il valore (pendenza retta tangente) è circa 0,01. Es. 300 minuti, il valore è più elevato. Dal
punto di vista pratico spesso andiamo a considerare un valore della variabile esplicativa, abbiamo
stime di parametri e controlliamo nei diversi valori (100,200,300). Sostituiamo all’interno delle
formule: Log odds= modello lineare x=0 beta cappuccio, x=100 avremmo alfa cappuccio +
100*beta cappuccio.  Esponenziale= scriviamo la formula esponenziale. Probabilità= facciamo
o log odds o partiamo dalla funzione logistica ovvero sostituiamo i valori e troviamo la probabilità
da stimare.

Riassunto: La regressione logistica è un modello che ci permette di fare una regressione in cui la
variabile risposta è di tipo dicotomica/binaria, siamo interessati a prevedere un modello che ci
caratterizzi la probabilità di successo in funzione delle variabili esplicative. Es. probabilità che il
cliente abbandoni in funzione ai minuti delle telefonate. La regressione logistica funziona nella
scala del logit (è il log quotaquota è una probabilità e il suo complemento a 1), e abbiamo un
modello lineare che è una retta, la quale cambia a seconda dei parametri:
- Intercetta: alfa, dov’è la curva (altezza)
- Pendenza retta di regressione: beta.
B>0: se x aumenta allora aumenta anche la nostra variabile risposta in qualunque scala andiamo
a considerare. Per comodità utilizziamo la scala del logit, ma abbiamo visto che l’interpretazione è
la stessa in tutte le scale. Es. numero di minuti aumenta la probabilità del churn, devo aumentare
la probabilità, devo aumentare la quota, e devo aumento il logit. Quando aumenta è diverso:
probabilità è definita in 0,1, quota 0 più infinito e logit ovunque, l’ammontare varia.
B=0, che è la stessa cosa che succede nella regressione lineare, non vi è relazione tra variabile
esplicativa e variabile risposta in qualunque scala andiamo a considerare, c’è effetto nel logit, no
effetto quote no effetto probabilità. Viene preservato il segno e intensità (coefficiente più elevato
prevede di più quella variabile), e permette di annullare l’effetto della variabile esplicativa. Questo
l’abbiamo visto qui:

Come leggere i risultati


 In generale, ogni aumento di x ha un effetto moltiplicativo sugli
odds
 Le probabilità sono più facili da interpretare. Possiamo calcolare
le previsioni direttamente su quella scala, invertendo la
funzione logistica
 Effetto: lineare nei log-odds (differenze costanti).
 Moltiplicativo negli odds (rapporti costanti)
 Difficile da interpretare nelle probabilità, ma possiamo usare strumenti grafici o previsioni
numeriche (come nella tabella sopra, o nei prossimi grafici)
La tabella è sorella dei tre grafici nelle diverse scale. Ci permette di calcolare per un valore specifico
di covariata qual è la previsione della nostra variabile risposta. Come nel caso della regressione
lineare in cui avevamo y, volevamo trovare y^, per un cliente di 10 anni qual è il finanziamento
medio da prevedere.

log ( 1−ππ )=α + βx → Scaladel logit −log odds


π x
=exp ( α + βx )=exp ( α ) [ exp ( β ) ] → Scala delle quote−Odds
1−π
exp ( α + βx )
π= → Scala delle probabilità−Pr stimate
1+exp ( α + βx )

Si possono fare in scale diverse: probabilità, log-odds, odds. Da uno si ottengono le diverse scale e
viceversa semplicemente tramite formule.
α^ =−4 , 13
^β=0 , 01
x=100

 RETTA: log ( 1−ππ )=^α + ^β x=−4 , 13+0 ,01∗x=−4 , 13+0 , 01∗100=−2 , 93 sostituisco la
x con un valore:
x=0 -4,13
x=100-2,93

 ESPONENZIALE: Posso utilizzare due metodi: il primo tramite le formule


π x
exp∗log =exp∗( α^ + ^β x ) =exp ( α^ ) [ exp ( ^β ) ] =0,054
1−π
π x
=exp ( α^ ) [ exp ( ^β ) ] =exp (−4 ,13 ) [ exp ( 0 , 01 ) ] =0,054
100

1−π
Il secondo metodo è prendere il valore del logit e sostituirlo alla funzione esponenziale

log ( π
1−π )
=−4 , 13+0 , 01∗x =−2 ,93 → f (x)

π
=exp (−2 , 93 )=0,054 → g (x)
1−π

 PROBABILITA’: Posso utilizzare due metodi: il primo è tramite le formule


exp ( α^ + β^ x ) exp (−4 , 13+0 , 01 x )
π= = =0,051 → h( x)
1+exp ( α^ + ^β x ) 1+exp (−4 , 13+0 , 01 x )
Il secondo metodo è prendere il valore delle quote e inserirlo all’interno di questa funzione
invertita:
π
=0,054
1−π
q 0,054
= =0,051.
1+ q 1+0,054
Ho la retta di regressione che mi trova la variabile risposta. Qual è il mio valore di y preso un
certo valore di x. Qual è il valore che la mia retta di regressione assegna alla mia variabile risposta
con un certo valore di variabile esplicativa. Sostituisco x e ottengo valori diversi: capisco il valore
che la mia retta di regressione va ad assegnare a seconda delle variabili esplicative.
Per la regressione logistica cosa significa? Valuto qual è il logit stimato è uguale a fare le
previsioni per la regressione lineare. Ho una retta che valuto in punti diversi e ottengo delle
previsioni. Nelle altre trasformate quindi cosa succede? Parto dalla mia tabella. Abbiamo il logit di
pi greco, e come faccio ad avere previsioni per le quote? Trasformo il logit in una quota, come
faccio a invertire il logaritmo? Con esponenziale. Posso ricavarlo sia dalla formula ma sia dai dati
del logit. Invece di trasformare tutta la funzione posso trasformare direttamente il valore che ricavo
dal logit.
 Vale sia per la quota che per le probabilità. Ho la formula del logit, trasformo in log della quota,
e calcolo la probabilità. Se lavoriamo a sinistra della formula otteniamo una semplificazione del
calcolo. Dal logit posso ottenere la quota, ma dalla quota posso ottenere anche la probabilità.
Invece di trasformare tutta la funzione posso trasformare direttamente il valore che ottengo
prendendo il logit. Questo vale per la quota e per la probabilità.

Attenzione alle scale


 la regressione è lineare (quindi si disegna come una retta) nella scala dei log-odds
 risulta non lineare nella scala degli odds, e non lineare in quella delle probabilità
 L'interpretazione segue la stessa logica: semplice nei log-odds, più complicata negli odds
(effetto moltiplicativo) e complicato nelle probabilità (effetto moltiplicativo che cambia a
seconda del valore di x che stiamo considerando)
 Nel Logit: Avrà coordinate di (300; f (300))(300, -0,5), sostituisco la x alla funzione
log ( )
π
1−π
=^α + β^ x=−4 , 13+0 ,01∗300. Scelgo sempre la x, controllo i minuti che fa

ma non so qual è il finanziamento


 Nella funzione esponenziale: avrà coordinate (300, g (300)) (300, 0,6), posso farlo in
π 300
due modi: =exp (−4 , 13 ) [ exp ( 0 ,01 ) ] calcolo tutta la formula oppure prendo il
1−π
valore trovato nel logit e calcolo exp (−0 , 5 ) =0 , 6 che risulta il valore della quota. Cosa
vuol dire? Che se il cliente ha fatto 300 minuti di telefonate ha una quota pari a 0,6
quindi la probabilità di abbandono (variabile risposta) è 0,6 volte la probabilità che il
cliente rimanga. Abbiamo 6 clienti che abbandonano ogni 10 clienti che rimangono.
 Nella funzione di probabilità: avrà coordinate di (300, h (300))(300, 0,37), anche qui
exp (−4 , 13+0 , 01∗300 )
posso calcolarla in due modi: π= oppure prendo il valore
1+exp (−4 , 13+0 , 01∗300 )
trovato nella funzione esponenziale di 0,6 e lo sostituisco alla relazione tra le quote
g(x) 0,6
delle probabilità = =0 , 37. La probabilità di abbandono del 37%.
1+ g ( x ) 1+ 0 , 6

Per ora abbiamo considerato una variabile esplicativa x, ora ne consideriamo due:

Estensione a più variabili


 Aggiungiamo una singola variabile esplicativa categoriale xi2, rappresentata da una dummy
 Inseriamo la variabile voice_mail_plan, che assume valore 1 se il cliente ha sottoscritto un
piano di segreteria telefonica e 0 altrimenti. Se xi2= 1/0

log
[ πi ( xi )
]
1−πi ( xi )
= α + β 1 xi 1+ β 2 xi2
πi ( xi )=
exp ( α + β 1 xi 1+ β 2 xi2 )
xi 2=1 → ( α + β 2 )+ β 1 xi xi 2=0 → α + β 1 xi 1+exp ( α + β 1 xi1+ β 2 xi 2 )
La regressione multipla ha più variabili esplicative. xi1= minuti, xi2= variabile di tipo qualitativo,
dummy. Cosa succede al modello di regressione? Il modello ci dice che xi2 può assumere questi
due valori: 0,1; 1 = segreteria telefonica, 0 = non ha segreteria.
Guardando la prima espressione:
Il modello stima prendendo prima i clienti con la segreteria e poi quelli senza, cambia l’intercetta.
Abbiamo due rette diverse rispetto alla variabile 2. Il modello ci fornisce una relazione diversa:
quello che ha la segreteria ha una probabilità di abbandono un po' più bassa, perché cliente
fidelizzato
Guardando la seconda espressione
Nella scala delle probabilità è un po' diversa la situazione. Il concetto di parallelo funziona bene per
la retta ma per le curve no perché hanno una condizione proprio parallela, ma traslata. A causa
della natura non lineare della relazione spostare la curva fa si che non siano parallele perché più
complicato ma è la stessa cosa.

Estensione a p variabili
 Come nel caso della regressione lineare, possiamo aggiungere diverse variabili esplicative
 Nel caso di variabili qualitative, andranno codificate in modo opportuno (tramite dummy),
ma l'effetto sulle quote sarà sempre di tipo moltiplicativo (e additivo nei log-odds)

log
[ πi ( xi )
]
1−πi ( xi )
= α + β 1 xi 1+ β 2 xi2+ … βpxip

 Ogni coefficiente βj può essere interpretato come l'effetto della variabile esplicativa sulla
risposta, al netto del contributo delle altre variabili

Possiamo estenderla a quante variabili vogliamo. Abbiamo un coefficiente e un intercetta e tanti


coefficienti beta tanti quanti sono le variabili.
Nel caso di variabili qualitative: segreteria e no segreteria. È un caso particolarmente semplice se
c’è solo questa variabile.

log
[ π (x )
1−π ( x ) ]
=α + β 2∗x 2 dove x 2=segreteria

log
[ π ( s)
1−π ( s ) ]
=α + β 2∗1=α + β 2→ Clienticon segreteria

log
[ π ( ns )
1−π ( ns ) ]
=α + β 2∗0=α →Clienti senza segreteria
Trasformiamo tutto nella scala delle quote:

[ π (s )
1−π ( s ) ]
= exp ( α + β 2 )

[ π ( ns )
1−π ( ns ) ]
=exp ( α )

Per trovare la probabilità di un esponenziale allora sostituisco all’interno della segreteria la non
segreteria.

[ π (s )
1−π ( s ) ]
= exp ¿

Ottengo ODDS ratio: è un rapporto delle quote metto in relazione le due quantità e vedo qual è più
grande per la pr di successo/insuccesso. Nella regressione logistica abbiamo una variabile
esplicativa qualitativa, l’esponenziale del coefficiente di regressione è pari all’odds ratio.

[ π (s )
1−π ( s )
=
][
π ( ns )
1−π ( ns )
∗exp ( β 2 )
]
exp ( β 2 )=
[ π (s )
1−π ( s ) ] → ODDS RATIO

[ π ( ns )
1−π ( ns ) ]
[ π (s )
1−π ( s )

][
1−π ( ns )
π ( ns ) ]
Il rapporto delle formule non è un rapporto delle quote. Sto facendo un rapporto di quote, prendo
la probabilità di abbandono rispetto a quella di non abbandono, confronto due popolazioni e mi
chiedo quale delle due probabilità è più alta. Abbandonano di più i clienti con o senza segreteria. È
riscritta così perché il rapporto odds è diverso da quello delle probabilità, non sto dicendo
confronto probabilità che se ne va un cliente con segreteria o senza. Ma sto valutando il rapporto
tra le formule probabilità che se ne vada un cliente con segreteria/probabilità che rimane. Come le
quote sono vicine alla probabilità anche il rapporto di quote sono vicine al rapporto probabilità se
queste sono piccole.

exp ( β 2 )=
[ π ( s)
1−π ( s )

][
1−π ( ns )
π ( ns ) ]
π ( s)
[
=
1−π ( s )
π ( ns ) 1−π ( ns ) ]
Il modello più semplice è la variabile qualitativa, il modello ci dice che l’esponenziale del
coefficiente stimato è una stima per l’odds ratio. Questo è il rapporto tra quote definite tra le due
popolazioni individuate a seconda della variabile esplicativa. Prendo il cliente con e senza
segreteria e valuto il rapporto tra quote per vedere quale dei due è più propenso ad abbandonare.

Inferenza
 Il procedimento di stima avviene, normalmente, tramite massima verosimiglianza
(metodo diverso dai minimi quadrati)

 Anche per
la
regressione logistica valgono alcuni risultati asintotici per costruire intervalli di
confidenza sui coefficienti, basati su approssimazioni gaussiane
 Tali assunzioni permettono di fare inferenza sulla precisione delle stime, e testare se tali
quantità sono diverse da 0 (quindi, la variabile ha un effetto)

Nel caso della regressione lineare, ho tanti coefficienti quanti sono le variabili esplicative. Il
coefficiente che misura effetto della variabile esplicativa su variabile risposta. Prima logit, quote,
probabilità. Quando ho tante variabili ho più modelli di regressione, e ho un problema che
tendono a muoversi assieme. Oltre i minuti, c’è la segreteria, chiamate internazionali e averne
tante si hanno tante informazioni e creano problemi se queste hanno uguali dati, vogliamo
misurare il comportamento del cliente, la cosa migliore da fare è caratterizzare il comportamento
sulla quantità di telefonate. È una misurazione imperfetta ma ci aspettiamo che queste
informazioni che misuriamo si assomiglino. Es. uno che parla molto di giorno non ci aspettiamo
che parli molto di notte. Abbiamo informazioni ridondanti, per avere una risposta avremo bisogno
di misurare meno variabili di quelle che abbiamo effettivamente misuriamo.
Nel caso della regressione si inseriscono tutte le variabili, si deve stare attenti a che cosa succede
all’interpretazione delle variabili quando abbiamo altri coefficienti di regressione. Se ne abbiamo
solo uno le formule sono semplici, se ne abbiamo di più è più complicato. Esempio: p=3:
1. PREVISIONE 100 MINUTI (x1):

[ ]
π
1−π
=α + ( β 1 ) x 1+ ( β 2 ) x 2+ ( β 3 ) x 3=¿α + ( β 1 ) 100+ ( β 2 ) 10+ ( β 3 ) 10

2. PREVISIONE 101 MINUTI (x1+1): cosa succede quando modifichiamo una variabile e
tutte le altre stanno ferme:

[ ]
π
1−π
=α + ( β 1 ) ( x 1+1 ) + ( β 2 ) x 2+ ( β 3 ) x 3=¿( β 1 )+ α + ( β 1+ x 1 ) + ( β 2 ) x 2+ ( β 3 ) x 3

Passiamo alle quote, il mio coefficiente di regressione mi fornisce il rapporto tra quote.
L’esponenziale del coefficiente di regressione mi dice come cambiano le quote alla variazione della
variabile esplicativa. Stessa cosa per la variabile qualitativa 0,1. Il coefficiente di regressione mi
fornisce sempre una misura dell’effetto della mia variabile esplicativa su variabile risposta.
 Nella scala logit mi fornisce un effetto lineare: se xi1 varia di uno tenendo sempre ferme
le altre allora il log della quota aumenta di B1, come nel modello di regressione.
 Nella scala della quota: l’esponenziale di beta 1 mi stima esattamente il rapporto delle
quote di clienti identici in tutte le altre informazioni (x2, x3) e di differenza numero di
chiamate (x1).

[ π min100
1−π min 100 ]
= exp[α + ( β 1 ) x 1+ ( β 2 ) x 2+ ( β 3 ) x 3]

[ π min101
1−π min 101 ]
=exp [ ( β 1 ) +α+ ( β 1+ x 1 ) + ( β 2 ) x 2+ ( β 3 ) x 3 ]

( β 1 )∗π min 100


¿ exp
1−π min 100

exp ( β 1 )=
[ π min 101
1−π min101 ] → ODDS RATIO
[ π min100
1−π min 100 ]
In generale:


[ exp ( β 1 ) ] =
[ πmin( x +Ω)
1−πmin( x +Ω) ]
[ π min x
1−π min x ]

Con il 95% di probabilità ci aspettiamo che il valore dell’intervallo contenga il vero valore del
coefficiente se riuscivo ad osservare tutta la popolazione, non posso farlo devo prendere un
campione definito e cerco di avere una quantificazione di quanto è precisa la mia stima. Il
passaggio successivo all’intervallo di confidenza è il test, se contiene o meno lo 0, se lo contiene la
variabile non ha effetto. Mi serve una misura di quanto vicino sta il mio intervallo rispetto a 0,
questo è il p-value.

Lezione 7

ANALISI NON SUPERVISIONATA: COMPONENTI PRINCIPALI


Torniamo ai dati
 NB in queste lezioni, non useremo più la variabile risposta (churn)
 Ci spostiamo infatti a problemi di analisi non supervisionata
 Quando affrontiamo questi problemi, non sarà più di interesse studiare la relazione tra una
variabile risposta e una o più esplicative, ma considerare il ruolo congiunto di tutte le
variabili
 Questo approccio è utile in (almeno) due casi
o non abbiamo una vera e propria variabile risposta: vogliamo dividere i nostri clienti
sulla base delle informazioni a nostra disposizione
o abbiamo una variabile risposta, ma per il momento la mettiamo da parte, e ci
concentriamo sulle relazioni esistenti tra le esplicative
 Nell'esempio dell'azienda (e molto spesso in esempi pratici) vi sono moltissime variabili
esplicative, e per questo è di interesse andare ad esplorarle in modo più dettagliato
 La domanda fondamentale è: ci servono tutte?
 Certamente avere tante variabili è utile, e ci permette di fornire una descrizione dei nostri
clienti articolata..
 Tuttavia, troppe variabili sono difficili da interpretare (pensiamo ai modelli di regressione),
alcune potrebbero essere ridondati

Analisi supervisionata: vogliamo che il modello leghi le variabili esplicative a quelle variabili
risposta.
Analisi non supervisionata: non abbiamo più una variabile risposta. Il clustering è raggruppare le
osservazioni ma non c’è una quantità che voglio prevedere. Stiamo lavorando solamente con le
covariate e può accadere in due casi:
 Primo tipo di caso: Andiamo a caratterizzare il comportamento del mio cliente nel loro
complesso ma non ho una quantità che voglio prevedere. Voglio solo dire le
caratteristiche del mio cliente osservate nel loro complesso, non è così comune.
 Il secondo tipo di caso: noi comunque continuiamo ad avere abbiamo la variabile
risposta (churn, reddito) ma ci concentriamo solo sulle variabili esplicative e facciamo
finta che la parte sinistra dell’equazione non esiste più. Teniamo la risposta da parte,
prendo le variabili esplicative e ritorno alla fase di modellazione. Dal punto di vista
pratico le variabili sono molte di più. Riusciamo a profilare meglio il cliente ma dal punto
di vista modellistico può causare dei problemi perché c’è il rischio di ridondanza, non ci
piace perché stiamo caratterizzando lo stesso comportamento ma con variabili diverse
che si scontrano tra loro. Se delle variabili esplicative sono molto correlate tra loro, le
stime che otteniamo rischiano di essere instabili, reddito e titolo di studio il modello
stima l’effetto condizionato, vuole spiegarmi l’aumento titolo di studio al netto del
reddito, facendo finta di separarli. Dal punto di vista matematico servono delle
condizioni in cui le due variabili possono essere correlate ma non esattamente
sovrapposte quindi il modello ci fornisce degli errori e ci fidiamo meno dei risultati.
Come prevenire questo problema? Evitiamo di inserire informazioni che sono troppo
correlate tra loro o variabili che raccontano la stessa cosa. Può essere che l’azienda non
sappia che ci sia una variabile risposta. Importante capire che siamo nel secondo caso,
continuiamo ad avere una variabile risposta. Invece che dire churn e no churn in
funzione di tantissime covariate, lavoriamo solo su quest’ultime, riusciamo a riassumere
e dire qualcosa su queste variabili e fare un modello di regressione e spiegare il
comportamento che il cliente ha.

Estratto data set


Abbiamo 15 variabili esplicative x1 a x15 e
ci concentriamo sulle tante variabili
quantitative/ numeriche. Per capire se c’è
associazione guardiamo il diagramma di
dispersione un po' più complicato. Ci
concentriamo sulle variabili esplicative e
rappresentiamo graficamente tutti i
diagrammi di dispersione delle variabili di
tutte le possibili coppie. Ogni riga e colonna
rappresenterà una variabile diversa. Devo
fare tutte le possibili coppie: 10 variabili
ordine del 100, sono proporzionali a
p^2/2. Mentre prima avevamo una
variabile esplicativa e una variabile risposta.
In alcuni casi c’è una relazione
deterministica. Es total day minutes e total
day charge la relazione è perfetta è una
bisettrice diagonale. La relazione sta
esattamente su una retta significa che di fatto una è la versione identica di quell’altra. Quanto sta
al telefono e quanto paga al giorno, 1€ al minuto. La relazione è determinista e queste variabili
contengono questo tipo di informazione. Sono la stessa cosa e sono chiamate variabili lineari e
hanno una correlazione uguale a 1. Sono casi patologici in cui rompono il modello perché
inseriscono la stessa informazione. È più importante quanto spende o quanto telefona, non si
riesce a dare una risposta. Le stime che otteniamo sono instabili e inoltre se faccio finta di tenere
ferma una variabile non è fattibile in quanto si muovono insieme.
In questo grafico cerco informazioni di questo tipo nella parte inferiore dei diagrammi di
dispersione e nella parte superiore andiamo a misurare questa associazione attraverso la variabile
di correlazione- cov/varè una misura di associazione tra variabili quantitative (-1 e 1).
Corr=1Le variabili sono correlate in modo perfetto, retta crescente
Corr=-1Le variabili sono correlate in modo perfetto, retta decrescente
Corr= a metà Le variabili si muovono quindi se una cresce e l’altra cresce corr positiva e
viceversa.
Andiamo a vedere solo le nostre variabili che tipo di relazioni hanno.

PCA- metodo delle componenti principali


 Notiamo che alcune variabili presentano un'altra correlazione
 tale informazione ci dice che "contengono" la stessa informazione
 Tuttavia, è a priori difficile decidere quali tenere e quali scartare
 In aggiunta, l'informazione contenuta non è esattamente la stessa, e quindi rischiamo di
buttar invia informazioni che sono utili
 Il metodo delle componenti principali permette di rimediare a questo problema,
identificando
o delle nuove variabili tra di loro incorrellate
o variabili che preservino la massima quantità di informazione, misurata in termini di
variabilità

Metodo delle componenti principali che ci permette di sintetizzare l’informazione contenuta nelle
variabili esplicative. Nel modello non ci piace avere variabili esplicative troppo correlate tra di loro,
ci da problemi numerici (stime instabili) e di interpretazione (difficile interpretare effetto di una al
netto dell’altra) e inoltre il campione deve essere bilanciato (es. placebo ai vecchi e non ai giovani,
effetto spurio. La popolazione di trattati e non trattati deve essere simile, si sceglie tra tutta la
popolazione e si sceglie ad uno ad uno in modo bilanciato), le variabili esplicative non sono
correlate ma anche indipendenti  Va molto bene nei modelli della regressione: perché se faccio
un modello con una variabile sola e ottengo una stima per l’effetto dell’anzianità. Faccio un
modello che introduce un’altra variabile e il coefficiente di regressione cambia perché se tengo
ferma una e si muove l’altra l’effetto è diverso. Il fenomeno per il quale i coefficienti cambiano di
valore assoluto inserendo variabili esplicative, in questo caso delle variabili indipendenti non
succede. Se le nostre variabili sono non correlate fare un modello di regressione in cui mettiamo
una variabile alla volta e andiamo a vedere i coefficienti marginali o fare un modello di regressione
in cui mettiamo tutte le variabili insieme e calcoliamo l’effetto al netto di, la misura risulta uguale.
Abbiamo dati osservazionali (dati aziendali) e riusciamo ad avere la situazione in cui non c’è
correlazione nelle esplicative. Ma idealmente ci portiamo in una situazione il più ideale possibile,
trasformiamo queste variabili per costruire una versione in cui tutte le variabili hanno correlazione
0, grafico con i punti a caso. Meglio sono non correlate le stime sono più realistiche, non c’è
ridondanza, è il caso in cui abbiamo la massima info disponibile se abbiamo variabili indipendenti.
Proprietà PCA:
- Si riduce la correlazione tra variabile esplicative
- Questo va fatto con criterio: voglio che la rappresentazione e la nuova trasformazione che
ottengo dalle variabili esplicative contengano quanta più info avevano i miei dati originali.
Idealmente il massimo possibile.

Idea di base
 Pariamo da delle variabili (X1...,XP) misurate in osservazioni (xi1,…,xip) per i=1,…n
 Vogliamo costruire delle nuove variabili (Z1,…,Zk) (con k<p) in questo modo:
 Z1=γ1,1X1+γ1,2X2+⋯+γ1,p Xp
 Z2=γ2,1X1+γ2,2X2+⋯+γ2,p Xp
 Zk=γk,1X1+γk,2X2+⋯+γk,p Xp
 Dove γj,1 rappresenta un coefficiente che moltiplica Xi per ottenere Zj
 In particolare, le Zj vengono chiamate combinazioni lineari, e corrispondono ad una
somma pesata delle variabili esplicative
Vanno a costruire una combinazione lineare di variabili esplicative e non siamo nel caso di
regressione che i coefficienti beta vanno a sommare le variabili che forniscono una variabile
risposta, ora questo corrisponde a nuove variabili Z1, ZK, costruite nel modo più semplice possibile,
ovvero costruire combinazioni lineari, prendere ogni variabile e moltiplicarle per un certo
coefficiente per ogni variabile, fare la somma e il risultato sarà Z1,2,3…. Questi gamma avranno
due pedici:
 Pedice uno: che variabile trasformata stai calcolando, tutte quelle Z2, avranno come
primo predice 2.
 Pedice due: quale variabile stiamo utilizzando per costruire questa combinazione
variabili: 1,2,3.

Costruzione
 Concentriamoci sulla prima componente
Z1=γ1,1X1+γ1,2X2+⋯+γ1,pXp
 Variando i pesi γ1,l otteniamo un gran numero di possibili variabili alternative
 Tali quantità possono assumere valori positivi o negativi, a seconda di come la variabile
esplicativa influenza la componente principale
 Ad esempio: γ1,l=1/p ci permette di ottenere la media aritmetica delle variabili esplicative
 γ1,1=1/2, γ1,2=1/2 e le rimanenti uguali a zero costruisce la media delle prime due
 γ1,1=−1/2, γ1,2=−1/2e le rimanenti uguali a zero costruisce la media delle prime due,
cambiata di segno
 γ1,1=1 e le rimanenti uguali a zero corrisponde alla prima variabile (ma risulta di scarsa
utilità)

 Tali quantità prendono il nome di loading: spiegano quanto una variabile "pesa" nel
determinare ogni componente principale
 Come identificare i valori "migliori" dei parametri γ?
 Il metodo delle componenti principali massimizza la varianza (ossia informazione)

Queste variabili cosa vogliono dire? Possiamo costruire tantissime variabili.


Z 1=γ 1 , 1∗x 1+ γ 1 ,2∗x 2+ γ 1 ,3∗x 3 dove γ 1, 1 γ 1 ,2 γ 1 ,3 appartengono a R

PRIMO CASO:
1 1 1 1 1 1
γ 1 ,1= γ 1 ,2= Z 1= ∗x 1+ ∗x 2+ ∗x 3= ∑ xi → Media aritmetica
3 3 3 3 3 3
1
γ 1 ,3=
3

Pesi tutti uguali, otteniamo la media, prendo il numero di telefonate di giorno, notte e quanto
paga, faccio la media e utilizzo quella variabile li sintetizzando le tre. Una combinazione lineare è
una media pesata. Es. media voti con crediti.

SECONDO CASO:
γ 1 ,1=1γ 1 ,2=1 Z 1=x 1+ x 2+ x 3
γ 1 ,3=1

TERZO CASO:
1 1 1 1 1
γ 1 ,1= γ 1 ,2= Z 1= ∗x 1+ ∗x 2= ∑ xi → Media pesata prime due variabili
2 2 2 2 2
γ 1 ,3=0

Abbiamo sempre pesi positivi, idealmente possono stare dove vogliono. Possiamo avere questo
tipo di combinazioni.
QUARTO CASO:
1 −1 1 1
γ 1 ,1= γ 1 ,2= Z 1= ∗x 1− ∗x 2
2 2 2 2
γ 1 ,3=0
È la stessa cosa della precedente solo letta in maniera diversa. Prendiamo x1= numero
telefonate e x2= indice fedeltà. Se cambia segno x2 equivale all’indice di infedeltà e cambia il
significato. Si fa la media tra queste due. Quando si costruiscono queste combinazioni e calcoliamo
la media pesata hanno quasi sempre valori positivi. La cosa importante è capire che quando
cambia il segno stiamo considerando un’ulteriore trasformazione della variabile con
interpretazione opposta.
1 1
Altro modo per leggerla è fare questo ragionamento: Z 1= ∗x 1+ ∗x 2, x1= numero telefonate e
2 2
x2= indice di fedeltà. Se fai un numero di telefonate alto, avrai un indice di fedeltà anche alto. Se
una cresce, l’altra cresce.
1 1
Se introduciamo i segni negativi: Z 1= ∗x 1− ∗x 2, x1= numero telefonate e x2= indice di
2 2
fedeltà. Se aumento le telefonate, l’indice di fedeltà sarà minore.

QUINTO CASO:
1 1 1 1
γ 1 ,1= γ 1 ,2= Z 1= ∗x 1+ ∗x 2
2 3 2 3
γ 1 ,3=0

Quale conta di più? ½ è più grande di 1/3. Abbiamo quindi 0,5*x1+0,33*x2. Ci dice quanto pesa
ogni singola variabile nel determinare la variabile principale ovvero quella trasformata. Guardando
1 1
il valore assoluto di gamma: γ 1 ,1= > γ 1 ,2= , la variabile x1 ha un peso maggiore rispetto a x2. I
2 3
coefficienti mi danno un senso della direzione e il valore assoluto mi fornisce la magnitudine dei
pesi.

Prendiamo solo una componente, andando a vedere se i-gamma sono positivi o negativi, sappiamo
se la variabile cresce o decresce la variabile principale. Guardando il valore assoluto sappiamo
quanto forte è la relazione.

SESTO CASO:
γ 1 ,1=1γ 1 ,2=0 Z 1=x 1 → non ha molto sensocalcolare questa cosa , non è di grande interesse
γ 1 ,3=0

Loading/ coefficienti di gamma: ci dicono quanto ogni variabile esplicativa va ad influenzare la


variabile trasformata/ componente principale Z1.
Questi pesi vanno scelti in qualche modo e deve soddisfare le due proprietà:
 Se costruisco Z1 con i suoi pesi e Z2 con dei pesi diversi voglio che siano non correlate:
Z 1=γ 1 , 1∗x 1+ γ 1 ,2∗x 2+ γ 1 ,3∗x 3
Z 2=γ 2 , 1∗x 1+ γ 2 , 2∗x 2+ γ 2 , 3∗x 3
Corr(z1,z2)=0 e Cov (z1,z2)=0. Voglio che non ci
sia relazione, il grafico deve avere una retta,
indipendentemente dalle x1,2,3 variabili
esplicative.
 Le componenti principali hanno la proprietà di massimizzare la varianza. Di tutti i possibili
pesi che posso prendere, quando x1,2,3 sono fissate e cambiando i valori di gamma e
abbiamo ottenuto diverse combinazioni: media, media pesata, media con segno cambiato,
ma quali sono i migliori che si possono prendere? Nel caso del lineare abbiamo detto che il
migliore = somma dei quadrati dei residui più piccola possibile. Nel caso delle componenti
principali vogliamo che la varianza cioè info contenuta nelle variabili esplicative sia la più
grande possibile. Tra tutti i possibili pesi prendo quelli che mi danno la componente con
variabilità massima. La varianza è una misura di informazione. La devianza è il
1 2
denominatore della varianza che corrisponde al primo termine: ∗( x 1−media ) . Se non
n
abbiamo la devianza abbiamo informazioni tutte uguali, quindi, è l’informazione migliore da
avere. Cerchiamo di caratterizzare la varianza e tra tutte le possibili vogliamo quella che è in
grado di preservare il più alto grado possibile di variabilità. Ogni volta che introduciamo una
componente principale stiamo preservando il più possibile dai nostri dati ma un po' li
stiamo buttando via. Cerco di portarne dietro il più possibile è implicito che scarto qualcosa
partendo da tre variabili e arrivando ad una sola, a meno che tutte non siano uguali. Se
abbiamo i campioni possiamo calcolare la media ma se abbiamo la media abbiamo
un’infinita di campioni possibili. Ho campioni calcolo la mediaper certo so che Z1
qualcosa mi butta via.

Risultato
 Il problema ammette soluzione analitica: in
particolare, Z1 corrisponde alla combinazione lineare
con massima variabilità se i coefficienti sono scelti in
funzioni degli auto-vettori della matrice di varianze-
covarianze (non ci serve saperlo)
 Inoltre, per costruzione, per i parametri stimati vale
p
che ∑ (γ 1, l)2=1 (questo vincolo ci serve per poter
l=1

risolvere il problema)
 La prima componente ha loadings molto piccoli per tutte le variabili, ad esclusione di
total_day_minutes, total_day_charge
 Quindi, possiamo dire che la prima variabile trasformata sia del tipo
Z1= 0.98 total_day_minutes + 0.167 total_day_charge
Quali sono i coefficienti migliori? I pesi sono identificati tramite quelle quantità che rendono
massima la varianza di Z1.
Argmax :Var ( Z 1 )= Argmax Var (γ 1 , 1∗x 1+ γ 1 ,2∗x 2+ γ 1 ,3∗x 3)
Se cambio i parametri gamma1,2,3 ottengo valori diversi. Tra tutti questi pesi voglio che la mia
varianza sia la più grande possibile perché più la varianza Z1 è simile alla varianza dei miei dati
meno informazioni sto buttando via.
2 2 2
(γ ¿¿ 1 ,1) ,(γ 1 ,2 ) ,(γ 1 ,3 ) =1 ¿ La somma dei pesi alla seconda è sempre uguale a 1. È un vincolo
che non aiuta e non possiamo risolverlo per come funziona la varianza, cioè la varianza della
somma si porta dietro qualcosa della somma delle varianze. Vogliamo che se ho una ricostruzione
perfetta ho tanta variabilità come i dati originali.
Questo problema ha una soluzione analitica come nel caso dei minimi quadrati, in particolare è
data da una quantità algebrica ovvero: matrice vettori e covettori di varianze e covarianze. Questa
matrice ci permette di risolvere questo problema e avere stime puntuali (gamma11, gamma22,
gamma33) che preservano la massima variabilità possibile. Di tutte quelle che stiamo costruendo,
prendiamo quella con massima variabilità come nello stesso modo nella regressione lineare.
Su R: Otteniamo 15 stime, quello che vogliamo è che di questi coefficienti ci piace se alcuni
hanno coefficienti associati molto piccoli/0, sappiamo che quella variabile non avrà un contributo
sostanziale nel definire Z1. Anche se la combinazione lineare Z1 ha tanti coefficienti possiamo
ometterli perché piccoli e quindi trascurabili. Es. Z1= 0.98 total_day_minutes + 0.167
total_day_charge. È vero che minuti e chiamate sono molto allineati ma invece che dire prendi
una e butta via l’altra, si può costruire un indicatore sintetico della media pesata (no solo media). È
una media pesata in cui i minuti contano tanto ma ci portiamo dietro un po' di informazioni
rispetto a quanto uno paga. Rispetto alle altre variabili che sono trascurabili mantengo queste.
Cosa significa calcolare la prima componente? Significa stimare i coefficienti e quindi avere delle
stime su(γ ¿¿ 1 ,1), ( γ 1, 2 ) , ( γ 1 , 3 ) ¿ .

Seconda componente (e successive)


 Dopo aver calcolato Z1, passiamo a
Z2=γ2,1X1+γ2,2X2+⋯+γ2,pXp
 Il problema sarà simile al precedente: identificare i
parametri che permettono di avere la massima
variabilità (dopo la prima), aggiungendo però un
vincolo sulla correlazione
 Ossia, vogliamo che Z2 abbia correlazione nulla
con Z1
 Anche in questo caso, la soluzione è analitica e
funzione degli autovalori
Z2= -0.707 total_eve_minutes + 0.696 total_night_minutes -0.104 total_day_minutes
 Media pesata chiamate serali (con peso negativo), notturne (peso positivo) e giorno
(negativo)
Ora calcolo anche Z2 perché so che la prima non riesce a spiegare tutto. È sequenziale il
processo e calcolo anche Z3. Questo mi spiega l’ammontare massimo di varianza residua, ovvero
ciò che non era stato spiegato con quella precedente.
Z 1=γ 1 , 1∗x 1+ γ 1 ,2∗x 2+ γ 1 ,3∗x 3
^ ^^
Z 1=(γ ¿¿ 1 ,1) ( γ 1, 2 ) ( γ 1, 3 ) ¿
Z 2=γ 2 , 1∗x 1+ γ 2 , 2∗x 2+ γ 2 , 3∗x 3
^
Z 2=(γ ¿¿ 2 ,1) ^
( γ 2 ,2 ) (^
γ 2 ,3 ) ¿
Z 3=γ 3 ,1∗x 1+ γ 3 ,2∗x 2+ γ 3 ,3∗x 3
^
Z 3=(γ ¿¿ 3 , 1) (^
γ 3 ,2 ) (^
γ 3 ,3 ) ¿
Z 4=non esiste

Al massimo ne posso trovare quante sono le mie variabili esplicative quindi Z4 non esiste. Si può
dimostrare che se noi prendiamo tante componenti principali quante sono le mie variabili
esplicative non sto buttando via nulla. La variabilità complessiva componenti principali= variabilità
delle variabili esplicative. Per spiegare tutto mi basta prendere tante quante le mie componenti
principali. Prendere tutte le componenti principali non serve a nulla, prendo si variabili incorrelate
ma non mi spiegano la variabilità sono una versione trasformata delle mie variabili esplicative, non
perdo nemmeno qualche informazione. Può essere un problema perché c’è ridondanza all’interno
dei dati. Es. se so le chiamate riesco in qualche modo a ricavare quanto paga.

Componenti principali
 La procedura può essere ripetuta fino ad ottenere pp componenti che, di volta in volta,
catturano la maggior quota di varianza non spiegata da quelle precedenti, e risultano
sempre incorrelate alle precedenti
 Idealmente possiamo ottenerne pp, tante quante le variabili originali
 Tuttavia, tale procedura non permette di averne meno variabili… solo di averle con zero
correlazione
La matrice di correlazione: ho 15 variabili e in ogni elemento j,k vado a calcolare la correlazione
di cor (xj,xk) = cor(xk,xj) ottengo un numero positivo o negativo. Struttura covarianza e correlazione
tra le variabili; rosso più forte, bianco meno forte:
 Nei dati originali abbiamo correlazione e covarianza positiva tra le variabili. Es. numero
telefonate al servizio clienti e anzianità. Il grafico invece di fare un diagramma di
dispersione si calcola un numero di correlazione o varianza, questo numero poi viene
inserito all’interno del grafico. Questo ci dà una struttura di correlazione e covarianza
delle variabili.
 Le variabili trasformate sono indipendenti e non correlate nel secondo grafico. Le
variabili trasformare sono per definizione tra di loro non correlate. Al di fuori della
diagonale è sempre 0.
Abbiamo soluzione per tutte Z1,2,3Nel caso della seconda appunto stimo 15 parametri e valuto
quelli un po' più grandi in valore assoluto. È utile per vedere quali variabili siano più fondamentali.
Z2= -0.707 total_eve_minutes + 0.696 total_night_minutes -0.104 total_day_minutes. In pratica
non si riesce ad interpretare queste variabili che è il limite principale. Scartano poca info quindi
tanta variabilità, poco correlate, ma perdo comunque qualcosa, perdo in interpretazione nel
vedere le variabili originali.
More is less
 In pratica, vogliamo utilizzare un
numero di
componenti k<pk<p (ossia
prendere le k "migliori", in
termini di varianza)
 Il metodo delle componenti
principali permette di misurare
quanta variabilità è catturata da
ogni componente
Quante ne prendo di variabili? Se le prendo tutte: sono sempre non correlate e riesco a
riottenere le info originali ma potrebbero essere ridondanti. Con le componenti principali
possiamo, per ogni singola componente, andare a valutare quanta variabilità è in grado di spiegare
I due grafici:
- Primo: Quanto è la varianza di tutte le componenti Z1,2,3 per definizione il grafico è sempre
fatto così. La prima ha sempre la varianza massima e così via. È una tendenza decrescente che mi
dice quanta varianza spiega ogni singola componente.
- Secondo: Possiamo normalizzare questa quantità perché sappiamo la varianza massima dei dati. Il
3000 quanta varianza ha nel dataset? Riusciamo a rendere la varianza negativa. Linea rossa: la
prima componente ci spiega circa il 25% di variabilità, la seconda più la prima 50%, terza+seconda+
prima circa 80% e aumenta e così via. Linea nera: varianza residua se uso solo una componente ho
un residuo del 70% di varianza, se utilizzo da prima e la seconda ne ho del 50%. Mi va bene
prenderne un po' meno e questo mi spiega bene. Con 4 variabili trasformate riesco a avere il 95%
dei dati originali, tutta la variabilità/info. Partendo da 15 variabili, trasformate in modo opportuno
mi riescono a spiegare la maggior parte della variabilità solo 4.
 Le colonne forniscono informazione sulla
varianza di ogni componente, della varianza
relativa (divisa per il massimo possibile) e
una versione cumulata (quanto spiega, in
termini relativi, la prima, la prima e la
seconda insieme, e così via)
 Con le prime 44 componenti spieghiamo
87% dell'informazione totale

Nel nostro problema


 Come sono fatte queste componenti?
Guardiamo i loadings stimati Z1 mette
insieme il numero di minuti e quanto hai
speso fa una media pesata e costruisce
una nuova variabile. E così via per le
altre.

Geometricamente
 Le componenti principali individuano le direzioni di massima variabilità, ed effettuano
una rotazione degli assi in tale direzione
 Tale rotazione permette di avere un nuovo sistema di riferimento in cui le osservazioni
risultano non correlate

Le componenti principali costruiscono la trasformazione con i pesi gamma ad una rotazione. Per
questo è il motivo in cui possiamo costruirne solo p. Se abbiamo due variabili abbiamo due assi, se
ne abbiamo 3 variabili avremo 3 assi e così via. Le componenti principali fanno una rotazione degli
assi in modo tale di avere nell’asse principale la direzione nella quale la nostra variabile ha la
massima variabilità possibile e così via. Prima verde, seconda blu e terza rossa. Andiamo a vedere
solo le prime due e quella è la direzione.

Lezione 8,9,10,11,12,13,14

ANALISI DI DATI DI RETE


Si parla sempre di analisi non supervisionata: sono sempre dei problemi statistici e di
posizionamento/segmentazione, la differenza principale è che in questo tipo di problemi non
abbiamo una variabile risposta. Non siamo né nel caso di regressione lineare né nel caso di
regressione logistica. Ci sono dei dati di rete che derivano dai social, le nostre unità statistiche sono
individui e vogliamo valutare il modo in cui questi individui sono collegati tra loro. Es. Facebook,
noi siamo profili e vogliamo valutare se esiste una connessione tra le persone (coppie), cercare di
capire cosa dicono questi dati perché ci sono un sacco di campagne promozionali che vanno
targettizzate. Come si profila quindi la clientela?
 Costruisco dati per la campagna promozionale;
 Vediamo se i clienti hanno deciso o meno di acquistare il prodotto in base alle variabili
esplicative
 Stimiamo la regressione logistica
 Per ogni individuo stimiamo la probabilità che il cliente acquisti il prodotto Se alta
probabilità di acquisto allora è ragionevole che io proponga un determinato oggetto e
viceversa.
Voglio massimizzare la campagna ma voglio fare una cosa diversa ora. Devo tenere conto che gli
individui non sono tra di loro disconnessi. Es. dati nella regressione logistica/lineare: ogni
osservazione è necessario che sia indipendente, questa è una forte restrizione, soprattutto perché
gli individui sono fortemente collegati tra loro. Ora cerchiamo di utilizzare queste info
(collegamenti) per fare meglio, se una persona segue un certo tipo di persone, questi dati possono
essere utilizzati per fare previsioni su altre persone. Le reti sociali sono formate da profili che
tendono a riunirsi se hanno interessi comuni.

Reti sociali: Social networks


 Analisi di dati di rete si applica a diverse discipline, ed ha un ruolo particolarmente
importante nelle scienze sociali
 Cosa intendiamo con rete sociale? Insieme di individui, collegati da relazioni, che possono
modificare la struttura sociale stessa, oltre ad esserne influenzati (D. Porpora). Es. rete
clienti/consumatori
 Una rete sociale è caratterizzata da:
 un gruppo di unità (nodi), generalmente individui (fisici o virtuali)
 un insieme di connessioni (archi) che misurano relazioni come interazioni, amicizie,
rapporti familiari ...
 Introdurremo diversi strumenti per valutare in modo opportuno le caratteristiche della rete
ed il ruolo degli individui all’interno del gruppo
 Vogliamo caratterizzare in modo opportuno le reti sociali, studiandone struttura e ruolo dei
diversi soggetti all’interno della rete
Insieme di individui collegati tra di loro. È una definizione grande che tiene dentro sia i profili dei
social sia una rete sociale caratterizzata ad esempio dai nostri clienti. Quello che ci interessa è
valutare se c’è una relazione. Una relazione clienti sono amici, o entrati in contatto con lo stesso
prodotto e andremo ad applicarla.
La caratteristica fondamentale è che l’informazione è cruciale non solo per definire la rete in
quanto tale ma anche per definire gli attori.
Es. Osservo un gruppo aula: questa è una rete di profili che possono essere collegati o meno= rete
sociale. Posso analizzare un profilo alla volta: un profilo da solo non avrebbe senso di esistere
senza connessioni.

 I Nodi: I miei contatti in Linkedin


 Gli Archi: Sono o meno in contatto tra loro

Abbiamo due costruzioni:


1. Teste (Nodi): rappresentano l’individuo di base all’interno della rete. Es. profilo
Facebook/cliente. Siamo interessati ai casi in cui i nodi sono persone ma possono essere
anche prodotti. Es. prodotti acquistati insieme.
2. Misure di connessione (Archi): misurano relazioni, interazioni, amicizie.
Vediamo se tra tutte le coppie di nodi è presente o meno una relazione es. se siamo amici e
caratterizzare l’intensità della relazione es. quanti mi piace. Le relazioni non per forza sono
univoche es. Instagram, quindi la relazione è di tipo asimmetrico.

Esempio reti sociali: Linkedin. Social network dove i


profili sono degli utenti, le relazioni non ha direzione ed è
limitato alla definizione del profilo lavorativo.
Voglio rappresentare la rete graficamente. Se la rete
mi dice qualcosa significa che se ci sono dei gruppi voglio
che vengano messi in risalto. Ci aspettiamo che
all’interno della rete si formano delle piccole
comunità/gruppi.
Si formano quindi delle reti: la rete maggiore è quella formata dai docenti Unipd: Ogni punto
rappresenta una persona e li colleghiamo se c’è un collegamento. La struttura è molto densa
perché ci sono tutti i membri del dipartimento che tra loro sono colleghi definisco quindi la
comunità molto densa e la sua intensità. Es. soprattutto ambienti lavorativi accademici. Ogni
profilo è connesso molto con le persone al suo interno. Ci sono anche dei profili che fanno da
ponte es. il punto in mezzo al grafico che collega più reti. Es. recruiter nel caso di Linkedin.
Le reti sociali formano comunità (gruppi) indipendentemente dal campo specifico a cui ci
riferiamo e sono gruppi che hanno un senso, ma ha anche senso il ruolo singolo dei singoli nodi.
Es. docente qualsiasi che tende ad essere connesso con un altro docente.
Quando analizziamo le reti sociali non ci aspettiamo che tutti siano connessi tutti gli altri
Es. Ogni punto rappresenta un deputato e rappresentiamo una
connessione se due deputati hanno firmato almeno un decreto
insieme. Andiamo a rappresentare questa rete e vediamo delle
caratteristiche molto simili a prima. Persone diverse, relazioni
diverse ma alcune strutture sono presenti:
Non tutti sono collegati con tutti gli altri
Ci aspettiamo che ci sia un po' di struttura reti sociali formano
delle comunità indifferentemente dal campo specifico di
applicazione. All’interno dello stesso gruppo ci siamo più
collegamenti rispetto a collegamenti tra diversi gruppi.

Principali tipologie di reti


I nodi vengono con unità rappresentati da A,
B, C (profili). La freccia rappresenta la
connessione e che tipo di relazionalità ha.
Funzionano bene per i social network.
 Indirette: Facebook
 Dirette: Instagram
Le connessioni hanno una forza/intensità
diversa:
 Binarie: amici di Facebook
 Pesate: è una rete nella quale
l’arco ovvero il collegamento ha
forza e questo è un attributo che
possiamo misurare. Possiamo associare ad ogni arco un valore quantitativo.
BC hanno 3 amici in comune e BA hanno 5 amici in comune posso dire che
l’intensità del secondo è più forte del primo.

Rappresentazione matematica
1. Grafo: Metodo degli xi. Abbiamo una coppia di insiemi N e A. All’interno di N
mettiamo tutti i nodi della rete (A, B, C, D). L’insieme dei nodi non è un insieme
ordinato ma è un contenitore Es. Moodle tutti gli iscritti, non mi interessa l’ordine.
Mi interessa perché posso definire le connessioni ovvero gli archi tra i nodi come
coppie denominate i e j all’interno dell’insieme N. Abbiamo 4 individui.
2. Matrice di adiacenza: Associa ad ogni riga e colonna un nodo della rete. ABCD sono i
nodi della rete. Nella diagonale sappiamo che un nodo è connesso con sé stesso,
info di scarso interesse. Per ogni incrocio andiamo a valutare se è presente una
connessione tra il nodo associato alla riga e il nodo associato alla colonna, trovo le
associazioni. La matrice di giacenza mi dà informazioni su N com’è formata, mentre
su A trovo le informazioni all’interno della matrice.
INDIRETTA/BINARIA

AB: 1 c’è connessione


AC: 0 non c’è connessione
Se abbiamo che un nodo i e un nodo j sono connessi abbiamo quindi che l’elemento ij della
matrice di adiacenza è indicato con 1 o uno 0 altrimenti.
La rete più semplice possibile è quella indiretta binaria. Le connessioni sono tipo binario: 0 o 1.
Se la rete è indiretta e non ho le frecce: la matrice sarà simmetrica.
Se A è amico di B, è anche vero che B è amico di A. La matrice è simmetrica, c’è ridondanza, la
triangolare inferiore= triangolare superiore. Quindi Yij=Yji saranno uguali.

DIRETTA/PESATA

Nel caso più estremo abbiamo rete diretta e pesata (c’è una direzione c’è una misura di intensità.
Dal punto di vista degli archi: scrivere i, j o j, i è diversa. Semplicemente manteniamo l’ordine [i, j],
inoltre c’è un peso Wij è una misura che appartiene a quello che vogliamo. Ci interessa il caso in cui
questa è quantitativa. La relazione che arriva da A a B ha forza minore 1 e relazione da B a A ha
forza 2 maggiore. Quella massima è quella di C e B. La matrice non è più simmetrica e i numeri non
saranno solo 0/1. Posso utilizzare la matrice trasposta è uguale come scriverla, importante è dire
dove si parte.
È importante il livello di zoom che facciamo nella rete. Vogliamo dire qualcosa sulla nostra rete
complessivamente, vogliamo dire qualcosa rispetto all’individuo (ogni singola persona quanti amici
ha) e a scala intermedia (considerando solo un piccolo gruppo, quanto sono amici). A seconda di
che cosa guarda e quali aspetti caratterizzano in modo più importante la mia attenzione avrò info
diverse. Come vado a definirli? Con indici diversi a seconda dell’analisi su cui focalizzarsi.

Come descrivere una rete


Abbiamo visto che una rete è un insieme di nodi ed archi. È utile fornire delle statistiche descrittive
a differenti livelli:

A livello di rete A livello di nodo


 Densità  Grado A livello di gruppi di nodi
 Diametro  Centralità  Modularità
 Lunghezza media  Betweenness  Assortatività
dei percorsi/cammin
Introduciamo queste quantità nel caso più semplice di reti binarie ed indirette.

Il cammino più corto (shortest path): Matrice di adiacenza e Matrice di distanza geodesica
Come possiamo misurare la distanza tra nodi di una rete?
 Per ogni coppia di nodi i e j gli shortest paths sono i cammini più corti tra nodi
interconnessi che uniscono i a j.
 Possono essere molteplici: nell’esempio gli shortest paths tra 1 e 5 sono: {1; 2; 4; 5} e {1; 3;
4; 5}
 Lunghezza dello shortest path: numero di archi di cui si compone. Nell’esempio è s15 = 3.
 Permette di definire una matrice di distanza [S]ij = sij

x 1 1 0 0 1
1 x 1 1 0 2
Y= 1 1 x 1 0 3
0 1 1 x 1 4
0 0 0 1 x 5
1 2 3 4 5 ¿

Non ci aspettiamo che tutti i nodi siano connessi con tutti gli altri, quantifichiamo una certa
misura di distanza tra nodi nella rete. Vogliamo misurare che distanza intercorre tra tutti i possibili
nodi all’interno della rete. Vado a vedere quanti passaggi devo fare/collegamenti per partire da un
nodo ad un altro.
Questa misura si chiama cammino di rete/ shortest path = è la lunghezza del cammino più corto
che interconnette due nodi. La distanza ci è data da quanti ponti dobbiamo percorrere. Es. Per
andare da 1 a 2 il cammino più corto è diretto da 1 a 2, quindi la distanza è 1.
Non è l’unica strada che si può fare per spostarsi nei punti. Una quantità può essere definita in
modi diversi, per misurare la distanza tra due nodi e una rete, ci interessano solo i cammini più
corti che possiamo fare/gradi di separazione. Es. Distanza tra 1 e 5: 1,2,4,5 oppure 1,3,4,5.
Dal momento in cui abbiamo una misura di quanto distanti sono due nodi abbiamo quindi una
misura di distanza geodesica: risulta quindi il numero di archi/ponti su cui dobbiamo camminare
ovvero 3. Distanza tra due nodi= lunghezza del cammino più breve, possono essere molteplici.

Esempio: aeroporto e passaggi minori da fare.


Esempio: mappe metropolitana la prima non ha senso farla, di solito viene considerata la seconda.
Il modo in cui vogliamo misurare se due cose sono vicine è solamente il numero di fermate.

Con queste distanze costruisco una nuova matrice S. Risulta diversa


dalla matrice di adiacenza ci da una struttura della rete 1:1, contiene
la presenza o assenza di collegamento di tutte le coppie di nodi. La
matrice delle distanze S contiene la loro distanza. È una matrice il cui
elemento Sij è dato dalla distanza tra il nodo i e il nodo j ovvero la
distanza = numero di archi da percorrere. Sij= sij. Possiamo osservare
valori che sono sempre diversi da 0, e assumo valore 1 o maggiore di uno tranne nella diagonale:
andiamo a misurare la distanza per connettere un nodo con sé stesso. Ogni nodo ha per
definizione una distanza pari a 0 con sé stesso. È simmetrica! Perché distanza tra 1 a 2= distanza 2
a 1.
Gli uni: rappresentano quelle coppie di nodi che sono a distanza uno.

Si assomigliano le due matrici perché sono simmetriche, perché indiretta.


Le differenze sono: quando si calcola la distanza si buttano via un po' di informazioni, benché la
distanza sia la stessa il nodo 1 a 2 ha distanza 1, ma tra nodo 1 e 4 c’è distanza 2 ma non
sappiamo chi c’è in mezzo, anche per i modelli di regressione, quando si valutavano i residui.
Posso salvare nella matrice di adiacenza solamente i numeri che mi forniscono 1 e non 0, le
posizioni in cui è presente un arco: concetto di densità/sparsità. Per salvare la matrice di adiacenza
mi servono solo un tot di elementi, ma per la matrice di distanza mi servono tutti gli elementi di
tutte le coppie di nodi per avere la distanza.
Non è detto che si possa fare per tutte le coppie di nodi:
distanza 1 a 6 non sappiamo quindi per convenzione inseriamo
infinito come simbolo.
 Non sempre esiste. In tal caso,
si fissa ad ∞ per convenzione
 Computazionalmente nella
rete grande il problema non
banale (Algoritmo di Dijkstra)

Indici descrittiviLIVELLO DI NODO: Grado e centralità e betweenness


v
- Grado di i. Numero di nodi con cui è connesso: ni =∑ y iJ .
j =1

[n1 = 2, n2 = 3, n3 = 3, n4 = 3, n5 = 1]
- Normalizzato: ¿ /(V −1) utile per i confronti: [0.5, 0.75, 0.75, 0.75, 0.25]

- Closeness centrality di i. Reciproco della somma delle


1
Cⅈ= v
distanze geodesiche
∑ S jJ
J=1

[c1 = 1/7, c2 = 1/5, c3 = 1/5, c4 = 1/5, c5 = 1/8]


- Normalizzato: (V 1)ci (distanze medie).
[0.57, 0.8, 0.8, 0.8, 0.5]

- Livello di betweenness di i. E la somma (fatta su tutte le


coppie di nodi u e v diversi da i) del rapporto tra il
numero degli shortest paths tra u e v che passano per i
[nuv (i)] ed il totale degli shortest paths tra u e v [nuv]:
nuv ( ⅈ )
gⅈ=Σ U ≠ i≠ v
nuv
- Per i = 2: {(1, 3), (1, 4), (1, 5), (3, 4), (3, 5), (4, 5)}
0, 0.5, 0.5, 0, 0, 0
quindi, g2 = 1
- Per tutti i nodi della rete otteniamo [g1 = 0, g2 = 1, g3 = 1, g4 = 3, g5 = 0].
- Normalizzato: gj/[(V −1)(V −2)/2] (numero di coppie che non include i) [0, 0.16, 0.16, 0.5,
0].
GRADO: Secondo passo dobbiamo valutare una misura di importanza dei nodi all’interno della
nostra rete. Ci aspettiamo che i nodi non siano tutti uguali, alcuni hanno un ruolo più centrale di
altri e per esempio si calcolano statistiche descrittive come il grado di ogni nodo. Il grado è il
numero di gradi con cui il nodo i è connesso. Il grado è la proprietà di ogni singolo nodo, andiamo a
vedere il numero di nodi con cui è connesso. Es. nodo 1 partono due collegamenti significa che si
collega con un numero di nodi = 2, grado:2.
Tutte le quantità sono ottenibili dalla matrice di adiacenza perché è costruita in modo ragionevole
e non butta via niente è una rappresentazione esatta della rete, questa operazione è semplice
faccio una somma per riga o per colonna.
Il grado fornisce una misura di popolarità, il quanto un nodo avrà un grado più elevato se ha più
collegamenti

x 1 1 0 0 1−2
1 x 1 1 0 2−3
1 1 x 1 0 3−3
Y=
0 1 1 x 1 4−3
0 0 0 1 x 5−1
1 2 3 4 5 ¿

Se vogliamo fare dei confronti avere il grado da dei problemi. Un profilo in un gruppo ha 10
follower e l’altro 20 follower, dipende dal totale di profili nei due gruppi. Questo concetto è la
normalizzazione, sta in un intervallo che conosciamo. Calcolo il grado e divido per (V-1), così
capisco se il mio nodo ha tante o poche connessioni:
 se mi fornisce V-1 connessioni, il nodo è molto popolare perché mi fornisce tutte le connessioni
 se mi fornisce 0,5 è connesso solo con metà dei nodi presenti nella rete.
 se mi fornisce 0 è come avere un nodo solo e non ci interessa, non ci permette di ricavare
informazioni sulla struttura di rete.
Andiamo a normalizzare e dividiamo per il massimo e ci fornisce l’informazione. La cosa
importante è che ci permette di confrontare delle reti con una misura di connessioni diverse.

CLOSENESS: La matrice distanze prendeva le distanze tra coppie di nodi. È interessante perché se
andiamo a calcolare per ogni nodo quanto è distante tra gli altri, ci fornisce una misura di
centralità. Calcoliamo una misura di vicinanza. La parte che ci interessa di più sono i denominatori.
Prendiamo i denominatori: per ogni nodo della rete va a calcolarsi quanto è distante dagli altri e li
somma:
Il nodo 1 quanto è distante da 21
Il nodo 1 quanto è distante da 21
Sommo tutte le quantità. Più è grande la somma delle distanze più il nodo è periferico.
Complessivamente è molto più lontano e isolato, per raggiungere il posto devo fare più passaggi. Il
denominatore è una misura di lontananza.

Prendo il reciproco che mi fornisce la mia centralità: più è piccola meno il nodo è centrale, essere
poco centrale significa essere molto lontano. Se è vicino a tutti allora è centrale, la distanza tra i
nodi è molto bassa. S1=1/7 > S5=1/8  s5 risulta più centrale rispetto a s1. Anche la centralità del
nodo posso sommare riga o colonna della matrice delle distanze per i denominatori.
Es. Santa lucia ha molti binari, tante tratte e tante connessioni ma non ci aspettiamo che sia
centrale perché è periferica. Normalizziamo anche la centralità per la nostra rete ovvero
moltiplicare (V-1) alla centralità. Anche in questo caso abbiamo una misura che ci permette di
valutare in termini relativi la centralità della rete. Per come è costruita, se la misura è grande
significa che è più centrale.

BETWEENNESS: Andiamo a formalizzare meglio questo concetto di centralità: invece che andare a
valutare semplicemente quanto lontane sono le coppie di nodi (quanti passaggi devo fare) ora mi
concentro anche sugli altri nodi all’interno della rete. Voglio calcolare quanto è centrale ogni
singolo nodo. Cosa fa la betweenness è la proprietà specifica del nodo. Come facciamo?
Costruiamo un rapporto e in particolare andiamo a prendere tutte le possibili coppie di nodi ad
esclusione del nodo su cui voglio calcolare. Es. prendo tutti gli aeroporti tranne quello francese.
Calcolo quindi tutti i passaggi possibili per passare da quell’aeroporto.
Per tutte le coppie di nodi u e v della rete, calcolo il rapporto tra i cammini più brevi (percorsi che
connettono u e v che passano per il nodo i) / tutti i cammini. Quanti percorsi coinvolgono Parigi
rispetto tutti i percorsi totali. In questo caso siamo sempre sugli shortest path.
Es. Voglio calcolarla per i=2:
Prendo tutte le possibili coppie che non coinvolgono il 2. Per ognuno di
questi vado a vedere come ci posso arrivare e vado a vedere la proporzione
di viaggi che passano per due:
(1,3) = 0 Sono direttamente collegate, non passano per due quindi 0/1=0
(1,4) =0,5 Posso fare da 1,3,4 oppure da 1,2,3. Hanno entrambi
lunghezza 2 è il shortest path. Entrambi i passaggi vanno bene. Ci
concentriamo sul nodo 2. Tutti i nodi che passano per due / Totali passaggi
per arrivare a 4 =1/2 = 0,5
(1,5) = ½=0,5. Ho un cammino solo che passa per due e in totale due cammini per arrivare a 5.
Lo faccio per tutte le possibili coppie di nodi e poi sommo: 0,5+0,5= 1. Il livello di betweenness è
pari a 1 per i=2.
g1=0, g2=1, g3=1, g4=3 e g5=0. Cosa significa che ho una betweenness pari a 0? Significa che
visti tutti i viaggi che posso fare per connettere tutti gli altri nessun viaggio passa per 1 o per 5.
Vive in un posto molto periferico e per connettere le altre non ha senso passare per 1 o 5. Riesco
ad arrivarci ad altri posti senza passare per nodi periferici. Possono avere un alto nodo di
collegamenti ma è un nodo molto periferico Es. Stazione Venezia.
Il nodo 4 ha una betweenness molto alta perché collega il nodo periferico 5, ogni volta che voglio
andare a 5, per quattro devo per forza passarci (Mestre).
Si normalizzerà anche in questo caso gj/[(V −1)(V −2)/2] numero alto, betweenness alta. Dal
nodo 4 passano circa la metà delle possibili tratte/collegamenti 0,5.
Cosa ci dicono?
In generale: quanto è importante un nodo in quanto membro di una rete
- Grado: numero di “vicini”. Nelle reti sociali, pochi nodi hanno un grado elevato (sono
chiamati hub), e molti ne hanno uno basso.
molto coinvolto nelle relazioni
non necessariamente “prestigioso”
- Closeness: Più è alta, più ci aspettiamo che sia facile per il soggetto raggiungere gli altri
attori della rete
 Comunicazione veloce a soggetti diversi
Permette di diffondere velocemente un messaggio
- Betweenness: Alta betweenness comporta un ruolo decisivo nella struttura della rete,
controllo sulla comunicazione.
Tiene conto dell’interazione tra soggetti non adiacenti
Attori con funzione di intermediari, fanno da tramite (spesso tra diverse comunità)

Nelle reti sociali succede che pochi individui hanno molte connessioni e viceversa. Spesso la
relazione che andiamo a valutare è quella di prestigio (quanti amici hai), un nodo con grado
elevato è prestigioso perché esprimiamo un giudizio di valore. Non sempre è così es. spam, tante
telefonate. Quindi quando parliamo di grado elevato va bene dire che c’è un alto grado di
connessioni ma non necessariamente sono prestigiose e positive. Es. amicizia/spam.
Non solo va a valutare quanti collegamenti hai ma va a valutare quanti passaggi si fanno. Nel
valutare la distanza si prende il reciproco. Distanza elevata, closeness piccola nodo non centrale e
viceversa. Meno passaggi devo fare, riesco a comunicare in modo più efficiente es. Internet. Un
nodo con closeness elevata riesce a trasmettere un messaggio in modo più efficiente.
Oltre che controllare questo aspetto di vicinanza ed efficienza va a controllare quanto sia vicino
o efficiente rispetto agli altri nodi. Quante di tutte le possibili tratte passano per quella valutata.
Nodi con betweenness elevato tengono in mano la struttura della rete. Es. se voglio mandare un
messaggio alla rettrice, si passa all’ufficio amministrazione centrale per forza. Es. Linkedin
selezione di personale. Non hanno tanti collegamenti ma tuttavia fungono da ponti e intermediari.
Vanno a collegare in modo strutturato tutti gli
altri nodi.
Ogni nodo rappresenta un profilo e vediamo
tra di loro come interagiscono. Abbiamo delle
strutture con forti comunità (russi), anche in una
rete di questo tipo, quello che osserviamo è che i
nodi non sono tutti uguali ma quelli che ci
interessano sono quelli associati a valori statistici
con grado elevato. Un nodo con betweenness elevata sono quelli in mezzo che collegano i diversi
nodi e hanno un ruolo più centrale e decisivo.

Analizziamo una rete e la valutiamo nel complesso. Come oggetto di indagine abbiamo un’unità
differente rispetto a prima che analizzavamo solo le singole teste. Ora valutiamo il generale della
rete sociale.

Indici descrittivi LIVELLO DI RETE: Densità, Diametro, Lunghezza media dei percorsi
Basati sul numero di archi
- Densità di Y. Frequenza relativa del numero totale di archi osservati,
1
sul totale degli archi possibili: D= ∑ y ij . Nell’esempio: D = 0.6.
v ( v−1 )
- Distruzione del grado. Distribuzione empirica di [n1, …, nV]
Basati sulle distanze
- Diametro di Y. Lunghezza del più lungo shortest path: max{sij}=3
- Lunghezza media di shortest path. Media delle lunghezze minime di
path.
1
L= ∑ siJ L = 1.5
v ( v−1 )

Cosa ci dicono?
In generale: quanto e come è connessa una rete, globalmente
- Densità: proporzione di connessioni rispetto al massimo osservabile
Frequentemente sparse (vantaggio computazionale)
- Distribuzione del grado: importante per valutare alcune proprietà, come l’invarianza di
scala
Le connessioni sono raramente “casuali”!
Alcuni nodi hanno una capacità maggiore di creare connessione
- Diametro: valutare small world. Misura del grado di separazione massimo
Quanti passaggi è necessario fare, per connettere di due nodi più distanti
- Lunghezza media di shortest path. Grado di separazione medio
Reti con lunghezza media inferiore sono più efficienti a trasmettere informazioni

DENSITA’: Il concetto di densità la quale ci dice complessivamente quanto è piena la rete, quante
connessioni osservate rispetto a tutte quelle possibili. È una misura che ci serve a capire se siamo
in uno scenario dove tutti sono connessi con tutti, se ci sono poche connessioni, intermedio. La
densità è la frequenza relativa del totale di archi osservati.
Prende la matrice di adiacenza: sommo tutti 1 della riga o colonna, ed è la stessa cosa di contare
tutti gli archi. Ha senso vedere se questa quantità è piccola o grande rispetto al totale che risulta
come tutte le possibili osservazioni. La densità ha per automatico una misura relativa e non
assoluta, mentre nel caso del nodo ha senso confrontare misure diverse, ma nel caso della densità
ho una statistica sola e ha senso normalizzarla: divido per il totale delle variabili osservate
complessivamente.
 Se ogni nodo è connesso con tutti gli altri: rete piena D=1.
 D=0 quando non c’è nessuna connessione, ma non ha senso valutarla.
Ci aspettiamo quindi una quantità positiva e ci aspettiamo una quantità piccola (20%,15%,10%) le
reti sociali per definizione sono a bassa densità = reti sparse/sparsità. Es. qualcuno che viene
seguito da tanti su Instagram ma è raro che tutti seguono tutto.
Es. Una densità 0,6 è molto alta ma in questo caso ci sono un numero di nodi basso, ha poche
connessioni.
x 1 1 0 0 1−2
1 x 1 1 0 2−3
1 1 x 1 0 3−3
Y=
0 1 1 x 1 4−3
0 0 0 1 x 5−1
1 2 3 4 5 ¿ 12
1
2+3+3+3+ 1=12 → ∗12=0 , 6
4∗5

DISTRIBUZIONE DEL GRADO: Possiamo anche dire di mettere insieme delle statistiche: per ogni
nodo della nostra rete calcoliamo il grado che è una misura di importanza. Avrò quindi il grado per
il nodo 1, 2, i-esimo.
Es. (n1, n2…ni)(2,3,3,3,1) sono 5 numeri e abbiamo tanti numeri quanti sono i nodi della rete e
faccio finta che questo sia un vettore, osservazione con cui posso calcolare media del grado,
varianza del grado, quantili del grado, mediana del grado…. Prendo questo vettore di informazioni
e calcolo ciò che voglio. Rappresento questo vettore graficamente: caratterizzo la distribuzione
empirica di questo vettore tramite: Istogramma o boxplot. Queste operazioni funzionano vedendo
il numero di connessioni, la densità si costruisce andando a sommare i diversi vettori. Posso farlo
sul numero di archi e anche a partire dalle distanze.

Quando si formano le connessioni nelle reti


sociali, le connessioni non si formano in modo
casuale. Si tende ad associarsi in gruppi con uguali
caratteristiche. Es. Amazon la probabilità che uno
vada a comprare un libro che comprano tutti è più
elevata rispetto ad un libro sconosciuto.
Quando andiamo a vedere la distribuzione del grado vediamo che: nel grafico ci sono due tipi di
rete di autostrade negli USA.
- Il primo è una rete tecnologica e non sociale in cui le connessioni sono date dalle autostrade.
- La seconda è la rete degli aeroporti e vado a creare delle connessioni dei voli.
Valuto in entrambe le reti come si comporta la distribuzione: ho 25 nodi in entrambi. Ho due
istogrammi per entrambe le reti.
1. Prima rete: voglio calcolare il grado di tutti i nodi. N=25 (Nny, Nmi, Nph...). Ha un
comportamento simile alla gaussiana/normale e asimmetriche perché è accentrata
su tre connessioni, le code scendono in modo simmetrico: la maggior parte dei nodi
hanno connessioni simili all’interno della rete tecnologica. C’è una massa dove
tantissime città hanno 3 connessioni, poche ne hanno due, ancora meno una e così
via.
2. Seconda rete: Distribuzione esponenziale/power law e ci dice che la maggior parte
dei nodi non stanno in mezzo e hanno un numero medio di connessioni ma stanno
nei bordi con un numero medio di connessioni basso. Pochi aeroporti sono molto
importanti e presentano un enorme numero di connessioni e viceversa. Via via che
cresce il livello del grado il numero di osservazioni decresce in modo molto veloce.
Es. Instagram non ci sono molti profili con 15 milioni di follower, e così via.
Quando un nodo nuovo entra nella rete allora è molto probabile che vada a connettersi con un
nodo con molte connessioni.

DIAMETRO: Ci interessa sapere tra tutte le possibili coppie quella più lontana. La lunghezza della
distanza delle due coppie con distanza più ampia, questa si chiama diametro. La lunghezza del
cammino più lungo tra due nodi. Non mi interessa quello più piccolo che ha distanza 1, il massimo
bisogna calcolarlo. Nel peggiore dei casi, prendendo la coppia con maggiore distanza ha lunghezza
pari a 3. In termini di distanza: il diametro ci fornisce una misura di quanti passaggi devo fare nel
peggiore dei casi. Prendo le persone più lontane al mondo e vedo quanti passaggi devo fare per
connetterle (questo è il diametro). Es. Facebook ha diametro basso perché i passaggi vanno fatti in
modo opportuno.

LUNGHEZZA MEDIA DI SHORTEST PATH: trovo il diametro e lo faccio per vedere la lunghezza media
dei cammini. Prendo la matrice Scontiene al suo interno tutte le distanze di tutti i possibili nodi.
Ho tanti numeri e ho tante quantità che voglio sintetizzare e faccio la media. La media somma tutto
e divide per tutti gli elementi totali. Invece di contare tutti gli 1 e dividere per il totale, sommo tutte
le distanze e divido per le osservazioni (3). Se mi voglio spostare devo fare 1,5 passaggio. La
lunghezza media del shortest path: ci piacciono le reti che sono caratterizzate da nodi vicini tra di
loro, minore è la distanza più alta è la centralità e più efficiente sarà la comunicazione. Più passaggi
devo fare più è faticosa la comunicazione da fare. Più è piccola la distanza media più abbiamo una
centralità più è efficiente la comunicazione e far arrivare un messaggio.
Indici descrittivi A LIVELLO DI GRUPPI DI NODI: Modularità e Assortatività
 Le reti sociali tendono a formare gruppi di nodi, simili rispetto a qualche caratteristica
 Spesso, tali gruppi sono determinati da informazioni esogene (covariate). Provenienza
geografica, interessi, genere, opinioni politiche, etc.
 Concetto di omofilia: ci piace ciò che è a noi simile. Fortissimo impatto sulla formazione di
opinioni.
 Tale struttura a gruppi ha un impatto notevole sulla formazione di legami all’interno della
rete.
 Per ora supponiamo che la divisione in gruppi sia disponibile. Chiaramente, un problema
interessante (che studieremo) riguarda come estrarre tale informazione dai dati a nostra
disposizione
 Cosa possiamo dire riguardo ad un gruppo (o più gruppi) di nodi?

Per definizione i gruppi tendono ad apparire all’interno delle reti sociali. Quando analizziamo
qualsiasi tipo di rete ci aspettiamo che ci siano dei gruppi, non tutti si connettono con tutti ma si
formano comunità con uguali caratteristiche.
Come si formano questi gruppi? La caratteristica principale che da luogo alla formazione di gruppi
è l’omofilia: tendenzialmente all’interno di una rete è molto più probabile osservare coesioni
maggiori con individui con caratteristiche simili. Es. Uomini e donne. Cerchiamo dal punto di vista
sociale persone simili a noi.
È sia positivo che negativo perché? Se questo comportamento è estremo all’interno delle reti si
formano delle bolle dove all’interno ci sono persone tra loro con uguali caratteristiche, uguali
opinioni e questo tende a radicarsi in modo forte all’interno delle strutture. I gruppi che
osserviamo tenderanno ad essere molto omogenei. L’omofilia da un lato ci permette di studiare ma
dall’altro crea problemi su gruppi estremisti che non accettano opinioni diverse e crea quindi una
bolla.

I gruppi sono insiemi di nodi!


 Tutte le statistiche viste in precedenza (a livello di nodo) si estendono direttamente a gruppi
di nodi
 Ad esempio, il grado o la centralità totale di gruppo
 In realtà, non sempre ci aspettiamo molta similarità rispetto a queste caratteristiche!
 Ricordiamo il concetto di hub: nodi con grado elevato che formano parecchie connessioni.
In un gruppo “ragionevole”, non ci aspettiamo che ne siamo molti (anche perchè sono
pochi)
Da dove vengono questi gruppi? Devo cercarli o sono già presenti? Voglio vedere se guardando le
connessioni se riesco a capire qualcosa oppure se i gruppi mi sono dati (maschi e femmine), voglio
poter dire qualcosa rispetto ad ognuno. Per il momento supponiamo che li abbiamo e per esempio
una divisione: maschi/femmine. Abbiamo la nostra rete con 25 nodi e abbiamo i diversi gradi dei
nodi. Alcuni sono maschi e altri sono femmine e lo sto prima di calcolare le statistiche.
(n1, n3…n25)Femmine
(n2, n5…n24)Maschi
Tutte le osservazioni singole le analizzo separatamente costruendo dei vettori, guardando i gradi
dei due diversi nodi e analizzo in media com’è fatto il grado. Può essere utile ma nelle reti studiate
non ci aspettiamo che questa tipologia di suddivisione mi dia informazioni.
Prendiamo il caso limite: avrò solo un nodo con tante connessioni e viceversa. Quando valuto le
mie statistiche descrittive per ogni gruppo non ci aspettiamo di trovare similarità. Perché valutiamo
una parte della rete in cui sono tutti uguali e sono tanti, la parte interessante sono pochi. Non
valuto tanto le caratteristiche del gruppo nella sua complessità è difficile che mi dica qualcosa di
interessante, ma sto buttando via molte informazioni perché se guardo il dato. Sto rompendo le
informazioni in due gruppi, le connessioni non riesco a valutarle così.
Un modo ragionevole per valutare che se i gruppi sono buoni, coesi è andare a valutare come si
comportano la struttura di connessione. Un gruppo per essere ragionevole deve essere: i nodi
all’interno del gruppo siano connessi tra i gruppi mentre tra nodi di gruppi diversi ne abbiano
poche. Voglio un gruppo coeso: all’interno del gruppo molte connessioni, al di fuori poche
connessioni. Come faccio a calcolare questa quantità? Vieni utilizzata la modularità.

 Più interessante valutare la coesione dei gruppi


 Come possiamo valutare se una verta visioni in gruppi è ragionevole?
 Molte connessioni all’interno dei gruppi e poche tra gruppi diversi
 Modularità. Frazione di archi che connette nodi nello stesso gruppo meno il valore atteso
della stessa quantità in una rete con connessioni casuali:
k k
Q=∑ e kk −∑ a2k
k k

[( ) ( ) ]
2 2
6 2 8 4
 (K è il numero di gruppi): + – + =0.11
12 12 12 12
 Assortatività. Modularità normalizzata:
k k

∑ ekk −∑ a 2k
k k
R= k
1−∑ a k
2

k
 Nell’esempio: Q = 0.11, R = 0.25
 R vicino ad 1 indica forte coesione tra i gruppi
 Empiricamente, valori di R superiori a 0.3 suggeriscono che le comunità trovate sono non
banali

La modularità è la frazione di archi che connette nodi dello stesso gruppo – un’altra quantità. È
una quantità che combina due funzioni principali:
1. La prima è una misura che dice di tutte le connessioni che osservi, quante cadono
nello stesso gruppo. Abbiamo una rete e abbiamo alcune connettono nodi dello
stesso gruppo (ragazza a ragazza) e altre saranno connessi tra gruppi diversi
(ragazza, ragazzo). Q = ekk frazione di archi che connette ragazze e ragazzi.
2. La seconda è una misura di connessione casuale di tra ragazze e ragazzi. Confronto
questa quantità e levo le connessioni in media osservate casuali all’interno della
rete. Definito quindi il valore atteso della connessione tra i gruppi se i legami si
formano a caso, non c’è omofilia quindi se ci sono connessioni casuali.
Esempio: Dal punto di vista operativo
partiamo dalla matrice di adiacenza
suddividiamo 1,2,3 femmine. 5,4 sono
maschi. Fare gruppi significa che nel grafo
si suddividano a colori mentre nella
matrice di adiacenza ogni riga e colonna
corrisponde ad un nodo. La modularità
mi fornisce una misura di grandezza delle
connessioni casuali (amicizie tra maschi e
femmine) e quelle all’interno dei gruppi
rispetto al totale, quale delle due è più
grande?
k k
Q=∑ e kk −∑ a2k
k k

- Denominatore è 12: tiene conto di quanti 1 ci sono all’interno della matrice, è il numero
connessioni.
- Quanti tra questi 12 connettono donne tra donne e maschi tra maschi. Femmine = 6 e
maschi = 2. Va in contrasto tra matrice e grafo perché è speculare 1 è connesso2 ma
anche 2 è connesso con1. Nella tabella risulta quindi e1,1=6/12 donne ed e2,2= 2/12
uomini.
- Ci sono anche nodi che non si connettono con gruppi dello stesso tipo: conto sulla matrice
quelli non interni al gruppo e1,2=2/12 e e2,1=2/12.
- Negli spazi della matrice non segnati saranno i residui e1,2= 2/12 e e2,1= 2/12.
- Dipendenza statistica: Variabile x e variabile y, la legge di probabilità congiunta è la
probabilità pr (x=x, y=y) entrambi gli attributi si verificano contemporaneamente. Se queste
sono indipendenti possiamo scriverla come pr(x=x) e pr(y=y). Es. Essere maschio non ha
alcun effetto sull’essere ricco.
- Si calcola la distribuzione marginale: sommo per riga e per colonna: a1=8/12 e a2=4/12.
Stiamo in un certo senso buttando via un po' di informazioni ovvero guardando quante
connessioni hanno le femmine e quante ne hanno i maschi. Se guardo solo la marginale
non mi dice se queste connessioni connettono uomini o donne. Non mi aiuta a capire la
relazione che sussiste.
- Se si parla di dipendenza statistica: 6/12 la frequenza possiamo vederla come probabilità in
nodo in cui parte è femmina e il nodo in cui arriva è femmina. Connessione
partefemminaarriva a femmina. Se c’è indipendenza statistica allora significa che gli
elementi della tabella saranno uguali al prodotto delle marginali. La probabilità prendere
prima una donna e dopo una donna è il prodotto delle marginali. Quindi la tabella sarà:
e11=8/12*8/12
e22= 4/12*4/12
e21= 8/12*4/12
e12= 8/12*4/12
- Più le quantità marginali si avvicinano a quelle teoriche (perché se supponiamo che ci sia
indipendenza statistica sono quelle che osserviamo) quanto più sono vicine più abbiamo
evidenza che siano vicine alle nostre dipendenti. Stiamo valutando se le frequenze
marginali/attese sono simili o meno rispetto a quelle che osservoModularità.

Calcoliamo la modularità:
1. La prima componente della modularità è data dalla frazione di archi che connettono nodi
dello stesso tipo, elementi ekk= em,m ed ef,f. Sommatoria di ekk.
2. La seconda componente sono le marginali ovvero i gruppi casuali.

2 2
e 11+e 22−a 1 −a 2  gruppi omogenei- (gruppi casuali) ^2

( ) ( )
2 2
6 2 8 4
+ − − =0 , 11
12 12 12 12

Calcoliamo l’assortatività ovvero la modularità normalizzata:


Le statistiche non sono normalizzate: la modularità è una misura di coesione tra gruppi, che mi dice
quando ben strutturati sono i gruppi e quali connessioni avvengono tra i gruppi (alta in cui sono
sensati) ma non riesco ad interpretarli in valore assoluto. Ma il valore può essere sia grande sia
piccolo a seconda della quantità di connessioni. Dipende da quanto grande è la rete.
k k

∑ ekk −∑ a 2k 0 , 11
k k
R= = =0 , 25
( ) ( )
k
8 2 4 2
1−∑ a k
2
1− −
k 12 12
Perché si divide per 1-marginali? Questa quantità è massima quando la somma è uguale a 1.
Significa che frazione di nodi femmine+ frazione di nodi maschi: la modularità assume valore
massimo quanto è 1. Es. 6/12 -6/12. Se tutte le connessioni che osservo avvengono o solo tra
donne su donne e solo tra uomini e uomini, la modularità assume valore massimo. Tra gruppi
diversi non ho connessione.
Altri esempi:

Gruppo 1 Gruppo 2 Marginali


Gruppo 1 E11=6/10 E21=1/1 A1=7/10
0
Gruppo 2 E12=1/10 E22=2/1 A2=3/10
0
Marginale A1=7/10 A2=3/10

PRIMO Gruppo 1 Gruppo 2 Marginali


Gruppo 1 E11=6/8 E21=0/8 A1=6/8
Gruppo 2 E12=0/8 E22=2/8 A2=2/8
Marginale A1=6/8 A2=2/10
0 1 1 0 0
1 0 1 0 0
1 1 0 0 0
0 0 0 0 1
0 0 0 1 0

0 1 1 0 0
1 0 0 1 0
1 0 0 1 0
0 1 1 0 1
0 0 0 1 0
Modularità: k k

( ) ( )
2 2
6 2 7 3
∑ ekk −∑ a 2k + − −
( ) ( )
k k 2 2
6 2 7 3 10 10 10 10
Q=∑ e kk −∑ a2k ¿
k k
+ − − R= ¿
1−( ) −( )
k 2 2
10 10 10 10 7 3
1−∑ a k
k k 2

¿ 0 , 8−0 , 49−0 ,09=0 , 22 k 10 10


0 ,22
¿ =0 , 53
1−0 , 49−0 , 09
Assortatività:
connessioni solo all’interno del gruppo.
Modularità e assortatività 2

( ) ( )
2 2
4 2 6 4
Q= + − − =0 , 08
10 10 10 10

+ −( ) −( )
2 2
4 2 6 4
Modularità e assortatività 1
10 10 10 10
() ()
6 2 6
2
2
2
R= 0 , 17
1−( ) −( )
2 2
Q= + − − =0 , 37 5 6 4
8 8 8 8
10 10
0,375
R= =1 è massima perché ci sono
1−0,625
RIASSUNTO: Stiamo parlando di analisi di rete e di indici che ci permetto di descrivere qualche
proprietà della rete. Questi indici caratterizzano due proprietà dei nodi o caratterizzano delle
proprietà della rete complessivamente mettendo insieme nodi e caratteristiche. Con le misure che
vediamo ora andiamo a costruire una misura di analisi intermedia ossia andiamo a valutare cosa
succede all’interno della nostra rete quando ci concentriamo su gruppi di nodi. Le reti sociali
formano gruppi e questi sono tirati da caratteristiche di omofilia (gruppo simili tra loro). Come si
riflette all’interno della rete? Ci aspettiamo che i nodi formano delle connessioni tra nodi simili e ci
aspettiamo che all’interno del gruppo le connessioni siano più fitte rispetto alle connessioni che si
formano tra gruppi diversi. Succede nelle reti sociali, social, rete di clienti.
Vogliamo valutare una misura semplice che ci permetta di valutare questa proprietà all’interno
della rete, è quello della modularità che è la frazione di archi che connette nodi nello stesso gruppo
(quante connessioni all’interno del gruppo) alla quale levo una quantità di proporzioni teoriche se
l’omofilia non fosse presente, cosa accadrebbe se le connessioni fossero casuali.
Esempio modularità: Abbiamo la nostra rete 5 nodi, li dividiamo in gruppi (rosso e blu) che posso
utilizzare per costruire tabella di contingenza 2*2 e rappresento la matrice di adiacenza.
Calcolo e11, e22 le connessioni sono
SECONDO Gruppo 1 Gruppo 2 Marginali
6/12+2/12=8/12, diagonale e connessioni tra
diversi gruppi e infine le marginali. Voglio Gruppo 1 E11=4/10 E21=2/10 A1=6/10
confrontarle con un altro numero ovvero se le Gruppo 2 E12=2/10 E22=2/10 A2=4/10
connessioni fosse indipendenti. Vado a
Marginale A1=6/10 A2=4/10
calcolare quali sono le frequenze marginali =
sommo per righe e per colonne. Se non c’è dipendenza e i gruppi non sono interessanti o se il
modo in cui si formano le connessioni sono indipendenti/casuali, allora non mi importa andarle a
valutare se le donne formano connessioni con uomini perché sono indipendenti, non ho omofilia e
quindi la mia tabella è data dal prodotto delle marginali: costruire questa tabella (indipendenza)
i due eventi sono indipendenti, probabilità congiunta  somma elementi diagonale- somma
dipendenza teoriche. Elemento di riga* elemento di colonna ma questi sono identiche e quindi è
indifferente prenderli.
Ci ricordiamo che la modularità ha bisogno di essere normalizzata per poterla interpretare in modo
opportuno, se questo valore dice qualcosa. Questo si chiama assortatività: si divide quindi per il
massimo= (1- somma delle marginali^2). Ho il massimo quando nella tabella ottengo che tutte le
connessioni avvengono nei nodi dello stesso tipo e11, e22 oppure fuori. La rete per definizione
raggiunge modularità massima. Rimuovo l’arco che va da 1 a 4 e da 3 a 4. Le donne solo donne e
uomini solo uomini. La modularità dà il punteggio massimo possibile e quindi la normalizzo per
questa quantità.
Nell’esempio otteniamo Q=0,11R=0,25 è una misura che va da 0 (minima modularità, sono tutti
connessi tra loro i gruppi) a 1 (massima modularità ma gruppi isolati tra loro). 0,25 è il 25% del
massimo che posso osservare. Ci aspettiamo di osservare anche valori modesti come la
correlazione (0,4/0,5 è già molto elevata). Modularità uguale a 1 non è interessante.
Il secondo esempio butto via un arco da 2 a 4. Mantengo solo 3 e 4, la proporzione all’interno
dei gruppi si mantiene costante ma tra le marginali cambiano, la modularità aumenterà perché le
connessioni sono diminuite. Le due comunità sono molto lontane.
Altri esempi prima è il caso massimo divisione massima, secondo meno connessione tra le
donne.
Parto dalla rete e disegno la matrice e calcolo frequenze di connessioni tra gruppo e fuori gruppo,
calcolo marginali e calcolo modularità e assortatività.
Alcune proprietà tipiche nelle reti: ricapitoliamo
1. Mondo piccolo (Small world): La maggior parte dei nodi non è connessa a molti
altri, ma (quasi) ogni nodo può essere raggiunto partendo da qualsiasi altro
attraverso un piccolo numero di collegamenti.
2. Hub: Nodi (tipicamente pochi) con molte connessioni e che spesso fungono da ponti
nel mondo piccolo.
3. Invarianza di scala (Scale free): Un nuovo nodo tende a connettersi con nodi che
hanno più collegamenti nella rete: il ricco diventa sempre più ricco mentre il povero
sempre più povero (in proporzione).
4. Strutture di comunità (Community structure): Tendenza a formare gruppi con dense
connessioni interne, e poche connessioni tra gruppi.
5. Omofilia (Homophily): Tendenza di un nodo a connettersi con nodi simili per alcune
caratteristiche. Ad esempio genere, regione geografica, interessi ... (Love the same).
Cosa ci permettono di dire queste quantità sulle proprietà tipiche delle reti:
 Mondo piccolo: proprietà legata al diametro o lunghezza media di cammini/ gradi di
separazione. All’interno di una rete non ci aspettiamo che tutti siano connessi con tutti
gli altri. Le connessioni non sono fatte in modo uniforme, ma non importa dove
partiamo ci aspettiamo di arrivare dove vogliamo effettuando un piccolo numero di
passi (6 gradi di separazione). Per quanto grande può essere la popolazione è
comunque molto piccolo e molto connesso e con un numero di passi ridotto.
 Hub: sono profili, utenti, persone caratterizzate da un numero di connessioni molto
elevato. Questi per definizione sono pochi. Es. aeroporti, com’è distribuita la frequenza
dei gradi e dei nodi della rete. Abbiamo pochissimi nodi sulla coda con un grado molto
elevato e hanno ruolo molto importante. Un nodo ha tante connessioni non è detto che
sia centrale: soprattutto reti non simmetriche. Es. profilo dove tutti seguono lui ma lui
non segue nessuno. Teniamo distinto il concetto di avere un grado elevato e dal
concetto di betwenness (nodo centrale). Un hub è sia un nodo con molte connessioni
sia un nodo con betweenees elevata.
 Invarianza di scala: distribuzione del grado, è il fenomeno per cui quando arriva un
nuovo studente ci aspettiamo che prenda contatto con qualcuno con molte connessioni.
Più collegamenti si fanno più è probabile che se ne facciano di nuovi. Il modo in cui le
connessioni si formano non è a caso (come nei gruppi), ma avviene secondo un certo
schema determinato dall’invarianza di scala, ci connettiamo con qualcuno che nel
secondo grafico USA sta a destra nella coda (power law). Es costruisco un nuovo
aeroporto se voglio che sia centrale deve comunque passare per punto fuori.
 Strutture di comunità: questi gruppi sono determinati da caratteristiche tipiche dei nodi,
non solo è molto probabile che si uniscono ai nodi più popolari ma anche più simili (es.
stessa regione), questa è fondamentale per le reti e può essere positiva o negativa. Il
gruppo ideale dal punto di vista di connessioni è quello che non parla con l’esterno
questo è un problema perché viene radicato un solo pensiero.
 Omofilia: tendenza dei nodi a connettersi con altri simili per alcune caratteristiche.
R studio:
I dati parlano di un esempio:
analisi di una legislatura (prima
del 2018) e vogliamo vedere la
rete di parlamentari e come
hanno interagito tra di loro i
deputati e in che modo hanno
deciso di firmare provvedimenti
insieme e fare atti in modo
collettivo, abbiamo una rete
(parlamentari) in cui c’è una
connessione tra nodi (firma atto
congiunto).

Ho delle matrici:
Matrice di adiacenza 655*655: nodo
per nodo, politico contro politico
Avrò 1 se questi sono entrati in
contatto e 0 se viceversa.
Matrice di dati in cui ho quattro tipi di informazione: ho tante righe quanti nodi, tante colonne
quante sono le info. Nome politico, partito, anni, sesso.
Voglio che R costruisca una rete indiretta  Abbiamo tutti i nomi e tutte le connessioni tra politici.
Queste ci dicono la rappresentazione di rete costruita. Posso rappresentarla sia con matrice di
adiacenza o con un grafo. Non abbiamo perso nessun dato.

Calcoliamo delle proprietà:


 Grado: ogni nodo della rete quante connessioni ha vettore per ogni elemento per ogni
nodo della rete che rappresenta il numero di connessioni che ha formato. Questa info non
ci dice tutto, averne 40 è tanto o poco? Ci interessa saperlo in termini relativi, quindi,
bisogna normalizzarlo in questo caso risulta il 5%. Quanto popolare è il nodo e quante
connessioni formano e ci da un’idea di chi ha la maggiore. Vado poi a rappresentarla
graficamente la distribuzione empirica con un istogramma che mi fornisce le frequenze e
delle classi. Più di 400 nodi hanno un grado tra 0 e 50% e a diminuire e così via. Nel grafico
c’è un comportamento power law perché la maggior parte ha un grado molto basso e ne
abbiamo pochi che hanno un grado molto elevato. Ci aspettiamo questo quando le reti
formano connessioni naturali. Andare a rappresentare il grado così o il grado normalizzato
non cambia nulla, la forma è la stessa. Ho tante informazioni per valori bassi di grado e
poche osservazioni per alto grado. L’unica cosa che si modifica è la scala delle x ovvero la
frequenza dividerò per 0 a 0,1 rispetto a 0 a 50).
 Closeness: avrò politici che interagiscono tra loro, non ci aspettiamo che tutti i politici
interagiscono con tutti gli altri. Calcolo quindi:
- La densità è la frazione di archi che osservo su tutti quelli possibili, è una misura relativa e
osservo in questa rete solo 8% di tutte le possibili connessioni. Es. ha senso perché tutti
quelli della lega non interagiscono con tutti quelli del PD. Se ho densità molto elevata (tutti
sono connessi con tutti) dovrei vederla anche nei gradi e in questo caso non sarebbe power
law, dovrebbe avere il picco a 0,90 rispetto a 0,50.
- Diametro: andando a prendere le persone più lontane queste hanno una distanza pari a 5,
sebbene abbiamo una rete molto sparsa (8% di connessioni) abbiamo evidenza della teoria
del mondo molto piccolo, i deputati hanno una rete sociale sparsa, pochi politici con tante
connessioni ma se voglio andare da uno all’altro ho pochi passaggi da effettuare.
 Shortest path: funzione calcola delle distanze in particolare i cammini più corti. Prende una
rete e un nodo e da dove voglio che parta la mia connessione, voglio che questo abbia un
valore predefinito. Contiene tutti i cammini più brevi per unire quel politico con tutti gli altri
possibili deputati della rete. Es. Civati passa per Ricciati e si arriva a Brignone. Per tutte le
possibili coppie, ovviamente i cammini avranno lunghezze/passaggi diversi.
 Possiamo anche partire da un nodo e arrivare ad un altro specifico calcolando il cammino
più breve. Calcolo la distanza geodesica della mia rete, mi calcola solo la lunghezza non il
cammino  calcola un vettore con tutti gli elementi Sij (i=Letta e j= tutti le possibili coppie
all’interno della rete).
In media quanti cammini devo fare per connettere due nodi all’interno della rete?
Calcoliamo la lunghezza media dei cammini. Otteniamo un valore pari a 2,17, in media devo
fare due passaggi per connettere due nodi.
 Sommo tutte le distanze tra le coppie (connetto tutti quanti) e prendo il reciproco
1/qualcosa e ottengo la Closeness. È una misura di centrality perché più è grande la
distanza più è minore la centralità. Considerando tutte le possibili distanze ottengo se il
nodo è centrale o meno. Sono informative se voglio vedere quanti passi fare, ma se voglio
calcolare in media quanto un nodo è centrale/ periferico devo normalizzarlo.
Otteniamo una misura, tramite istogramma, che ci dice che la rete ha pochi nodi sono
centralissimi, sulle code è piatta perché hanno tantissime connessioni e quindi ottengo un
valore di centralità molto elevato.
Abbiamo un valore basso di centralità significa essere distante da tutti. Ci aspettiamo in
questa rete perchè è vero che i nodi formano delle connessioni e ne abbiamo poche ma
siccome abbiamo un diametro basso e i passaggi da fare sono molto pochi; quindi, avrò una
distanza che in media non è molto elevata.
Poche connessioni con centralità bassa (poco connesso), mentre la maggior parte avrà
centralità alta (la maggior parte dei nodi sono molto vicini tra loro, ognuno fa connessioni
poche e furbe, passiamo da uno all’altro con numero di passaggi ridotto).
Il politico più estremo ha solo una connessione, il politico più connesso ha 344
connessioni. Il 25% dei politici ha un numero minore di connessioni di 19. Metà avranno un
grado inferiore e metà superiore. Ci fornisce un’indicazione di massima qual è la
distribuzione del grado. Prendiamo la mediana numero di connessione pari a 40 metà
nodi ne avrà di meno e metà ne avrà di più. Centralità di 0,46.
 Betweeness: Prevede il rapporto tra tutti gli shortest path che connettono ogni nodo, più in
versione normalizzata. Es. mi concentro su Merlo, prendo tutti i cammini che connettono
tutti gli altri ovvero le coppie di tutti i nodi, vedo i cammini più brevi e vedo quanti di questi
passano da Merlo e vado a sommarli. In termini normalizzati è pari al 18% di quella
massima. Se chiunque per connettersi al altri deve passare solo da me, avrà un grado alto,
una closeness elevata ma non è detto che la betweenees sia elevata. Perché in automatico
tiene conto anche di quello che fanno gli altri che potrebbero essere collegati anche senza
di me. Facciamo una somma che coinvolge tutte le coppie di altri politici, non importa solo
se ho tante connessioni ma per connettere gli altri bisogna passare da me. Il nodo ha una
betweenees pari al 20%. Il 50% dei nodi ha un valore minore di 18 che normalizzato è
0,0003. La distribuzione è molto asimmetrica su scala originale e anche su scala
normalizzata. Quasi tutti i nostri nodi hanno una betweenees elevata e ce ne sono alcuni
che sono centralissimi. Andiamo a vede quali sono questi nodi:
Quanto è il valore massimo è 0,18 e chi è quella con valore più alto? Nissoli.
Politici più centrali rispetto a questioni di connessioni. È molto probabile che si passi
per Nissoli, questa ha anche una posizione centrale.
 Giacchetti fa una connessione in meno rispetto a Scalfarotto ma ha una centralità
più alta perché ha una betweenees elevata che dipende da cosa fanno gli altri.
Basso ha 60 connessioni in più rispetto a Garavini. La betweenees molto più bassa
a Basso rispetto a Garavini che ha un valore più elevato, quindi tanti non vogliono
firmare un decreto con Basso ma preferiscono firmarli passando per Garavini.
 Modularità e assortatività: Funzione che prende come input un grafo e una quantità che mi
fornisce l’appartenenza al gruppo. Es. Divisione gruppo: sessoCalcolo connessioni
deputati uomini e donne e quante tra gruppi e calcolo l’assortatività. Ottengo 0,06 che è
molto bassa e non c’è per genere. Il modo in cui i politici decidono di firmare decreti è
indipendente dal genere femminile o maschile dei deputati. Assortatività bassa mi dice che
non c’è omofilia per genere.
Non divido più la rete in due gruppi (maschi e femmine) ma la divido in 10 gruppi dei
parlamentari (forza italia, lega, pd). Qui ottengo un valore molto elevato 0,54 che risulta
elevato e mi dice che c’è omofilia per gruppo politico. Il modo in cui si formano le
connessioni è molto più trascinato dall’appartenenza di gruppi politici. È molto probabile
che si formino connessioni tra gruppo politico che tra gruppi diversi. I gruppi vanno ad
indicare quali solo le comunità definite in base alle connessioni.
 In generale come posso utilizzare solo le connessioni per avere gruppi ragionevoli. Queste
connessioni possono essere spiegate per gruppo politico mi dicono altro? Mi permettono di
trovare dei gruppi in base alle connessioni di rete.
RIASSUNTO: Se c’è omofilia i nodi tendono a connettersi con altri nodi simili e ci aspettiamo che ci
siano più connessioni. La modularità mi aiuta a trovare questa quantità. La possibile divisione in
gruppi la sappiamo e in particolare ci viene da una variabile qualitativa/un attributo che abbiamo a
livello di nodo. Es. gruppifemmine e maschi. La valutazione in gruppi che abbiamo fatto non è
tanto la creazione del gruppo, ma la covariata/gruppo l’abbiamo già e abbiamo un’altra matrice
con una serie di informazioni (sesso, squadra). Utilizzo i gruppi dati dalle covariate (variabili
esogene che qualcuno mi fornisce), questi attributi saranno alcuni quantitative e qualitative
(discrete) e quelle qualitative mi definiscono la popolazione e quindi il gruppo in base alle modalità
della variabile. Qualsiasi variabile qualitativa mi da una divisione del gruppo. Ho una rete e le info
date e le unisco, questo mi dice qualcosa di interessante per la rete? Applico la modularità e
assortatività. Es. politico: c’è omofilia all’interno del partito politico ma non c’è per sesso/genere.

Community Detection
 Ma questi gruppi di nodi, come li abbiamo trovati?
 Possiamo usare delle informazioni esterne, e valutare se ci danno una struttura ragionevole
(valutare se c’`e omofilia rispetto a certe caratteristiche)
 Più interessante è cercare di stimare tali quantità partendo dai dati
Obiettivo: Dividere la rete in comunità di nodi, in modo che nodi all’interno di ogni comunità
abbiano molte connessioni tra loro, mentre nodi in comunità diverse siano poco connessi
 Esistono vari approcci:
- Metodo di Louvain: (Ottimizzazione della modularità)
- Modelli a blocchi stocastici: (Approccio di clustering modellistico)
- Metodi spettrali: (Basati sugli autovettori)
- E altri

Ora capiamo se la rete ci fornisce già una divisione in gruppi, non vogliamo utilizzare le
informazioni sui nodi della nostra rete. La facciamo per due motivazioni:
- Non riusciamo ad avere tutte le informazioni e scarichiamo solo la rete. Sappiamo che la
rete è sociale e avrà dei gruppi e li cerchiamo con dei metodi. Es. componenti principali.
Voglio avere una rappresentazione più piccola
- Noi possiamo comunque avere la rete di politici divisa in gruppi, ma alcuni gruppi
potrebbero essere più coesi rispetto a quello che mi dicono le variabili esplicative. Se vado
a vedere la rete può essere che ci siano coalizioni un po' diverse che possono collaborare
tra loro.
Ci sono dei gruppi che si formano non sulle informazioni direttamente disponibili ma sulle
connessioni. Approccio basato sui dati che mi forniscono strutture più interessanti, quali sono i
clienti che stanno insieme non sulla base delle variabili esplicative ma sulle connessioni. Vogliamo
che i nostri dati dica quali sono le comunità (quante, dove e chi sta nel gruppo) utilizzando
solamente le info disponibili a livello di connessioni.

Come individuare le comunità?


Approccio ottimale: per enumerazione
1. Calcoliamo la modularità di tutte le possibili partizioni
2. K =1: {1, 2, 3, 4, 5}
K =2: {{1}, {2, 3, 4, 5}}, …
K =3: {{1}, {2}, {3, 4, 5} }...
K =4: {{1}, {2}, {3}, {4, 5}},...
K =5: {{1}, {2}, {3}, {4}, {5}}
3. Scelgo il raggruppamento che porta alla modularità
maggiore
Applicabile sono con V molto ridotto (quanti sono tutti i possibili gruppi?)
Numero di Bell: bastano V = 12 nodi per superare 1 milione di possibili raggruppamenti (non
banali)

Ho una funzione di perdita e una di guadagno che è funzione di dati e parametri. Se questa
perdita è bassa il modello va bene e viceversa. Se guadagno alto va bene e viceversa.
Es. minimi quadrati, traccio una retta vado a vedere gli errori, faccio il quadrato e li sommo, tra
tutte le possibili rette vado a prendere la minor somma del numero di scarti. Anche nella
regressione logistica vado a prendere quella con il maggior guadagno possibile.
Ora la funzione di perdita e guadagno sarà la modularità perché prende la rete (dati osservati)
prende una divisione in gruppi, unisce queste informazioni e mi dice se queste divisioni hanno
senso oppure no. Abbiamo due gruppi, li dividiamo e capiamo se è interessante questa divisione.
La modularità è una funzione di guadagno che possiamo massimizza, per valutare se la divisione in
gruppi è buona o meno. Es. partito politico (alta), uomini e donne (bassa)  è la divisione più
interessante, la prima è quella che spiega meglio il modello. Modularità MAGGIORE PARTIZIONI.
Questo approccio si chiama per ENUMERAZIONE. È concettualmente la cosa migliore che posso
fare: Voglio avere una divisione in gruppi, prendo i due estremi:
- K=1identifico un solo gruppo e tutti quelli associati sono uguali tra loro (minimo
numero di gruppi).

- K=5 ognuno di noi non sta in gruppo con nessun altro, ognuno di noi
non è simile a nessuno (massimo numero di gruppi).
Ho tutte le possibili partizioni della divisione dei miei nodi. Il caso con due gruppi: posso fare 1 e
2345 oppure in altre modalità. Fisso il numero di gruppi massimo k e divido le mie osservazioni in
tutti i modi possibili. Tanti gruppi quanto sono i miei nodi è l’ultimo caso possibile, ogni nodo sta a
sé stesso.
Metodo per enumerazione: prendo tutte le partizioni e valuto quelle che vanno bene e quelle
che vanno male e si prende quella con modularità maggiore. Dal punto di vista pratico questo
metodo ha troppi possibili raggruppamenti e quindi fisicamente impossibile. Prendo il caso di due
gruppi e prendo tutte le possibili partizioni della rete in cui ho solo due gruppi e vado a calcolare
metodo per enumerazione. Voglio trovare qual è la miglior divisione in gruppi su tutti quante
possibili divisioni e prendo quella con modularità maggiore. Sarebbe la soluzione ottimale.

Quindi, che si fa?


- Metodi sub-ottimali, sempre basati sull’ottimizzazione della modularità (greedy)
- Algoritmi iterativi di natura aggregativa
Idea generale:
- Inizializza K = V, ogni nodo appartiene ad una comunità distinta
- Ad ogni step, alcuni nodi vengono assegnati a gruppi diversi sulla base di qualche funzione
di perdita
- Le comunità vuote vengono rimosse. Così facendo, il numero di gruppi può solo diminuire
al crescere delle iterazioni
- Ci si ferma quando la funzione di perdita (modularità) si stabilizza

Metodi sub ottimali basati sulla modularità (greedy), sviluppo una procedura che mi permette di
aumentare il valore di modularità ad ogni passaggio e non è detto che arrivi alla miglior soluzione
possibile. È un algoritmo interativi (soluzioni successive) ad ogni iterazione succede qualcosa. Ad
ogni passo mi permette di avere una soluzione che va sempre meglio. A seconda della funzione che
stiamo massimizzando l’algoritmo iterativo può o non può dare la migliore. Es. Minimi quadrati
algoritmo con funzione analitica, abbiamo una soluzione esplicita ovvero sappiamo che valore
fissare beta cappuccio per avere quel valore migliore. La media è un algoritmo con soluzione
analitica. Es. regressione logistica abbiamo un algoritmo iterativo, fa passi successivi per arrivare
alla soluzione migliore. La funzione da ottimizzare si comporta bene. È una funzione fatta con un
massimo che si comporta bene.
Il metodo che utilizziamo è un metodo di natura aggregativa. Quindi ad ogni passo si va ad
aggregare e avrò un numero di gruppi più piccolo di quelli che avevano nel passo precedente.
Idea generale: Partiamo da uno dei casi estremi, in particolare partiamo dal caso in cui ogni
nodo sta nella sua unità. Ad ogni passo decido che alcune comunità devono essere unite e formare
una comunità più grande. Devo farlo sulla base di una funzione che mi fornisce l’informazione se
va bene o male e questo è la modularità.

Metodo di Louvain
1. L’algoritmo è inizializzato allocando ogni nodo in una comunità diversa.
2. Per ogni nodo i si calcola il guadagno in modularità ΔQi:iCj ottenuto nello
spostare i dalla sua comunità a quella di ogni nodo j connesso ad i. (perché solo
quelli connessi?)
3. Il nodo i viene messo nella comunità con maggior incremento in modularità se
l’incremento è positivo. Altrimenti, i rimane nella sua comunità. Questo processo è
applicato in ripetizione e sequenzialmente a tutti i nodi fino a quando la modularità
non aumenta più.
4. Le comunità vengono raggruppate a formare una nuova rete (pesata e con self
loops) in cui le comunità sono i nuovi nodi e i nuovi pesi degli archi sono dati dal
numero totale di archi che connettono i nodi nelle due comunità. 5 Torna in 2. e
riapplica il procedimento alla nuova rete tra comunità.

Il metodo di Louvain è un metodo interattivo e agglomerativi che si basa sulla modularità: se
ottengo un guadagno nella modularità significa che l’agglomerazione in un passo (t) è migliore, in
aumento significa che va bene, ci si ferma quando va in perdita.
Partiamo quindi dal caso limite in cui ogni nodo appartiene alla sua comunità. K=V=5. Non è una
buona divisione. Non abbiamo connessioni tra nodi dello stesso tipo. Se ogni nodo sta nella sua
comunità tutte le connessioni avvengono tra nodi di comunità diverse.
K=V=5
K=4
Provo a fondere insieme delle comunità. In questo caso sappiamo che la modularità
ha un valore più alto e quindi per definizione questa divisione di gruppi è migliore
rispetto alla precedete.
Ad ogni passo calcolo il delta ovvero il guadagno e ha senso calcolarlo quando si
uniscono le comunità dove è sufficiente spostare un nodo nella comunità dove è
presenta almeno uno nodo al quale è connesso. Se ad ogni passo devo provare tutti i possibili
spostamenti, è la stessa cosa che otterrei con il metodo precedente di enumerazione e non
guadagnerei nulla.
La modularità ragiona solo su connessioni, gli spostamenti da effettuare si prende il nodo i-esimo e
spostarlo in una comunità con cui ha collegamento. Es. Se dovessi collegare 5 potrei farlo solo con
4.
Ho tante possibili opzioni e tra tutte vado a prendere quella con più elevata modularità perché
funzione di guadagno, lo inserisco nella comunità dove avrò un guadagno maggiore.
Quando la rete è grande mi riesce a ridurre in modo notevole il numero di passi che faccio,
abbiamo pochi nodi sui quali provare molti spostamenti (power law) e se ho tante connessioni ho
anche pochi passi.
Una caratteristica cruciale è che se ci fa guadagnare qualcosa rispetto alla funzione di perdita va
bene. Se si fa un possibile spostamento e ci fa guadagnare in modularità questo va bene. Di tutti i
possibili spostamenti del nodo i-esimo che sono pochi prendo quelli di guadagno migliore.
Questo tipo di procedura si ferma ad una certa quando non incrementa più la modularità e crea
una rete così:
G3
Introduce una rete pesata in questo modo, abbiamo tre comunità e ci costruiamo
una nuova rete fatta da tanti nodi quante sono le comunità. È pesata perché ho
più connessioni in una comunità rispetto all’altra.

G1 G2

Es. tra i nuovi nodi g1 e g2 ho connessione con peso 2. Tra g2 e g3 ho una connessione quindi con
peso 1. Anche all’interno dei gruppi se ci sono connessioni devo inserirle: g2 e g1 hanno 1
connessione.

2 1

G2

G1 G3

Parto da una rete normale binaria indiretta,


con 15 nodi (gruppi= osservazioni = ognuno
sta da solo) ogni nodo viene assegnato in
una comunità diversa g1, g2, g3provo a fare
tutti i possibili spostamenti tra nodi connessi,
finché la modularità aumenta ottengo una
struttura con delle comunità, possibili
gruppi da questo collasso e aggrego
creando nuovi nodi della rete, ogni comunità è un nodo. Tengo conto quindi che tra le diverse
comunità ci sono connessioni ma anche all’interno delle stesse comunità con pesi differenti per
entrambe.
Passo uno: parto da tutti nodi diversi, passo due trovo una suddivisione in modo sensato, passo tre
costruisco una nuova rete pesata e su cui posso ripartire da capo. Ad un certo punto non è più
possibile avere un guadagno in cui ho solo questi due collegamenti (unisco delle comunità blu
insieme ad azzurro e rosso insieme a verde). Quanti gruppi ho e quale nodo sta all’interno. Ad ogni
passo dell’algoritmo è una possibile divisione in gruppi, partizioni che ogni volta arriva alla migliore
rispetto a quella precedente. Essendo un metodo di natura iterativa non è detto che la soluzione
sia la migliore possibile, la divisione da una modularità più elevata ma dovremmo provare tutte le
possibili combinazioni all’interno della rete per la migliore ma è un prezzo che non siamo disposti a
pagare. Metodo Louvain > Metodo per enumerazione.

Louvain, riassumendo
- Ad oggi il metodo più popolare, implementato in diversi pacchetti in modo efficiente e
funziona su reti enormi
- L’utilizzo della modularità presenta importanti vantaggi interpretativi e computazionali
- Di natura greedy, ogni step dipende dai precedenti (ordine dei nodi?)
- Il numero di comunità (nodi) decresce con il numero di iterazioni
- La natura sequenziale dell’algoritmo permette di scegliere anche configurazioni precedenti
a quella finale
Potremmo essere interessati ad una configurazione a modularità minore, ma più
interpretabile
Ogni passo porta ad un massimo locale
Per definizioni abbiamo un output dove il passo iniziale ho tanti gruppi quante le osservazioni,
passo due ho solo 4 gruppi suddivisi in quel modo al passo tre e ottengo un’unione delle comunità.
Prendi l’ultimo passo quello con modularità più grande, ma può essere che dal punto di vista
interpretativo sia migliore se da un passo all’altro aumenta di pochissimo.

Rappresentazione grafica
- In ambito di analisi di reti sociali, lo strumento di rappresentazione grafica è ampiamente
utilizzato
- Una buona visualizzazione dei dati è fondamentale per estrarre informazione in modo
concreo
- Questo vale in particolar modo per i dati di rete (esempio della metropolitana)
- Alcuni accorgimenti “standard”
Dimensione e forma dei nodi
Colore dei nodi (comunità, covariate) o degli archi

La rappresentazione grafica evidenza dove sono le connessioni. La voglio che mi fornisca più
informazioni possibili.
Es. Circle plot: Rappresentazione di nodi in modo uniforme e sequenziale, e rappresentiamo le
connessioni. Questo non ci fornisce informazioni sulle comunità e connessioni.
Es.
grafico che ci piace perché mi fornisce
tutte le proprietà utili: ho comunità, ho nodi più connessi di
altri, posso capire quali sono i nodi con grado più elevato. 34 ha
molte connessioni. Questa rappresentazione è un po' più sensata
e mi permette di evidenziare le connessioni e le diverse
informazioni.

- Individuare una posizione spaziale dei nodi (e quindi


una rappresentazione grafica della rete in due dimensioni) che sia informativa, e,
ragionevole, non è semplice
Come possiamo impostare il problema?
- Rappresentazione grafica = riduzione della dimensionalità
- Rappresentare i nodi in 2 dimensioni: ottenere, per ogni nodo, delle coordinate xi = (xi1,
xi2), i = 1,...,V
- Tali posizioni devono riflettere proprietà della struttura di connessione
- Ad esempio, vogliamo che gruppi di nodi molto connessi tra loro siano vicini

X1 X2

Nodo 1 X11 X12

Nodo 2 X21 X22


Partiamo dalla rete con diversi nodi: per ognuno di questi
vogliamo avere le coordinate ovvero due numeri (x, y). Voglio avere delle coordinate spaziali per
ogni nodo della rete che vengono chiamate (xi1, xi2), con i=1,…,v. Per ogni nodo i voglio delle
coordinate (xi1, xi2). Voglio arrivare ad una rappresentazione grafica (diagramma cartesiano) dove
sono rappresentati i nodi in modo opportuno, ovvero identificare la dimensione spaziale. Partiamo
dalla rete e vogliamo trasformarla in una matrice che ci dice per ogni nodo la sua posizione
spaziale (coordinate). Questa procedura va fatta in modo sensato: costruiamo la matrice X.
Connessione alta, nodi vicini e viceversa.

RIASSUNTO: Abbiamo introdotto statistiche descrittive che ci permettono di dire qualcosa sulla
nostra rete e ci dicevano se la divisione in gruppi è buona o cattiva, se sono interessanti ovvero se
hanno tante connessioni interne e poche tra gruppi diversi si guarda la modularità. Guardo solo
le connessioni e voglio vedere la divisione in gruppi, vogliamo valutare se sono interessanti rispetto
alla rete. Si fa un tipo di analisi che ci permette di capire se c’è o meno omofilia. Riesco a
raccontare qualcosa di più dettagliato non solo guardando le informazioni esogene, ma guardando
alla rete e alle connessioni capisco se ci sono delle divisioni in gruppi. Ci sono diversi metodi:
- Il primo metodo per enumerazione ed è quello migliore ma potenzialmente troppo costoso,
diverse combinazioni, elenca tutti i possibili raggruppamenti che si possono fare (che sono
troppi) calcolo modularità e si prende quello con la massima. Utilizzato in reti piccole.
- Il secondo metodo non ottimale funziona sempre e ci fornisce un ottimo candidato anche se non
il migliore e non arrivo al massimo globale della funzione.
Non vi è un raggruppamento con modularità più grande del metodo per enumerazione, ma
scegliamo quello che potenzialmente si avvicina. Utilizziamo altri metodi, che ci permette di avere
un massimo locale o una soluzione ragionevole. In particolare, la soluzione migliore è quella con il
metodo di Louvain: algoritmo per identificare cluster su reti, metodo agglomerativo ovvero
partiamo con ogni nodo che proviamo ad unire in comunità spostandoli in modo oculato ossia
andando a fare spostamenti su nodi con delle connessioni, calcolo la modularità e se guadagno
allora è l’ultimo spostamento che faccio. Ci sarà una partizione con sempre meno gruppi, il numero
di gruppi decresce al crescere delle iterazioni e al crescere di queste aumenta anche la modularità.
In seguito, dopo aver provato a fare gli spostamenti, le comunità si collassano in modo che
diventino dei nuovi nodi di rete. Sarà una rete pesata, in cui le connessioni tra una comunità e
l’altra hanno dei pesi che riflettono quante connessioni ci sono tra i diversi nodi e ci dice anche
quante connessioni ci sono all’interno della comunità. Ci si ferma nel raggruppamento quando non
posso più fare spostamenti e non mi permette più di guadagnare in modularità.
Rappresentazione grafica: Dal momento in cui si rappresenta la rete graficamente si trova una
coordinata del punto da rappresentare. Dal punto di vista operativo significa fare una
rappresentazione a bassa dimensionalità: partiamo da una rete (insieme di nodi o matrice di
adiacenza) e vogliamo trasformarla in una matrice X su cui ad ogni i è associato ad un nodo
trasformo in coordinate/posizioni dei nodi: Xi1 e Xi2.
Per poter dire qualcosa di interessante, deve avere alcune proprietà: devo guardare la matrice di
connessioni e la rappresentazione grafica del tipo cerchio uniforme semplice non tiene conto di
come sono le connessioni tra i nodi (anche se presenti le connessioni), il punto cruciale è che il
modo in cui i nodi sono disposti non tiene conto che ci sono delle connessioni, dove ci valorizza i
nodi più connessi, dove sono le comunità…. Le posizioni rappresentate dei nodi nello spazio non
tengono presenti le connessioni.
L’ultimo grafico invece tiene conto di tutto questo, voglio che le connessioni siano esaltate e tenute
conto nella rappresentazione grafica. Si utilizza quindi lo Scaling Multidimensionale.
Scaling multidimensionale
- Diversi metodi di riduzione della dimensionalità cercano di preservare qualche proprietà
dei dati originali (PCA: varianza).
- Lo scaling multidimensionale (Multidimensional Scaling) è un metodo di riduzione di
dimensionalità che preserva le dissimilirità
- Formalizzato negli anni 60 (psicologia) come metodologia per rappresentare le unità
statistiche partendo da delle matrici di distanze (dimensioni latenti)
In ambito di reti sociali
- Abbiamo visto che la distanza naturale, in ambito di reti, è quella geodesica.
- Vogliamo che tali distanze siano preservate il più possibile: punti con bassa distanza
geodesica collocati in posizioni contigue, e viceversa

Scaling multidimensionale e PCA sono metodi che cercano di avere una rappresentazione più
compatta dei dati. In particolare, le componenti principali partono da una matrice X di dimensione
(nxp) che si trasforma in Z di dimensione (nxk), dove k<p. Bastano un po' meno di variabili per
spiegare bene i dati, ci permette di avere delle medie che cercano di massimizzare la varianza,
quindi misurato in termini di variabilità.
Nel caso dello scaling fa sempre lo stesso si ottiene una matrice con minori dati, ma come
differenza principale invece che preservare la varianza va a preservare la dissimilarità (qualsiasi
misura che dice quanto simili o meno solo le osservazioni). Voglio costruire una dimensione dei
dati più compatta che mi preservi una relazione di questo tipo: se i punti sono molto simili ai dati
originali voglio che siano simili anche nella matrice Z e viceversa.
Tutte le possibili coppie di città vado a misurare la distanza in giorni. Il problema è che, in questo
tipo di rappresentazioni, la cartina non era sempre presente. Queste informazioni sono
rappresentate da una matrice di dissimilarità (quanto dissimili sono le mie unità) due città molto
vicine, osservo un tempo piccolo. Quindi la misura è piccola quando sono molto simili e viceversa.
L’idea è che partendo da informazioni della
matrice di dissimilarità/distanza riesco a
costruire una cartina ovvero ottenere un
sistema di coordinate di posizione delle città.
Il tipo di rappresentazione che faccio voglio
che mi preservi maggiori dati della matrice di
dissimilarità. Da un punto di vista
geometrico: si può misurare in km, risulta
comunque una misura di dissimilarità.
All’interno della mappa è la distanza euclidea
= distanza in linea d’aria. Si vuole che tutte le
distanze tra coppie di tutti i punti all’interno della cartina siano il più vicino possibile a quelli che
osservati.

- Ricordiamo che sij è la distanza geodesica tra il nodo i e j (lunghezza del cammino più
breve)
- Le coordinate xi = (xi1, xi2) che vogliamo trovare sono punti in uno spazio Euclideo
- Possiamo calcolare la distanza Euclidea tra tutte le coppie di coordinate
|xi xj|| = ( (xi1- xj1)^2 + (xi2 - xj2)^2 )^1/2
- E trovare X = {xi}V i=1 che minimizza gli scarti quadrati tra le distanze geodetiche
(osservate) e le distanze tra le coordinate che vogliamo trovare
- Lo scaling multidimensionale corrisponde alla soluzione del problema:
n i
ar gmi n ∑ ❑ ∑ [ si j−‖x i−x J‖]
2

i=2 j=1

- La funzione di perdita viene definita stress

Nelle reti devo fare qualcosa in più, abbiamo detto che si parte dalla matrice di dissimilarità
(piccoli= simili, grandi= dissimili). In questo caso abbiamo già la matrice che ha questa
informazione ed è quella delle distanze (S). Per ogni elemento ij, contiene la distanza tra nodo i e
nodo j. Voglio trovare le coordinate/rappresentare i punti in modo tale che la distanza euclidea (tra
i punti) sia il più simile possibile e che preservi il più possibile la dissimilarità rappresentata dalla
matrice di distanza: se ho punti molto lontani il valore che osservo nella matrice di distanza sia
elevato e viceversa.
Si parte dalla matrice S: ho una rete ed è semplice avere la distanza tra coppia di nodi, questa
misura di dissimilarità mi dice la distanza ma non mi permette di rappresentarla graficamente
quindi trasformo in un insieme di coordinate. La distanza tra nodo i e nodo j vado a calcolare la
distanza euclidea: formula ci dice quanto sono distanti i due punti.

Disegno due punti (xi1, xj1) e (xi2, xj2) calcoliamo la distanza euclidea del segmento
√ ( x j2− xi1 ) +( x j1−x j 2 ) =√ dist ( xi , xj ) =Sij
2 2 2

X2
2

1 3

dist(1,3)=s13=2

X1
x 1 2
Matrice S = 1 x 1 con V=3
2 1 x
S13=2
Rappresento dei punti dello spazio in modo che la distanza tra i punti (segmento) sia il più vicino
possibile alla distanza tra nodo i e nodo j che risulta essere inserito nella matrice Sij= distanza
geodetica. Abbiamo la matrice Sij v=3, che abbiamo per tutte le coppie, calcoliamo i gradi di
separazione all’interno della matrice. Per ogni coppia di nodi ho la distanza, quanti cammini devo
percorrere. Voglio avere una rappresentazione in cui i miei punti hanno delle coordinate con una
distanza euclidea per ogni coppia di nodi. La distanza che ho tra nodo i e nodo j nella matrice sia
simile/uguale alla distanza euclidea tra coppie.
Ho una rete, calcolo la matrice delle distanze (calcola quanti ponti devo attraversare per
connettere tutte le coppie di nodi della rete), ma voglio fare un’altra cosa ovvero rappresentare in
un grafico con delle coordinate che mi indica la distanza euclidea (distanza segmento). Entrambe
devono essere proporzionali e simili tra loro. Abbiamo Sij e dobbiamo trovare tutte le distanze
euclidee delle coppie, quanto è lungo questo segmento. Questo risulta lungo se la distanza è
elevata e viceversa.
Scaling multidimensionale - risultato
n i
ar gmi n ∑ ❑ ∑ [ si j−‖x i−x J‖]
2

i=2 j=1

- Necessario imporre dei vincoli, invarianze rispetto a traslazioni e rotazioni (e.g. media nulla)
- Si può dimostrare che la soluzione è analitica e funzione degli autovettori ed autovalori di S,
la matrice di distanze (che è una matrice semi-definita positiva)
- Ricorda l’analisi delle componenti principali (SVD, minimizza norma di Frobenius)
- Se xi ha dimensione V, allora è possibile ricostruire esattamente le distanze.
- Nel nostro caso avremo sij = circa simile a ||xi - xj||
Come facevamo per i minimi quadrati: parto da matrice di distanza Sij e vado a controllare i gradi
di separazione tra nodo i e nodo j, questi nodi li rappresento graficamente con coordinate e nella
cartina e posso calcolare le distanze euclidee tra tutte le coppie e di queste quantità prendo gli
scarti al quadrato, questa deve essere il più vicina possibile rispetto alla distanza di ponti/gradi di
separazione. Ho la distanza - la stima della distanza: deve essere il più possibile piccola. Si chiama
stress la funzione di perdita.

MDS - commenti
Pro
- Semplice, soluzione analitica (quindi anche rapido?)
- Esteso direttamente ad altre distanze/dissimilarità (devono rispettare
alcuni vincoli molto generali)
Contro
- Richiede sempre una matrice (V ⇥ V), densa anche in caso di reti
sparse
- Attenzione in caso di grafi disconnessi! sij = 1
- In alcuni casi tende a collocare i vertici “troppo vicini” tra loro (e.g. 34/33 nella figura
precedente), complicando l’analisi grafica
Una rappresentazione grafica di quel tipo però crea un problema perché la distanza risulta
uguale (es. 2 KM) anche per diverse città. Es Padova e Milano = distanza di Amburgo e Berlino.
Devo quindi inserire dei vincoli come nel caso delle componenti principali. In questo problema
abbiamo una soluzione analitica ovvero possiamo scriverla esplicita. Es. nel caso dei minimi
quadrati B cappuccio= cov(x,y)/var(x), abbiamo un problema di minimizzazione lo scriviamo in
forma analitica. Nel caso del metodo di Louvain questo non si può fare, perché metodo iterativo.
Qui ci permette di scrivere X= qualcosa S come facevamo per le PCA. È in funzione degli autovettori
ed autovalori di S.
Vogliamo due coordinate per ogni nodo. Si può fare vedere che se ne prendiamo tante quante
sono i nostri nodi, riusciamo a costruire esattamente con i dati originali. Ci va bene sbagliarne un
po' con scarti piccoli. Le posizioni dei miei nodi riflettono quali sono le strutture di connessione.
Preservando le distanze tendo a sovrapporre dal punto di vista grafico i nodi. Vado a
rappresentarli in modo troppo vicino e non ci piace perché difficile da leggere.
è un limite quando abbiamo una distanza pari a infinito lo scaling multidimensionale non può
essere direttamente calcolato.
Per scrivere la matrice di distanze S è densa/piena e ha dentro molti numeri. Ha un’ampia
gamma di valori. Questo non succede con la matrice di adiacenza perché aveva solo 1 o 0
altrimenti. Es. 100 nodi con matrice di adiacenza posso salvare meno elementi, mentre per le
distanze devo salvare tutti i valori.

Algoritmi di Force-Directed Placements


- Diversi algoritmi sviluppati nei primi anni 90 prendendo in prestito concetti di fisica.
- Definiscono le posizioni dei nodi utilizzando solo le informazioni sugli archi nella rete,
cercando la configurazione a massima stabilità energetica
- I nodi sono visti come particelle in un sistema fisico con una certa energia che risulta da due
principali forze che agiscono su ogni nodo.
Forza repulsiva, ricorda la forza elettrostatica ed agisce su tutti i nodi e genera più energia
tanto più i nodi sono vicini.
Forza attrattiva: ricorda la forza della molla agisce solo su nodi connessi e genera più
energia tanto più i nodi sono lontani.
- I due metodi più popolari sono:
 Fruchterman-Reingold (FR), comunemente
utilizzato
Kamada-Kawai (KK), utilizza anche la distanza
geodesica (più simile a MDS)

Voglio avere un metodo che mi faccia una rappresentazione grafica che tenga conto delle
distanze. Voglio una valutazione che mi racconta qualcosa delle connessioni ma che passa per le
distanze, utilizza la matrice delle distanze.
Immagino che i nodi siano delle particelle all’interno di un sistema.
Su queste agiscono due tipi di forze:
- Forza repulsiva/ forza elettrostatica, ho due cariche dello stesso segno se vado ad avvinarle
troppo fanno come le calamite. Quantità con la stessa carica. Non basta perché ho una situazione
in cui nessuna vuole stare vicina ad un’altra
- Forza attrattiva: agisce solo su nodi connessi, come se fosse un elastico, più i nodi sono lontani,
più la forza è potente. Ogni nodo ha una carica e queste due forze sono in contrasto. Dal momento
che sono lontani ho una forza che tende a farmeli andare vicino.
Le forze in questo caso si bilanciano. Mi fornisce una configurazione stabile. Sono due tipi di
algoritmi.

Algoritmi Force Directed - commenti


Pro
- Risultati molto buoni nella maggior parte dei casi (default)
- Algoritmi iterativi, permettono di valutare la configurazione corrente ad ogni step
(aggiungere nodi)
- Molto popolari per dashboard / grafici interattivi
Contro
- Dipendono da una certa configurazione iniziale, che in alcuni casi può variare in modo
consistente il risultato finale
- Possono incorrere in minimi locali
- Per reti molto grandi, computazionalmente onerosi (ma esistono implementazioni
efficienti)

Estensioni
- Non sempre è necessario calcolare le repulsioni / attrazioni per tutte le coppie di nodi.
Quelli molto lontani non ci interessano!
- Alcuni metodi utilizzano questa strategia per fornire implementazioni diverse con V grande
- Esistono rappresentazioni in 3 dimensioni, ma i risultati non sono molto soddisfacenti,
difficile rendere la prospettiva
- Possibile combinare rappresentazione grafica e stima di comunità, ad esempio con k-medie
sulle posizioni
- Metodi model based (modelli a spazi latenti), che combinano la riduzione della
dimensionalità alla stima di gruppi di nodi
COSA SAPERE
Modello di regressione lineare: cap 11,12,13slide. Modello che lega una variabile esplicativa ad
una variabile risposta. Nel caso più complicato lega più variabili esplicative ad una risposta.
Abbiamo una ricerca che non possiamo controllare, vogliamo vedere come varia la risposta al
variare di quelle di controllo. X= controllo/indipendente, y= risposta/dipendente perché da x. Es.
finanziamento medio della compagnia erogava verso il cliente in funzione dell’anzianità. Ci
aspettiamo che ci sia una relazione di tipo crescente, più è fidelizzato più chiederà un alto
finanziamento. Al contrario un cliente appena entrato (anzianità bassa) chiederà un finanziamento
più piccolo. Si applica ad un’ampia gamma di problemi a seconda della domanda di ricerca.
Il ruolo delle variabili è diverso: il ruolo della esplicativa non ha lo stesso ruolo di quella di risposta.
Come la risposta varia in funzione delle esplicative!!! Questo dipende dalla domanda di ricerca che
determina in modo univoco, qual è la variabile risposta e quali sono le variabili esplicative. È un
modello statistico che è un’approssimazione della realtà, non ci aspettiamo che i nostri clienti
ragionino pensando che questo stia nella retta. Il modello avrà un errore. Ci aspettiamo che il
modello approssimato sia utile ma non ci aspettiamo che colga tutti gli individui singolarmente,
vogliamo capire se c’è una relazione. La relazione che posso assumere più semplice è y=
alfa+betaxmi impone una relazione determinata dai coefficienti. Alfa è una misura del valore di,
beta mi da una misura di quanto varia y quando x aumenta di 1. L’incremento è sempre pari a beta.
Queste rette sono tante e variando alfa e beta ho tutte le possibili rette che passano per il piano.
Con coefficiente angolare positivo pendenza positiva e viceversa se uguale a 0 piatta. Vogliamo
trovare la retta che ci racconta meglio i nostri dati. I valori di alfa e beta che ci fornisce la storia
migliore. Ci serve una funzione di perdita residui. La retta non passa per tutte le unità statistiche,
alcuni punti saranno più vicini e altri più lontani. Per ogni di questo vado a misurare la differenza
tra valore previsto e osservato= residuo. La somma dei quadrati dei residui è la più bassa possibile
= minimi quadrati. Ci sbagliamo, se abbiamo due modelli di regressioni possibili somma quadrati
residui più piccola. Per poter disegnare la retta nel grafico ci serve una stima dei parametri.
Queste quantità le ottengo con una soluzione analitica, vuol dire che posso scrivere alfa cappuccio
e beta cappuccio in funzione dei miei dati alfa = valore medio variabile risposta- valore medio
variabile x, beta = cov/var.
Ottengo la tabella con stime per coefficienti dove alfa e beta non sono più incognite  faccio
previsioni su cosa succede se x è diversa.
La parte inferenziale è quello per cui parto dal particolare e vogliamo generalizzare sulla funzione.
Voglio poter dire qualcosa su tutti i clienti sulla base di un campione. Fare inferenza significa fare
inferenza sui parametri qual è la variabilità associata alla stima dei coefficienti. Numerosità alta si
distribuisce come una gaussiana  costruisco intervalli di confidenza Es. con il 95% di confidenza il
valore sta tra 156 e 209. Ci permette di costruire un test  costruire statistica “t” è quella quantità
osservata che si costruisce andando a standardizzare i coefficienti. Se la nostra ipotesi nulla è vera
allora anni non serve, perché uguale a 0, ma l’intervallo di valori possibili ammette lo zero come
valore plausibile. La variabile anni non viene presa in considerazione. Se osservo un valore
coerente piccolo (-1 e 1) è un valore possibile, in valore assoluto è piccola. Se abbiamo 13 è un
valore molto estremo rispetto alla statistica test, significa che probabilmente l’ipotesi che sto
facendo è sbagliata.
Non c’è evidenza empirica per la mia ipotesi. P value è la probabilità di osservare un valore più
estremo di quanto osservato. Se è bassa  probabilità di valore statistica test >13 bassa.
Posso farlo per più variabili esplicative, si aggiungono i termini e abbiamo un modello con più
variabili congiuntamente. Il modello ci permette di misurare gli effetti della variabile esplicativa al
netto di altre. Se faccio solo statistiche descrittive non posso farlo.

Modello regressione logistica: Non ragiona più con delle variabili risposta di natura numerica ma
di natura binaria con solo due valori. Possiamo sempre codificare ogni variabile in modo opportuno
con le dummy. Modalità pari a 1 e le altre sono 0. La variabile risposta sarà sempre quantitativa, le
variabili esplicative possono essere entrambe. Nel caso di variabili qualitative l’effetto sarà solo su
alfa, nel caso di variabili quantitative avrà un effetto sulla pendenza. Il successo è la modalità a cui
assegniamo il valore 1. Es. abbandono e non abbandono. Il logaritmo delle quote = logit. È il
rapporto delle probabilità di successo e insuccesso. Quanto più grande o più piccola è la
probabilità di successo o insuccesso. Ci permette di rimuovere il vincolo a 0 con il logaritmo.
Queste scale sono legate tra loro quota log quote  probabilità. In base ad ognuna di queste
si può calcolare uno passando dall’altro. Il modello di regressione logistica è lineare nella scala del
logit. Mi trovo delle rette con beta e alfa. Se invece vado a valutarla nella scala della quota
prendendo l’esponenziale, effetto moltiplicativo delle quote. Nella scala delle probabilità dico che il
modello ha effetto non lineare sulla scala delle probabilità (forma a S). La probabilità vive tra 0 e 1
(grafico) ha un andamento diverso e se cambia la pendenza questa non è lineare.
Saper passare da una scala all’altra. La quota guardiamo un po' meno ma comunque anche qui si
può dire qualcosa di interessante. Nella scala c’è effetto lineare e di tipo moltiplicativo. Le
previsioni che ottengo sono legate alla scala che per me è di interesse. Metodo che ci permette di
avere stime puntuali e intervalli di confidenza  espressi nella scala del logit. Ci permette così di
fare previsioni sulle diverse scale. La cosa importante es. logit 2,08x  calcolare previsioni per
valori diversi di x.  scala quote prendo esponenziale e ottengo la quota prendo la quota e
calcolo la probabilità = quota/1+quota.

Analisi delle componenti principali: Non abbiamo più la variabile risposta. In ambito di regressione
delle componenti principali, abbiamo delle variabili esplicative quantitative che vogliamo trovare
una rappresentazione più compatta. Vogliamo prenderne un po' meno combinandole in modo
opportuno. Riduzione dimensionalità facendo medie pesate (valori positivi o negativi) a seconda
del fatto che una certa variabile abbia una relazione crescente o decrescente. Es. media pesata
degli esami pesi positivi e negativi.
Il metodo delle componenti principali crea combinazioni che ci permetto di mantenere la massima
varianza/devianza. C’è tanta informazione, vogliamo sintetizzarla e voglia perderne molto poca. Le
variabili Z vale che una spiega un po' un’altra spiega un po' di più e così via. Grafico: varianza
residua, prima+ seconda+ terza+ quarta mi rimane solo poco per caratterizzare quasi tutta la
variabilità dei dati. Massimizzano la varianza all’interno delle componenti. I loadings vengono
ottenuti in modo analitico. Pesi negativi: ruolo di ridurre il valore della componente, più è grande
più la variabile è importante per definire la componente. La soluzione è funzione di una
scomposizione matriciale.
Osservo il numero di chiamate/ quanti abbonamenti ho sottoscritto e utilizzando le info riesco a
derivare una misura di fedeltà del cliente. Faccio una media in modo che le variabili hanno un peso
diverso, calcolo un nuovo indicatore che mi misura la fedeltà del cliente di cui posso osserva solo
alcune informazioni.

Analisi di rete: Definizione di rete, abbiamo delle unità statistiche di soggetti siamo interessati a
misurare se sussistono delle relazioni tra individui. Questo viene fatto tramite la rete, le relazioni
possono essere di varia natura. È cruciale capire che tipo di relazione mi interessa e una volta
definito riesco a caratterizzare in modo opportuno. Queste relazioni possono essere di natura
diretta (FB) o indiretta (Instagram). Prima scelgo l’oggetto e poi il modo in cui lo misuro. Può essere
anche binaria (presenza o assenza relazione) e pesata (c’è un peso nella relazione tra i nodi).
Abbiamo costruito la rete, nodi e connessioni. Voglio dire qualcosa:
Distanza geodetica  lunghezza del cammino più breve che connette due nodi. Sono quanti ponti
devo percorrere per congiungere due nodi. La lunghezza del cammino o shortest path è una misura
di distanza più breve, sono interessato a prendere quelli corti nel più breve tempo possibile. Nel
caso delle reti i cammini più brevi possono essere molteplici di efficienza uguale. Dopo aver
calcolato la misura di separazione (1 grado, 2 gradi.) di distanza è opportuno per caratterizzare
proprietà nella rete.Costruiamo una matrice S  distanza tra nodo i e nodo j. È simmetrica come
quella di adiacenza se la rete è indiretta.

Misuro la distanza tra i nodi e li descrivo in modo opportuno con delle statistiche descrittive:
- A livello di nodo: quante connessioni ha, quanto è distante dagli altri e quanto è vicino.
Grado, centralità e betweennes. Queste prime due tengono conto di ogni singolo nodo in
relazione agli altri. L’ultima tiene conto anche di tutti gli altri nodi = rapporto di tutte le
coppie di nodi. Quanto è centrale rispetto agli altri.
- A livello di rete: globalmente guardando quello che succede sulla struttura riesco a dire
qualcosa in quanto gruppo: densità (quante connessioni ho osservato sul totale, ci
aspettiamo che siano poche, calcolo il grado di ogni nodo e calcolo una media vogliamo
che sia power law – esponenziale- poche persone importanti che tanti seguono), lunghezza
media dei cammini (in media quanto sono connessi o la lunghezza del cammino più lungo)
e diametro (lunghezza massima del cammino più lungo).

Analisi di rete: la comunità è data da una valutazione del raggruppamento. I nodi della rete
formano per omofilia dei gruppi in modo naturale. I gruppi di nodi sono attirati da condizioni
esogene (interessi diversi). Vogliamo avere informazioni se c’è o meno omofilia rispetto quella
caratteristica: ci serve la modularità rapporta frazione di archi dello stesso tipo con quello sotto
indipendenza di relazioni casuali. Può essere normalizzata per calcolare l’assortatività. Questi
ragionamenti prendono come dato il fatto che abbiamo una divisione tra gruppi e vogliamo quindi
identificare quali sono i gruppi sulla base delle osservazioni, osservo la rete e guardo se ci sono dei
gruppi. Questi metodi sono basati sulla modularità (funzione di guadagno).
1- Metodo ottimale per enumerazione  provo tutte le possibili divisioni per
raggruppamento prendo quello con modularità più alta, ma costa tanto
2- Metodo di Louvain: mi permette di avere una soluzione non mi migliore ma ottimale. Va
a fare spostamenti tra nodi tra loro connessi e va a calcolare la modularità. Ad ogni
passo ne avrò sempre meno. Quando non posso più fare spostamenti mi fermo quando
non ho più guadagni in modularità, questo va a costruire una rete pesata e si riparte da
capo.
è fondamentale avere delle coordinate perché ho bisogno di una rappresentazione grafica, la più
semplice è a cerchio ma non evidenzia le cose più importanti. Quello che ci serve sono metodi
basati sui nodi rappresentandole
Scaling multidimensionale: parte dalla matrice S distanze e fa in modo che la posizione dei nodi
rispetti la distanza dei cammini. Al contrario se i punti sono lontani hanno molti gradi di
separazione. Lo scarto tra distanze geodetica tra nodi e tra coordinate al quadrato sia più piccola
possibile
I metodi che utilizziamo più frequentemente sono quelli degli algoritmi, vede la rete come una
particella con una carica uguali che tende a spararle via, ma nodi connessi sono legati da una molla
che tende a riavvicinarli.

Potrebbero piacerti anche