Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Federico Ridolfi
A.A. 2014-15
Introduzione
Lo studio dei network permette di analizzare un numero elevato di dati legati
da relazioni topologiche alla ricerca di propriet`a emergenti. Uno dei modi
pi`
u naturali di applicare questa disciplina `e lanalisi di reti viarie urbane, per
analizzarne la stabilit`a a diversi livelli di carico, per individuare la presenza
di eventuali difetti nella progettazione delle stesse e, nel caso, per migliorarne
lefficienza.
In questo lavoro analizzeremo la rete di treni metropolitana di Londra
per caratterizzarne le propriet`a topologiche. Sar`a inoltre eseguita una simulazione dellattivit`a del network per analizzare la distribuzione stazionaria dei
passeggeri in transito nelle stazioni. Tale operazione permetter`a di mettere in
luce la presenza di eventuali punti di accumulazione dei passeggeri allinterno
della rete, permettendo quindi di identificare le stazioni sulle quali `e maggiormente necessario investire in termini di mobilit`a interna (ascensori, scale,
passaggi di servizio, ...) ed esterna (parcheggi, autobus, tram, ...).
Il network
La rete metropolitana di Londra `e formata da 306 stazioni distribuite su
quattordici linee. Sono considerati treni metropolitani tutti i treni con cui si
pu`o accedere con una Oyster Card valida per tutte le zone di Londra, quindi
sono inclusi anche treni leggeri che sconfinino larea metropolitana vera e
propria. Questi nodi sono interconnessi attraverso 410 links simmetrici. Il
grafo corrispondente `e quindi molto rarefatto (sono presenti circa il 4 per
mille dei nodi possibili). Ai fini delle elaborazioni sul network, si `e considerata la rete unica (e non composta da 14 sottoreti) e con link non pesati. La
prima approssimazione ha fatto s` che non si tenesse conto di eventuali cambi
di linea in un viaggio, unapprossimazione abbastanza forte ma che ha avuto
1
Connettivit`
a delle stazioni
Si definisce la connettivit`a di un nodo in un grafo non pesato come il numero
di connessioni che tale nodo presenta con gli altri nodi del grafo. Si dimostra
che questa definizione `e traducibile operativamente nel definire la connettivit`a del nodo i-esimo come la somma di tutti gli elementi della riga i-esima
della matrice di adiacenza. Tramite questa operazione `e possibile studiare
la distribuzione delle connettivit`a allinterno del network, come visibile in
figura.
Figure 3: Istogramma della distribuzione delle connettivit`a dei nodi del network
Le stazioni con grado di connessione 2 sono la maggioranza (219), e sono
quelle stazioni normali, ossia che non sono n`e capolinea, n`e intersezioni con
altre linee, come era naturale aspettarsi. Una minoranza di stazioni ricoprono
il ruolo di capolinea privi di incroci con altre linee (26), ed hanno grado di
connessione pari a 1. Le stazioni con connettivit`a > 2 sono tutti i punti in
cui convergono almeno due linee, e saranno chiamati hub nel seguito. Esse
costituiscono un quinto della rete (68 stazioni), delle quali la maggioranza
`e composta da hub a 3 e 4 connessioni rispettivamente. Solo due stazioni
hanno il massimo grado di connessione riscontrato sullintera rete, pari a 7,
e sono Baker Street e Kings Cross-St. Pancras.
Normalizzato listogramma si `e effettuato un fit dei dati per ricercare una
distribuzione compatibile con gli stessi. Sia il fit con una curva gaussiana che
4
quello con una legge di potenza hanno prodotto distribuzioni nelle quali il test
di Kolmogorov-Smirnoff ha fornito come risultato il rigetto dellipotesi nulla,
escludendo quindi i modelli di grafico random ( ErdosRenyi) ed il modello di
attaccamento preferenziale (BarabasiAlbert). Lunica distribuzione con la
quale le misure di connettivit`a erano compatibili entro un livello di confidenza
del 95% si `e rivelata essere una Log-Normale con = 3.016 , = 1.5518.
Questo risultato `e giustificabile ragionando su due caratteristiche di una
qualsiasi rete metropolitana:
non pu`o avere connessioni casuali per ovvie ragioni (si privilegiano collegamenti tra stazioni limitrofe, si tiene conto dei flussi di passeggeri e
della presenza di ostacoli alla connessione tra stazioni);
non pu`o avere pochi hub nei quali converga un numero molto elevato
di linee (ossia non pu`o seguire un attaccamento preferenziale); questo
comporterebbe uneccessiva fragilit`a della rete di trasporto e lassenza
di percorsi alternativi, oltre che un accumulo eccessivo di passeggeri in
ununica stazione con le conseguenti difficolt`a di ordine pubblico.
interessante per`o che tra le numerose distribuzioni quella compatibile
E
con il nostro caso sia proprio la log-normale: `e noto in letteratura come
tale distribuzione sia connessa intimamente con una distribuzione a legge di
potenza, e non `e una novit`a che dati in precedenza fittati con il secondo tipo
di curve siano in realt`a meglio rappresentati dalla prima classe (2 ). Anche
il nostro network a ben vedere, sebbene sia lontano da un modello di attaccamento preferenziale, presenta comunque pochi hub ai quali sono attaccati
interi rami del network rispetto alla totalit`a dei nodi (306); tuttavia molti di
questi rami riconnettono a loro volta diversi hub, allontanando quindi la rete
da un puro attaccamento preferenziale. Non `e per`o da escludere che se la
rete di stazioni potesse continuare ad espandersi aggiungendo nodi nel tempo
essa possa tendere verso un grafo alla Barabasi-Alberts.
http://www.eecs.harvard.edu/ michaelm/NEWWORK/postscripts/history.pdf
Acton Town
Bank
Barons Court
Bond Street
Camden Town
Charing Cross
Earls Court
Embankment
Green Park
Hatton Cross
Poplar
Chiswick Park
Turnham Green
Liverpool Street
Moorgate
Earls Court
West Kensington
Green Park
Oxford Circus
Euston
Mornington Crescent
Leicester Square
Picadilly Circus
Gloucester Road
High Street Kensington
Waterloo
Westminster
Oxford Circus
Picadilly Circus
Heathrow Terminals 1, 2 & 3 Heathrow Terminal 4
Westferry
West India Quay
Table 1: Cliques rilevate
e della gestione dei treni, cliques troppo grandi possono essere un problema dovuto sia al costo della creazione dei collegamenti tra le stazioni, sia
alleffettivo collocamento delle gallerie.
Lanalisi del grafo ha evidenziato la presenza di 11 cliques di dimensione
3, costituite dalle stazioni riportate in tabella 1.
Le cliques qui riportate interessano tutte zone centralissime della citt`a o
di grande importanza nel caso delle stazioni di Heathrow, esposte al massimo
flusso di utenti. Nonostante in precedenza si `e affermato che le dalla prospettiva economica le cliques sono un problema per la rete, lelevato traffico cui
le suddette stazioni sono esposte rende necessaria la sovraconnessione di cui
sopra, giustificando quindi linvestimento alla luce dei miglioramenti delle
condizioni di viaggio dei clienti e del calo del carico complessivo di passeggeri
delle stazioni coinvolte, che si ritrovano con maggiori alternative per raggiungere la loro destinazione. Inoltre cliques da tre nodi hanno un costo molto
inferiore rispetto a cliques di dimensioni maggiori.
Misure di centralit`
a
Sul network sono state eseguite misure di betweenness centrality e del coefficiente di clustering di ogni nodo.
Le misure di betweenness centrality hanno prodotto, una volta normalizzate rispetto al valore massimo, la distribuzione visibile in figura 4.
Come si pu`o osservare, la stragrande maggioranza delle stazioni hanno
una BC molto bassa, e sempre meno stazioni hanno BC pi`
u elevate. La massima BC `e registrata dalla stazione di Green Park che, come si pu`o osservare
in figura 5, si trova al centro di numerose linee pur essendo attraversata solo
da un numero esiguo delle stesse, rivestendo quindi un ruolo centrale nella
6
Simulazione
Come ultima cosa `e stata eseguita una simulazione di mobilit`a dei passeggeri
nella rete. Lobiettivo di questa simulazione `e andare a studiare la presenza
di eventuali pozzi o sorgenti di passeggeri (ossia la ricerca di nodi assorbenti
od emittenti allinterno del network) attraverso lo studio della distribuzione
stazionaria della popolazione delle stazioni a tempi lunghi.
La simulazione `e disabilitabile agendo sulla prima variabile dichiarata
allinterno dellintero programma: se simulation vale 0 (default) tale procedura non viene eseguita.
Per realizzare ci`o, si `e distribuito in modo casuale una popolazione iniziale
di un milione di individui allinterno delle stazioni. Ogni individuo ha una
probabilit`a di essere collocato nella i-esima stazione pari a pi = Pkikj , con
j
kn connettivit`a del nodo n-esimo; in questo modo sono favorite in termini di
popolazione iniziale le stazioni con alto grado di connessione.
Nel codice sorgente `e presente anche il codice da usare per muovere ogni persona in
modo individuale come codice commentato. A causa dellelevato numero di ore necessario
ad eseguire una singola run del programma, tale versione non `e stata mai eseguita fino in
fondo, ma si `e verificata la correttezza del codice nel caso si decida di adoperarla.
4
Sar`
a verificata in una delle prossime sezioni tale natura andando a studiare la sensibilit`
a della distribuzione stazionaria al cambio di condizioni iniziali.
10
potrebbero essere maggiormente servite da altri tipi di servizio pubblico). Il numero 20 `e stato scelto in maniera empirica per mantenere
il numero di attori in gioco costante o al pi`
u in lieve aumento nellarco
della giornata. La salita ad una data stazione descritta da questo paragrafo `e il meccanismo di aumento degli attori in gioco.
Si noti come gli ultimi due punti descrivano il modo in cui il sistema pu`o
variare la propria popolazione, rispettivamente diminuendola o aumentandola, rendendo quindi il sistema aperto. Nessuno dei due processi `e dipendente dallo stato del sistema, ma al pi`
u solo da sue caratteristiche morfologiche (il processo poissoniano che regola la comparsa di nuovi attori dipende
dalla connettivit`a della stazione interessata che non varia durante la simulazione). Questa caratteristica preserva quindi la Markovianit`a del problema.
Per conferire maggior dignit`a statistica ai dati, si sono eseguite 10 diverse run della simulazione in modo da ottenere valori medi e deviazioni
standard pi`
u consistenti. Ogni run `e costituita da 10000 time steps. Per
ogni run si `e salvata la popolazione di ogni singolo nodo, e al termine delle
run per ogni stazione si `e calcolata la popolazione media finale ed il relativo
errore, calcolato come deviazione standard delle relative 10 misure di popolazione. Si riporta nel seguito la popolazione finale delle stazioni ed il relativo
istogramma, che useremo per approssimare la distribuzione stazionaria dei
passeggeri nelle stazioni.
Sensibilit`
a della simulazione alle Condizioni Iniziali
La simulazione `e stata ripetuta andando a variare le condizioni iniziali,
applicando una permutazione sulle popolazioni al tempo 0 delle stazioni.
Sebbene le popolazioni registrate nelle singole stazioni (figura 11) siano diverse rispetto al caso originale (figura 9), la distribuzione stazionaria risultante con il nuovo set di popolazioni iniziali (figura 12) esibisce una notevole
similarit`a con quanto prodotto dalla prima simulazione (figura 10). Anche
il numero di attori che hanno transtitato per il sistema nel corso della simulazione `e praticamente identico ( 2,41 milioni di passeggeri).
Per quantificare questo risultato si `e eseguito un test di Kolmogorov
Smirnoff sulle versioni normalizzate a 1 degli istogrammi. Il test ha rigettato
entro un intervallo di confidenza del 95% lipotesi nulla di non compatibilit`a
tra le due distribuzioni stazionarie ottenute, confermando la natura Marko-
12
Figure 11: Popolazione finale media delle stazioni con diverse c.i.
viana del processo simulato. I processi Markoviani infatti sono caratterizzati
da una distribuzione stazionaria unica, determinata dalle caratteristiche del
processo ma non dalla configurazione iniziale del sistema (o, pi`
u in generale,
da qualunque configurazione precedente sufficientemente distante nel tempo).
Nota: Tutte le misure e le elaborazioni descritte nelle prossime sezioni
sono ottenute a partire dalla configurazione iniziale descritta nella sezione
Simulazione (figura 9).
Grado di connessione
Andando a graficare il grado di connessione in funzione della popolazione
delle stazioni (figura 11), si vede come laccordo tra le due misure sia praticamente perfetto, ad eccezion fatta per la stazione di Acton Town (unico punto
14
spiccatamente fuori dalla retta): i dati giacciono su una retta con bassissima
dispersione, con un coefficiente di correlazione lineare pari a 0,9985.
Betweenness Centrality
Analizzando il grafico in figura 12, si osserva come in questo caso la correlazione tra BC e popolazione dei nodi `e molto pi`
u blanda di quanto non sia
quella tra grado di connettivit`a e popolazione. Come si pu`o osservare, i punti
si distribuiscono in fasce con piccole fluttuazioni in termini di popolazione
ma notevoli per quanto riguarda la BC. Tuttavia si pu`o osservare come la
zona pi`
u densa, o in generale il punto medio, di ogni fascia di BC cresca al
salire della corrispondente popolazione.
Questa tendenza si riflette nel valore del coefficiente di correlazione lineare
15
BC e Grado di Connessione5
A causa delle analoghe conclusioni cui hanno condotto i due precedenti approcci, si `e valutata la correlazione tra BC e tra il grado di connessione dei
nodi. Anche in questo caso (figura 13) si `e trovata una corrispondenza di
tipo lineare sparsa, simile alla correlazione tra BC e popolazione, con un
coefficiente di correlazione lineare pari a 0,7257.
Il sorgente relativo a questa sezione `e allinterno delle elaborazioni inerenti alle misure
di centralit`
a
16
17
Conclusioni
In questo lavoro abbiamo analizzato uno dei principali network di treni suburbani del mondo, andandone a studiare la topologia e eseguendo su di esso
una simulazione della diffusione dei passeggeri al suo interno.
La caratterizzazione topologica ha evidenziato una particolare distribuzione
del grado di connessione dei nodi del network, una log-normale, diversa da
quella predetta dai due principali modelli nulli, ErdosRenyi (che prevede
una distribuzione gaussiana dei gradi di connessione) e BarabasiAlbert (che
invece prevede una legge di potenza). Tuttavia, a causa della connessione
tra log-normale e distribuzione a legge di potenza, il risultato da noi ottenuto porta a pensare che la rete metropolitana di Londra, sebbene presenti alcune importanti differenze dal modello ad attaccamento preferenziale
di BarabasiAlbert, non ne sia poi cos` dissimile e che, qualora vi si aggiungessero nuovi nodi, possa tendere ad un network appartenente a siffatta
categoria.
La ricerca di Cliques ha evidenziato la scarsa ridondanza a carattere locale
dei collegamenti (11 cliques da 3 nodi cadauna), che tuttavia non pregiudica
la ridondanza a carattere globale del network stesso, evidenziando quindi
lelevata efficenza della rete.
Le misure di centralit`a hanno evidenziato come la rete in oggetto sia caratterizzata da una notevole resistenza ad attacchi casuali a causa dellelevato
numero di stazioni a bassa Betweenness Centrality, e che possegga una ridondanza molto bassa: il Coefficiente di Clustering medio `e pari a 0.0322
18
Figure 18: Distribuzione Stazionaria con p = 0.1, due gruppi spostati per
volta
0.0079, e la maggior parte dei nodi con CC non nullo presentano valori di
tale parametro molto bassi.
La simulazione ha evidenziato come la rete sia in grado di mantenere la
popolazione relativa delle stazioni sotto controllo, evitando fenomeni di assorbimento dei passeggeri in zone limitate della rete. Una cosa interessante
`e che il numero di persone che hanno usufruito della metropolitana nel corso
di ogni singola run, 2400000, risulta compatibile con le stime fornite dalla
societ`a di trasporto pubblico londinese, che afferma che il numero di passeggeri che usufruiscano del servizio in una singola giornata sono dellordine dei
due milioni - due milioni e mezzo.
Il confronto tra i risultati della simulazione e le misure di centralit`a effettuate in precedenza permette di affermare che la popolazione delle stazioni
`e direttamente proporzionale al loro grado di connessione, e, sebbene in
maniera meno precisa, esiste una relazione di tipo lineare positiva anche tra
la betweenness centrality del nodo e la rispettiva popolazione a fine giornata.
In particolare, il primo risultato era atteso in base al modello di mobilit`a
adottato nella simulazione: stazioni ad alta connettivit`a hanno maggior probabilit`a di avere elevata popolazione iniziale, hanno maggior probabilit`a di
avere viaggiatori in ingresso ed hanno mediamente un numero nuovi viaggiatori maggiore (si ricordi che il parametro della poissoniana di ripopolazione
del sistema `e proporzionale alla connettivit`a della stazione).
La duplice corrispondenza tra la popolazione e le diverse misure di centralit`a trova una risonanza nella correlazione identificata tra BC dei nodi
e loro grado di connessione, che ha evidenziato come, sebbene una misura
non possa sostituire laltra, nel network in oggetto a parit`a di grado di con19
21