Sei sulla pagina 1di 6

Misurare, Monitorare e Governare le città con i Big Data

Sandro Stancampiano1
1Istat – stancamp@istat.it

Abstract
Several new data sources are investigated in the production process of official statistics. This paper describes the
results of the analysis of online reviews about four points of interest in Rome, Italy. The reviews, collected from
the web using web scraping techniques, was written by tourists and visitors during the 2017. The general aim of
this research is to extract useful information to help public servants and citizens in decision-making processes.
Within the activities related to this study were automatically collected and stored in a Data Base 9227 documents
(each document is a review) used to build the corpora. The paper intends to classify the reviews and qualify the
sentiment of the texts using tools and techniques of text mining.

Abstract
Numerose nuove fonti di dati vengono analizzate nel processo di produzione delle statistiche ufficiali. Questo
documento descrive i risultati dell'analisi delle recensioni online su quattro punti di interesse della città di Roma,
in Italia. Le recensioni, raccolte con tecniche di web scraping e data wrangling, sono state scritte da turisti e
visitatori nel corso del 2017. Lo scopo generale di questa ricerca è di estrarre informazioni a supporto dei
processi decisionali sia dei dipendenti pubblici sia dei cittadini. Tra le attività correlate a questo studio sono stati
raccolti e archiviati automaticamente in una base di dati 9227 commenti utilizzati per creare un corpora
analizzato utilizzando strumenti e tecniche di text mining. Il documento intende classificare le recensioni e
qualificare il sentimento dei testi.

Keywords: big data, Internet as data source, text mining, cluster analysis, web scraping.

1. Introduzione
Questo progetto si propone di indagare soluzioni relative all’uso dei Big Data per produrre
statistiche ufficiali a supporto della pubblica amministrazione. L’Istat ha incluso questo tema,
condiviso a livello europeo, nel Piano triennale della ricerca tematica e metodologica1. L’Istat
sta considerando la possibilità di utilizzare i Big Data nel processo di produzione dei dati, in
modo da attenuare il trade-off tra tempestività e accuratezza (Alleva, 2016).

2. Background della ricerca


Questo lavoro si focalizza sul tema della gestione dei beni culturali, indagando mediante
tecniche esplorative multivariate (Bolasco, 2014) fonti dati non convenzionali. Si vogliono
mostrare le enormi potenzialità dei dati presenti sul web per produrre statistiche al fine di
ottimizzare i processi decisionali.

Il risultato della ricerca potrà essere di ausilio agli amministratori nella gestione dei servizi
dedicati ai fruitori dei beni culturali presenti sul territorio. L’esperimento, che si concretizza in
un progetto pilota replicabile ed estendibile su ampia scala, utilizza l’analisi testuale (text
mining) per estrarre informazioni da dati scaricati dal web mediante tecniche di web scraping.


1 https://www.istat.it/it/files/2011/07/Piano-strategico-2017-2019.pdf (pp.27-28)

JADT 2018 : 14es Journées internationales d’Analyse statistique des Données Textuelles
2! SANDRO STANCAMPIANO

Si vogliono scoprire regolarità nei testi esaminati utilizzando la cluster analysis (analisi dei
gruppi). Questa tecnica, applicata attraverso il software IRaMuTeQ, consente di definire la
distanza tra gli oggetti che si vogliono classificare (Ceron et al., 2013).

3. Obiettivo e ipotesi di ricerca


Tra i molti siti web utilizzati dagli utenti per produrre contenuti, è stato scelto Tripadvisor.
Gli utenti registrati utilizzano il sito per scrivere le loro recensioni sui luoghi in cui si sono
recati condividendo le loro esperienze (Iezzi e Mastrangelo, 2012). Sono state scelte quattro
tra le più celebri attrazioni della città di Roma frequentate quotidianamente da numerosi
turisti (Colosseo, Pantheon, Fontana di Trevi e Piazza Navona).

Il Colosseo con oltre sei milioni di visitatori ha determinato, anche per il 2016, l'incremento
degli incassi garantiti dai musei italiani2 e la supremazia della regione Lazio in questa
graduatoria.

Molti visitatori lasciano valutazioni relative ai luoghi aggiungendo considerazioni sullo stato
di conservazione dei beni, sui servizi e i disservizi che hanno notato. Si ritiene che
analizzando questi commenti, sia possibile dedurre preziose informazioni. 

L’analisi ha permesso di ottenere una classificazione gerarchica delle recensioni basata sui
termini caratterizzati da un utilizzo superiore alla media con riferimento alla variabile
monumento.

4. Corpus e metodo
I commenti sono stati raccolti in una base dati mediante l’applicativo Diogene 3: progettato
con il paradigma OOA/D e realizzato con metodologia agile (Larman, 2005). Utilizzando lo
stesso software è stato creato il corpus delle recensioni.

Le 9227 recensioni raccolte, pubblicate dal 1 gennaio al 31 dicembre 2017, sono così
suddivise: Colosseo 3483 (37.8%), Piazza Navona 1020 (11%), Fontana di Trevi 2829
(30.6%) e Pantheon 1895 (20.5%). 

Si è proceduto in prima istanza con l’analisi lessicale ricavando informazioni utili alla
successiva analisi testuale volta a localizzare unità di testo di rilevo per gli obiettivi del
presente studio (Bolasco, 2013). L’analisi ha permesso di individuare gruppi di parole
omogenei al loro interno ed eterogenei tra loro riguardo ai “concetti” espressi nelle recensioni.

Il corpus analizzato è composto da 9227 testi, 1788819 occorrenze, 11891 forme, 366 hapax
di cui il 3.08% relativi alle forme e lo 0.02% relativi alle occorrenze e media 193.87.

La ricchezza lessicale del corpus è molto bassa4 (V/N*100 = 0.66%), difatti a fronte di un
testo ampio si riscontra un vocabolario ridotto. 

Osservando le 30 forme attive con la frequenza assoluta maggiore, notiamo come il
linguaggio utilizzato privilegi i sostantivi e gli aggettivi rispetto ai verbi. Gli aggettivi
esprimono positività (bello, bellissima, grande) e i sostantivi sono legati alla fruizione dei
beni oggetto di studio (monumento, piazza, visita, luogo, consiglio, interno) così come i verbi
(visitare, fare, vedere, dire, entrare, trovare).


2 http://www.beniculturali.it/mibac/export/MiBAC/sito-MiBAC/Contenuti/MibacUnif/Comunicati/

visualizza_asset.html_892096923.html

3 Diogene è un software sviluppato in java per effettuare processi di data wrangling.

4 Il calcolo è stato effettuato applicando la formula RL=V/N dove V = ampiezza del vocabolario e N = numero
totale di parole nel testo.

JADT 2018 : 14es Journées internationales d’Analyse statistique des Données Textuelles
MISURARE, MONITORARE E GOVERNARE LE CITTÀ CON I BIG DATA

5. Gli scriventi e le recensioni


I dati relativi ai giorni della settimana in cui è stata scritta la recensione, evidenziano la
tendenza degli utenti a mettere nero su bianco i dettagli delle loro esperienze nei giorni
centrali della settimana, con una predilezione per i mercoledì (vedi Figura 5.1).


Figura 5.1: Numero di recensioni per giorno della settimana (gennaio - dicembre 2017)

Figura 5.2: Numero di recensioni per mese (gennaio - dicembre 2017)


Le persone durante i fine settimana si dedicano alle visite dei beni culturali e preferiscono
descrivere quanto visto e vissuto martedì, mercoledì e giovedì. 

Nel periodo oggetto di studio le recensioni relative alle quattro piazze sono state in media 741
al mese con un minimo di 572 a giugno e un massimo di 1129 a gennaio. 


JADT 2018 : 14es Journées internationales d’Analyse statistique des Données Textuelles
4! SANDRO STANCAMPIANO

Dalla Figura 5.2 risulta che i primi mesi dell’anno, da gennaio ad aprile, sono quelli in cui si
concentra il maggior numero di recensioni (oltre il 42% del totale)


6. Cluster Analysis
La cluster analysis ci consente di raggruppare le unità statistiche massimizzando coesione e
omogeneità delle parole incluse in ciascun gruppo e minimizzando al tempo stesso il legame
logico tra quelle assegnate a gruppi/classi differenti.


Figura 6.1: Dendrogramma delle classi secondo similarità


Il dendrogramma (Figura 6.1) mostra la divisione del corpus in 4 classi. Le parole contenute
in ciascuna classe permettono di individuare le tipologie di argomenti trattati nel corpus,
applicando la metodologia Alceste proposta da Reinert e implementata nel software
IRaMuTeQ5 . 

In Figura 6.2 osserviamo le parole appartenenti ai quattro gruppi e come si dispongono sul
piano fattoriale. Questa visualizzazione chiarisce meglio il significato delle classi individuate.

Il gruppo di parole in rosso (65.4%), che si concentrano intorno all’origine, è composto dai
termini più utilizzati: trasversali a tutto il corpus e di conseguenza a tutti e quattro i beni
esaminati. Si tratta di parole tema come roma, simbolo, monumento, città, storia, dei verbi
visitare, vedere, tornare, dire e di sostantivi e aggettivi come bello, emozione, luce, bellezza
che esprimono positività e azioni legate alla visita. 


5IRaMuTeQ è un software realizzato per effettuare analisi multidimensionali di testi che fornisce una interfaccia
grafica a R, altro software di elaborazione dati particolarmente efficiente per l’analisi di grandi dataset.

JADT 2018 : 14es Journées internationales d’Analyse statistique des Données Textuelles
MISURARE, MONITORARE E GOVERNARE LE CITTÀ CON I BIG DATA !5

Figura 6.2: La disposizione delle parole sul piano fattoriale


La classe 2, in verde (10.9%), rappresenta i commenti pubblicati da persone che sono attente a
quello che accade nei luoghi e considerano prioritaria la sicurezza, la legalità e la qualità dei
servizi che trovano.

Si distinguono parole come venditore, abusivo, presenza, peccato, fastidioso, ordine,
municipale, polizia, fischietto. Ci sono inoltre parecchi riferimenti alle attività commerciali
(bar, bancarella, locale, ristorante, gelateria, trattoria) con particolare riguardo a cosa si può
mangiare (aperitivo, pizza, granita, gelato, vino) e alle modalità di fruizione (tavolino, tavolo,
panchina). Questo gruppo di parole evidenzia considerazioni che non sono strettamente
correlate alla visita culturale ma piuttosto a tutto quello che ruota intorno a una escursione
turistica.

La classe 3, in celeste (12.7%), rappresenta tematiche connesse ad aspetti economici e pratici
che in alcuni casi possono causare disagio durante la visita. Emergono parole come
acquistare, prenotare, saltare, fila, coda, interminabile, biglietto, pagare, guida, audioguida,
gratis, costo, euro, ticket.

Gli argomenti sottesi sono relativi al costo del biglietto, all'attesa per l’ingresso e alla
modalità della visita con connotazione sia positiva sia negativa a seconda della situazione

JADT 2012 : 11es Journées internationales d’Analyse statistique des Données Textuelles
6! SANDRO STANCAMPIANO

particolare descritta dall’utente.



La classe 4, in viola (11%), rappresenta coloro che descrivono e raccontano l’esperienza dal
punto di vista culturale citando eventi, luoghi e personaggi storici.

Le parole più utilizzate sono tomba, re, raffaello, sanzio, chiesa, colonna, fiume, barocco,
agone, agnese, borromini, savoia, papa, pagano, cristiano. Si tratta di riferimenti a luoghi di
culto e opere (Sant’Agnese in Agone, la fontana dei Quattro Fiumi, le tombe dei re custodite
nel Pantheon, ecc.), agli artisti che le hanno realizzate (Raffaello Sanzio e Borromini su tutti),
alla storia e al contesto sociale e culturale di pertinenza dei siti visitati.

La disposizione dei termini sul piano fattoriale, a prescindere dai gruppi, evidenzia il
continuum della visita, che inizia con la prenotazione, la biglietteria e il successivo acquisto
seguito dalla fila per entrare e dalla constatazione della bellezza del monumento per poi
visitare e immergersi negli aspetti artistici e nella storia del luogo in cui ci si trova.

7. Conclusioni e sviluppi futuri


Le tematiche palesate sono di sicuro interesse per gli amministratori pubblici, che possono
ascoltare direttamente dalla voce dei cittadini quali sono i principali problemi dal punto di
vista degli utenti. Sulla base di questo genere di analisi il decisore può valutare se e come
intervenire per migliorare la gestione dei luoghi e dei beni culturali.

Il flusso informativo parte dal cittadino che alla fine del processo può ottenere dei benefici
tangibili grazie ai dati che lui stesso ha immesso in rete. 

Il processo descritto in questo lavoro mostra un uso classico di Big Data: dati prodotti con una
finalità specifica vengono utilizzati successivamente per raggiungere altri obiettivi apportando
un innegabile valore aggiunto (Rudder, 2015).

Le tecniche di text mining applicate hanno permesso di valorizzare informazioni che
altrimenti sarebbero rimaste inutilizzate. 

Ulteriori e più approfondite analisi potranno essere condotte con la stessa metodologia e i
medesimi software adoperati in questo lavoro. Si potrà continuare il monitoraggio,
incrementando il corpus per condurre un’analisi longitudinale su questi stessi monumenti o
studiare altre città e altri beni culturali al fine di migliorare le politiche di gestione e
ottimizzare i processi decisionali.
References
Alleva G. (2016). Più forza ai dati: un valore per il Paese. Relazione di apertura della 12° conferenza
nazionale di statistica.
Bolasco S. (2014). Analisi Multidimensionale dei dati. Metodi, strategie e criteri d’interpretazione.
Carocci editore.
Bolasco S. (2013). L’analisi automatica dei testi. Fare ricerca con il text mining. Carocci editore.
Ceron A., Curini L., Iacus S. M. (2014). Social Media e Sentiment Analysis. L’evoluzione dei fenomeni
sociali attraverso la Rete. Springer Italia.
Iezzi Domenica F., and Mastrangelo M. (2012). Il passaparola digitale nei forum di viaggio: mappe
esplorative per l’analisi dei contenuti. Rivista Italiana di Economia, Demografia e Statistica, 66
(3-4), pp. 143-150.
Larman C. (2005). Applicare UML e i Pattern. Analisi e progettazione orientata agli oggetti. Luca
Cabibbo (a cura di), Pearson Education Italia.
Rudder C. (2015). Dataclisma. Chi siamo quando pensiamo che nessuno ci stia guardando.
Mondadori.

JADT 2018 : 14es Journées internationales d’Analyse statistique des Données Textuelles

Potrebbero piacerti anche