Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Sandro Stancampiano1
1Istat – stancamp@istat.it
Abstract
Several new data sources are investigated in the production process of official statistics. This paper describes the
results of the analysis of online reviews about four points of interest in Rome, Italy. The reviews, collected from
the web using web scraping techniques, was written by tourists and visitors during the 2017. The general aim of
this research is to extract useful information to help public servants and citizens in decision-making processes.
Within the activities related to this study were automatically collected and stored in a Data Base 9227 documents
(each document is a review) used to build the corpora. The paper intends to classify the reviews and qualify the
sentiment of the texts using tools and techniques of text mining.
Abstract
Numerose nuove fonti di dati vengono analizzate nel processo di produzione delle statistiche ufficiali. Questo
documento descrive i risultati dell'analisi delle recensioni online su quattro punti di interesse della città di Roma,
in Italia. Le recensioni, raccolte con tecniche di web scraping e data wrangling, sono state scritte da turisti e
visitatori nel corso del 2017. Lo scopo generale di questa ricerca è di estrarre informazioni a supporto dei
processi decisionali sia dei dipendenti pubblici sia dei cittadini. Tra le attività correlate a questo studio sono stati
raccolti e archiviati automaticamente in una base di dati 9227 commenti utilizzati per creare un corpora
analizzato utilizzando strumenti e tecniche di text mining. Il documento intende classificare le recensioni e
qualificare il sentimento dei testi.
Keywords: big data, Internet as data source, text mining, cluster analysis, web scraping.
1. Introduzione
Questo progetto si propone di indagare soluzioni relative all’uso dei Big Data per produrre
statistiche ufficiali a supporto della pubblica amministrazione. L’Istat ha incluso questo tema,
condiviso a livello europeo, nel Piano triennale della ricerca tematica e metodologica1. L’Istat
sta considerando la possibilità di utilizzare i Big Data nel processo di produzione dei dati, in
modo da attenuare il trade-off tra tempestività e accuratezza (Alleva, 2016).
1 https://www.istat.it/it/files/2011/07/Piano-strategico-2017-2019.pdf (pp.27-28)
JADT 2018 : 14es Journées internationales d’Analyse statistique des Données Textuelles
2! SANDRO STANCAMPIANO
Si vogliono scoprire regolarità nei testi esaminati utilizzando la cluster analysis (analisi dei
gruppi). Questa tecnica, applicata attraverso il software IRaMuTeQ, consente di definire la
distanza tra gli oggetti che si vogliono classificare (Ceron et al., 2013).
4. Corpus e metodo
I commenti sono stati raccolti in una base dati mediante l’applicativo Diogene 3: progettato
con il paradigma OOA/D e realizzato con metodologia agile (Larman, 2005). Utilizzando lo
stesso software è stato creato il corpus delle recensioni.
Le 9227 recensioni raccolte, pubblicate dal 1 gennaio al 31 dicembre 2017, sono così
suddivise: Colosseo 3483 (37.8%), Piazza Navona 1020 (11%), Fontana di Trevi 2829
(30.6%) e Pantheon 1895 (20.5%).
Si è proceduto in prima istanza con l’analisi lessicale ricavando informazioni utili alla
successiva analisi testuale volta a localizzare unità di testo di rilevo per gli obiettivi del
presente studio (Bolasco, 2013). L’analisi ha permesso di individuare gruppi di parole
omogenei al loro interno ed eterogenei tra loro riguardo ai “concetti” espressi nelle recensioni.
Il corpus analizzato è composto da 9227 testi, 1788819 occorrenze, 11891 forme, 366 hapax
di cui il 3.08% relativi alle forme e lo 0.02% relativi alle occorrenze e media 193.87.
La ricchezza lessicale del corpus è molto bassa4 (V/N*100 = 0.66%), difatti a fronte di un
testo ampio si riscontra un vocabolario ridotto.
Osservando le 30 forme attive con la frequenza assoluta maggiore, notiamo come il
linguaggio utilizzato privilegi i sostantivi e gli aggettivi rispetto ai verbi. Gli aggettivi
esprimono positività (bello, bellissima, grande) e i sostantivi sono legati alla fruizione dei
beni oggetto di studio (monumento, piazza, visita, luogo, consiglio, interno) così come i verbi
(visitare, fare, vedere, dire, entrare, trovare).
2 http://www.beniculturali.it/mibac/export/MiBAC/sito-MiBAC/Contenuti/MibacUnif/Comunicati/
visualizza_asset.html_892096923.html
4 Il calcolo è stato effettuato applicando la formula RL=V/N dove V = ampiezza del vocabolario e N = numero
totale di parole nel testo.
JADT 2018 : 14es Journées internationales d’Analyse statistique des Données Textuelles
MISURARE, MONITORARE E GOVERNARE LE CITTÀ CON I BIG DATA
Figura 5.1: Numero di recensioni per giorno della settimana (gennaio - dicembre 2017)
Le persone durante i fine settimana si dedicano alle visite dei beni culturali e preferiscono
descrivere quanto visto e vissuto martedì, mercoledì e giovedì.
Nel periodo oggetto di studio le recensioni relative alle quattro piazze sono state in media 741
al mese con un minimo di 572 a giugno e un massimo di 1129 a gennaio.
JADT 2018 : 14es Journées internationales d’Analyse statistique des Données Textuelles
4! SANDRO STANCAMPIANO
Dalla Figura 5.2 risulta che i primi mesi dell’anno, da gennaio ad aprile, sono quelli in cui si
concentra il maggior numero di recensioni (oltre il 42% del totale)
6. Cluster Analysis
La cluster analysis ci consente di raggruppare le unità statistiche massimizzando coesione e
omogeneità delle parole incluse in ciascun gruppo e minimizzando al tempo stesso il legame
logico tra quelle assegnate a gruppi/classi differenti.
5IRaMuTeQ è un software realizzato per effettuare analisi multidimensionali di testi che fornisce una interfaccia
grafica a R, altro software di elaborazione dati particolarmente efficiente per l’analisi di grandi dataset.
JADT 2018 : 14es Journées internationales d’Analyse statistique des Données Textuelles
MISURARE, MONITORARE E GOVERNARE LE CITTÀ CON I BIG DATA !5
JADT 2012 : 11es Journées internationales d’Analyse statistique des Données Textuelles
6! SANDRO STANCAMPIANO
JADT 2018 : 14es Journées internationales d’Analyse statistique des Données Textuelles