Sei sulla pagina 1di 7

Matera 2019 Text Mining dei Social Network

Sandro Stancampiano1

Abstract La Commissione Europea ha proclamato Matera (unitamente a Plovdiv in


Bulgaria) Capitale Europea della Cultura per il 2019. Persone e luoghi sono centrali in
questa ricerca che riteniamo possa fornire informazioni utili al fine di migliorare la
gestione e la fruizione dei beni culturali per cittadini e turisti.

L'obiettivo del progetto presentato in questo documento è verificare l'ipotesi di poter
ottenere - direttamente dalla voce delle persone - un riscontro sui metodi di accoglienza e
sull'organizzazione della visita ai Sassi di Matera. Possiamo raggiungere questo obiettivo
monitorando i social network e raccogliendo resoconti di esperienze culturali. Per fare ciò
abbiamo creato un corpus di grandi dimensioni ottenuto da TripAdvisor e analizzato con
tecniche e metodi di text mining.

Parole chiave: Big Data, Text Mining, Cultural Heritage, Municipalities, Tourism.

Gruppo tematico: 27 Turismo e qualità della vita. 20 Big data e misura e monitoraggio della qualità
della vita.

1. Introduzione2

In questo lavoro intendiamo mostrare le potenzialità di internet, e in particolare dei social


network, come sorgente dati per la promozione del turismo e la gestione dei beni culturali.
Ci troviamo da circa un decennio nell’era dei Big Data e molti passi in avanti sono stati fatti
per decodificare i milioni di terabyte che popolano le autostrade digitali che ci circondano
[1]. Dobbiamo constatare però che, mentre siamo tutti produttori di dati (recensendo locali
e punti di interesse, scrivendo tweet, mettendo like sui post che ci piacciono, ecc.) non tutti
siamo consumatori di quegli stessi dati che, rielaborati mediante algoritmi sempre più
sofisticati diventano altro e sfuggono alla nostra comprensione e al nostro controllo [2].
Utilizzando i nostri smartphone seminiamo con grande generosità dati i cui frutti vengono
raccolti da chi possiede e conosce le tecnologie in grado di elaborare le tracce da noi
lasciate [3].

La statistica ufficiale ha già intrapreso il percorso che porta a fronteggiare le sfide poste
in essere dall’evoluzione delle tecnologie utilizzate quotidianamente dai cittadini [4,5].
Troppa informazione equivale a nessuna informazione se non mediata da una adeguata
conoscenza e consapevolezza da parte di chi può e deve trarne beneficio [6].


1 ISTAT, email: sandro.stancampiano@istat.it

2 Le opinioni espresse in questo contributo sono sotto la responsabilità dell’autore e non riflettono
necessariamente le politiche dell’ISTAT (Istituto Nazionale di Statistica).
2 Stancampiano S.

In questo esperimento applichiamo tecniche e metodi di text mining a un corpus di dati


composto da recensioni pubblicate su TripAdvisor1 e relative alla visita dei Sassi di Matera
per estrarre conoscenza, valutando i contenuti espressi dagli scriventi per mezzo dell’analisi
delle co-occorrenze. La metodologia di Content Analysis proposta consente di misurare
l’associazione tra le parole e verificare la presenza di informazioni utili al miglioramento
della fruibilità dei beni culturali [7].

La Commissione Europea ha proclamato nell’ottobre del 2014 Matera (e Plovdiv in
Bulgaria) Capitale Europea della Cultura per il 2019. La designazione è una grande
opportunità e una sfida: permette di riqualificare e valorizzare l’immagine della città, sia a
livello nazionale sia a livello internazionale, e di rilanciare il capoluogo lucano e la
Basilicata dal punto di vista turistico. Per la città lucana questo ha significato un
investimento complessivo di 48 milioni di euro tra fondi regionali, nazionali e privati allo
scopo di realizzare il programma culturale [8].

L’obiettivo del progetto presentato in questo documento è di verificare l’ipotesi di poter
ottenere - direttamente dalla voce delle persone - un riscontro riguardo alle modalità di
accoglienza e organizzazione della visita ai Sassi di Matera.

Il presente articolo è cosi suddiviso: nella sezione 2 viene descritto il framework teorico
di riferimento; nelle sezioni 3 e 4 vengono trattati rispettivamente i dati del corpus e i
principali risultati; infine ci si sofferma sulle prospettive future e le ulteriori applicazioni
possibili.

2. Framework teorico

Per esplorare il corpus e analizzare i contenuti è stata utilizzata la metodologia ALCESTE


(Analyse Lexicale para Context d’un Ensemble de Segments de Texte) - proposta da
Reinert - che ha consentito la divisione del corpus in segmenti di testo (o enunciati) e la
loro classificazione gerarchica [9]. 

La raccolta dei dati è stata effettuata utilizzando il software Diogene2 mentre la
successiva analisi è stata condotta con il software IRaMuTeQ3 . L’algoritmo implementato
in IRaMuTeQ permette l’esame statistico del testo sulla base delle co-occorrenze: sono
state prese in esame le parole piene (nomi, aggettivi, avverbi e verbi) che esprimono il
contenuto del discorso e questo ha consentito di individuare le tematiche principali trattate
dai visitatori nei loro resoconti spontanei [10].

Mediante la classificazione gerarchica discendente abbiamo ottenuto, a partire dalle
UCI (Unità di Contesto Iniziali), le UCE (Unità di Contesto Elementari) o segmenti di
testo. Ogni recensione rappresenta una UCI mentre i segmenti di testo creati in modo
automatizzato dal software sono l’unità di analisi e vengono classificati in tipi omogenei al
fine di scoprire le principali tematiche trattate nel corpus (11).

Sono state individuate 3 classi (ogni classe comprende un insieme di segmenti di testo)
e le relative parole più rappresentative ordinate sulla base del loro coefficiente di
associazione alla classe di appartenenza. Il coefficiente di associazione è il 𝛘2 a un grado di

1 TripAdvisor è una delle maggiori piattaforme utilizzate dagli utenti nel mondo per scambiare e condividere
informazioni turistiche.

2 Diogene è un software che consente di effettuare data wrangling, ovvero di scaricare dati dal web utilizzando
tecniche di scraping, di organizzarli in una base di dati e di creare corpus ad hoc per studi di Text Mining.

3 IRaMuTeQ è un software realizzato per effettuare analisi multidimensionali di testi che fornisce una interfaccia
grafica a R, altro software di elaborazione dati particolarmente efficiente per l’analisi di grandi dataset.
Matera 2019 Text Mining dei Social Network

libertà calcolato sulla tabella di contingenza che incrocia presenza/assenza della parola in
una UCE con l’appartenenza o meno di questa UCE alla classe considerata [12].
Dall’interpretazione dei segmenti di testo evidenziati nel dendrogramma è possibile
ottenere la rappresentazione delle tematiche trattate nel corpus. Coerentemente con
l’obiettivo di questo studio si perde il riferimento alle specifiche recensioni per accedere a
una visione più generale e statisticamente rilevante di quanto osservato dai visitatori.

3. Corpus

Sono state raccolte 2237 recensioni pubblicate su TripAdvisor tra gennaio 2018 e maggio 2019
relative alla visita dei Sassi di Matera. 

Abbiamo scelto TripAdvisor perché si tratta dello strumento di condivisione di esperienze e di
scambio di informazioni più utilizzato: ad oggi contiene 760 milioni di recensioni e opinioni che
riguardano oltre 8 milioni di sistemazioni, linee aeree, esperienze e ristoranti e può vantare una media
di visitatori unici mensile di 490 milioni. Si tratta di un punto di riferimento per turisti e viaggiatori di
molti paesi considerando che è disponibile in 28 lingue 1 . 

Le recensioni sono state suddivise in 2442 segmenti di testo, il numero delle forme è 4726 (types)
e 83155 sono le occorrenze (tokens). Il numero degli hapax è 2237 pari al 2,69% delle occorrenze e al
47,33% delle forme. Le forme attive sono 4211 di cui 1522 con una frequenza >= 3, la media delle
forme per segmento è 34,05. La ricchezza lessicale, calcolata come proporzione di parole diverse (il
vocabolario) sul totale delle occorrenze è 5,7% (V/N*100), di conseguenza il corpus raccolto è
statisticamente rilevante e può essere analizzato [13].

Il software ha proposto una divisione del corpus in 3 classi in cui sono stati classificati 1898
segmenti (77,72%). Si tratta di una percentuale di segmenti classificati accettabile per proseguire con
l’analisi del corpus e procedere con l’interpretazione dei risultati ottenuti [14].

4. Risultati

Le classi, come mostrato in Figura 1, suggeriscono una bipartizione del corpus in due subcorpus: il
primo è rappresentato dalla classe verde costituita dal 39,2% dei segmenti classificati (744/1898), il
secondo è a sua suddiviso in due sottoinsiemi; la classe rossa e la classe blu composte
rispettivamente dal 35,1% (667/1898) e dal 25,7% (487/1898) dei segmenti classificati
dall’algoritmo.

1 https://tripadvisor.mediaroom.com/us-about-us (Consultato il 27/06/2019)


4 Stancampiano S.

Figura 1: Dendrogramma delle parole più rappresentative

4.1 Cluster 2: orgoglio nazionale tra storia e letteratura

I segmenti di testo qui classificati testimoniano l’orgoglio delle persone di lingua


italiana, che contrappongono l’attuale riconoscimento a livello mondiale della città
di Matera al suo recente passato. Viene citata diverse volte la parola vergogna
facendo riferimento alla definizione “vergogna nazionale” data da Palmiro Togliatti
in occasione della sua visita a Matera, che è rimasta nella memoria delle persone
molto più viva rispetto all’analoga definizione “infamia nazionale” pronunciata da
Alcide De Gasperi. Entrambi i politici - come molti scrittori, sociologi e giornalisti
- si interessarono alle sorti di Matera alla fine degli anni 40; interesse suscitato
dall’opera di Carlo Levi “Cristo si è fermato a Eboli” pubblicata nel 1945. Anche
di questo testo troviamo traccia nelle recensioni qui prese in esame. In seguito al
clamore e all’intenso dibattito pubblico, successivo alla visita dei principali politici
dell’epoca, il governo De Gasperi nel 1952 promulgò la Legge Speciale n. 619 per
il risanamento dei Sassi. Le poche pagine dedicate da Carlo Levi alla vita che si
conduceva nelle case-grotta furono la molla che fece scattare un processo che, a
fasi alterne, ha condotto alla rinascita anche culturale della città e che prosegue fino
ai giorni nostri (Tabella 2).

4.2 Cluster 1: osservazione e ammirazione durante la giornata

In questo gruppo dominano le parole giorno, sera e notte, seguite da presepe,


panorama e belvedere. Prevale in questi enunciati l’aspetto romantico,
l’apprezzamento per l’atmosfera particolare che si vive durante la visita nei diversi
momenti della giornata. Troviamo in questa classe anche il riconoscimento per le
attività organizzate dalle associazioni culturali locali che hanno lavorato
intensamente per valorizzare il patrimonio storico e culturale della città. La strada
che ha portato alla nomina del 2014 a capitale della Europea della Cultura è
lastricata dalla consapevolezza e dalle iniziative degli abitanti di Matera, che in
molti casi sono stati protagonisti e hanno promosso la nascita di associazioni
Matera 2019 Text Mining dei Social Network

culturali. Il percorso di crescita della comunità locale iniziato negli anni 50 ha


prodotto notevoli risultati tra cui il riconoscimento dei Sassi come bene protetto
dall’UNESCO avvenuto nel 19931 (Tabella 1).


4.3 Cluster 1: ricerca dei servizi per comprendere la visita e consigli


pratici

Nel cluster 3, strettamente collegato al cluster 1 le parole più rappresentative sono


guida, visita, consiglio, tour unitamente ai verbi capire e accompagnare. Gli
enunciati selezionati ci esplicitano la volontà degli scriventi di comunicare a tutti la
necessità di effettuare la visita con l’ausilio di guide (preferibilmente del luogo) in
grado di far comprendere cosa si sta visitando e la storia di questi luoghi; si
sottolinea come visitando questa città senza l’ausilio di una guida sia difficile
cogliere il significato di quello che si osserva. Vediamo chiaramente come gli
aspetti storici e culturali evidenziati nel secondo cluster devono essere conosciuti
per poter apprezzare la visita. In questo gruppo di commenti notiamo inoltre parole
come scarpa e euro che nel contesto evidenziano la necessità di affrontare la visita
con calzature adeguate (“usate scarpe comode”) e di spendere anche qualcosa
(“soli 15 euro”, “80 euro spesi bene”) per “fare una visita guidata con una buona
guida locale” e “capire al meglio la storia e di conseguenza la bellezza dei
sassi” (Tabella 3).

Mozzafiato ogni volta che ci ritorno sembra la prima. Matera è stupenda sia
il giorno che la sera dove sembra un presepe, bisogna camminare molto ma
ne vale davvero la pena per il panorama mozzafiato che offre.
Indimenticabile esperienza unica e suggestiva quella di passeggiare tra i
sassi di Matera sia di giorno che di sera regalano emozioni mozzafiato. Una
esperienza indimenticabile è stata anche quella del presepe vivente
organizzato dalle varie associazioni del posto.
Vacanze natalizie a Matera, posto fantastico questi sassi di Matera abbiamo
alloggiato ai sassi caveosi a pochi metri dal duomo la vista è spettacolare sia
di giorno che di notte con scorci assolutamente affascinanti che
rappresentano un vero piacere. Scoprire passeggiando lentamente per le
strade una gita indimenticabile
Matera giorno e notte da visitare assolutamente sia di giorno che nella
fantastica atmosfera di sera sembra che camminando nei sassi ci perdiamo
ma in quattro e quattro otto siamo dalla parte opposta.
Incanto la citta di Matera è un meraviglioso labirinto di scale e vicoli ciechi
con case quasi a ridosso della gola che da sul torrente gravina. Bellissima di
giorno incantevole la notte vi consiglio vivamente di arrivare al belvedere di
murgia timone per avere una vista totale.

Tabella 1 - Cluster 1: UCE tipiche in ordine per somma 𝛘2 delle forme contrassegnate

1 wha.unesco.org/en/list/670 (Consultato il 27/06/2019)


6 Stancampiano S.

Sassi di Matera, Matera da vergogna d’italia a patrimonio unesco a capitale


europea della cultura 2019 una storia che ti lascia mozzafiato una storia che
rivivi camminando tra i sassi. Consiglio di leggere Cristo si è fermato ad
Eboli di Levi prima di visitare la città.
Straordinariamente meraviglioso visitare i sassi di Matera che giustamente
sono_stati riconosciuti patrimonio unesco è qualcosa di meraviglioso. Un
tuffo nel passato, i materani sapranno valutarli e rivalutarli in futuro a
partire dal 2019 anno nel quale Matera è capitale europea della cultura.
Un tuffo nel passato Matera è passata da essere la vergogna dell’Italia a
patrimonio dell’Unesco e nel 2019 sarà capitale della cultura, andate a
vederla e fate un giro turistico con la guida ce ne sono tante e a prezzi
contenuti non ve ne pentirete.
Il top della storia se si amano le città antiche con panorama mozzafiato ed a
misura d’uomo, la consiglio assolutamente poi è stata anche ufficialmente
proclamata capitale europea della cultura per il 2019 ed i sassi sono
patrimonio unesco.
Bellissima Matera da vergogna d’italia a patrimonio dell’Unesco e capitale
mondiale della cultura del 2019, ne vale davvero la pena e vi assicuro che
non ve ne pentirete consigliata da vedere assolutamente.

Tabella 2 − Cluster 2: UCE tipiche in ordine per somma 𝛘2 delle forme contrassegnate.

Incantevole Matera deliziosa cittadina da percorrere e ripercorrere in tutti i


vicoli scalinate discese e salite, consiglio appena arrivati di fare una visita
guidata con una buona guida locale, noi abbiamo fatto una visita solamente
in due con luigi, 80 euro spesi bene.
Visita interessante consigliata abbiamo fatto il giro con la guida dell’ufficio
informazioni, tour di circa due ore spiegazioni utili e interessanti per chi non
conosce la storia della città prezzo 15 a testa assolutamente consigliato.
Incantevole sapevamo che Matera fosse bella ma ha superato le nostre
aspettative, assolutamente da consigliare un tour guidato della città per
conoscerne la storia. Noi ne abbiamo fatto uno con l’agenzia che con 15
euro ci ha fatto fare giro di 2 ore con guida.
I sassi panorama da mozzare il fiato, visita guidata di circa 2 ore e mezza
che consiglio di fare in prima mattinata o tarda serata comunque sempre con
una guida.
Da vedere bellissima esperienza questo giro veloce tra i sassi. Centro ben
tenuto anche se la segnaletica turistica è scarsina forse perché tra piazza e
corso tutti vogliono venderti la visita guidata con guida autorizzata regione
basilicata, dopo un oretta diventano fastidiosi.

Tabella 3 − Cluster 3: UCE tipiche in ordine per somma 𝛘2 delle forme contrassegnate.

5. Conclusioni

La ricerca mostra come è possibile ottenere informazioni da risorse presenti sul


web; si tratta di dati testuali che senza un adeguato trattamento rimarrebbero
inutilizzati se non in maniera parziale e insufficiente.

La metodologia esposta è replicabile su larga scala e estensibile:
Matera 2019 Text Mining dei Social Network

riutilizzando gli stessi software si potrebbero sviluppare strumenti di analisi semi


automatica in grado di fornire indicazioni per migliorare i servizi esistenti e crearne
di nuovi [15].

Le possibilità e i campi di applicazione dello studio dei Big Data sono
molteplici, studiare i dati da punti di vista differenti offre prospettive di sicuro
interesse anche per il settore del turismo.

L’analisi proposta può essere applicata per un monitoraggio delle politiche
di gestione e di organizzazione di luoghi di interesse che necessitano di essere
sottoposti all’attenzione del decisore pubblico o privato al fine di verificare la
situazione attuale e, se necessario, intervenire per adeguare le politiche di
accoglienza di turisti e visitatori.

Riferimenti bibliografici

(1) Rezzani, A., (2013). Big Data. Architettura, tecnologie e metodi per l’utilizzo di
grandi basi di dati. Milano: Apogeo.
(2) Soro, A., (2016). Liberi e connessi. Milano: Codice Edizioni.
(3) Mayer-Schönberger, V., Yuckier K. N., (2013). Big Data. Una rivoluzione che
trasformerà il nostro modo di vivere e già minaccia la nostra libertà. Milano: Garzanti.
(4) Ceron, A., Curini, L., Iacus, S. M., (2014). Social Media e Sentiment Analysis.
L’evoluzione dei fenomeni sociali attraverso la Rete. Springer Italia.
(5) Daas, P., Roos, M., De Blois, C., Hoekstra, R., Ten Bosch, O., Ma, Y., (2010). New
Data Sources for Statistics: Experiences at Statistics Netherlands, Discussion Paper
no. 201109, Statistics Netherlands, The Hague, The Netherlands.
(6) Giovannini, E., (2014). Scegliere il futuro. Bologna: Il Mulino.
(7) Stancampiano, S., (2019). Gestire i beni culturali con i Big Data. In: Di Bella E.,
Maggino F., Trapani M. (a cura di), Libro degli abstract. AIQUAV 2018. Atti del V
Convegno dell’Associazione Italiana per gli studi sulla Qualità della Vita 13-15
Dicembre 2018. Fiesole (FI): Genova: University Press, pp. 114 - 116.
(8) Fondazione Matera Basilicata 2018, (2019). Presentato il programma culturale di
Matera 2019 - comunicato stampa del 20 Settembre 2018.
(9) Greco, F., (2014). Integrare la disabilità. Una metodologia interdisciplinare per leggere
il cambiamento culturale. Milano: FrancoAngeli.
(10) Bolasco, S., (2014). Analisi Multidimensionale dei dati. Metodi, strategie e criteri
d’interpretazione. Roma, Carocci
(11) De Souza, M.A.R., Wall, M.L., Thuler, A.C.M.C., Lowen, I.M.V., Peres, A.M. (2018).
The use of IRAMUTEQ software for data analysis in qualitative research. Rev Esc
E n f e r U S P. 2 0 1 8 ; 5 2 ; e 0 3 3 5 3 . D O I : h t t p : / / d x . d o i . o r g / 1 0 . 1 5 9 0 /
S1980-220X2017015003353
(12) Reinert, M., (1995). I mondi lessicali di un corpus di 304 racconti di incubi attraverso
il metodo “Alceste”. In: Cipriani R. e Bolasco S. (a cura di), Ricerca Qualitativa e
Computer. Teorie, metodi e applicazioni. Milano: FrancoAngeli, 203-223.
(13) Bolasco, S., (2013). L’analisi automatica dei testi. Roma: Carocci Editore.
(14) Camargo, B.V., Justo, A.M., (2018). Tutorial para o uso do software de análise textual
IRAMUTEQ. Universidade Federal de Santa Catarina.
(15) Stancampiano, S.,(2018). Misurare, monitorare e governare le città con i Big Data. In:
Iezzi D. F., Celardo L., Misuraca M. (a cura di), JADT’ 18. Proceedings of the 14th
International Conference on the Statistical Analysis of Textual Data. Roma:
UniversItalia, 748-754.

Potrebbero piacerti anche