Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Facoltà di Ingegneria
Corso di Laurea MAGISTRALE in Ingegneria Informatica
Progetto:
Analisi dell’Espressività nella
Musica
Studenti: Professori:
Anuska Benacchio 601047 Prof. Sergio Canazza
Giuseppe Cassano 602102 Prof. Antonio Rodà
Francesco Locascio 604120
Nicolò Paganin 607267
Indice
1 Introduzione 2
3 Interfaccia 4
5 Features acustiche 5
7 Conclusioni 12
A Grafici MDS 14
B Kinestetic space 15
Bibliografia 17
1 Introduzione
Lo scopo del progetto era quello di analizzare le intenzioni espressive tra-
smesse da brani musicali in tonalità “maggiore”. Il progetto si è svolto sulla
falsa riga del progetto svolto nel 2005 da Bigand [2] e analizzato da Canazza,
De Poli, Rodà [1] nel 2010 per l’estrazione di tratti comuni fra il dominio mu-
sicale e quello fisico. Per far questo si sono fatte ascoltare a venti musicisti e a
3
venti non musicisti 23 brani selezionati. Lo scopo degli ascoltatori era quello
di raggruppare brani che avevano intenzioni espressive simili. I dati raccolti
sono stati analizzati creando una matrice di dissimilarità delle emozioni e
creando poi dei diagrammi MDS (multidimensional scaling) clusterizzati con
“K-means” in uno spazio 2−dimensionale (un esempio di spazio descritto in
letteratura è il Kinestetic space (app. B). Sono stati analizzati i dati ottenuti
dai non musicisti, dai musicisti e i dati totali mettendo assieme musicisti con
non musicisti.
3 Interfaccia
Per dare la possibilità agli utenti di ascoltare i brani e di creare i gruppi
in modo più semplice e intuitivo è stata realizzata un’interfaccia grafica in
PureData. L’interfaccia aveva anche lo scopo di rendere l’interazione con il
pc più agevole e di fornire un modo semplice per poter ascoltare i brani più
volte e poter classificarli.
Ciò di cui ci siamo accorti durante i test è che non è possibile creare i gruppi
tutti in un solo momento e ascoltando i brani una sola volta. E’ neccessario
infatti un primo ascolto dei brani e la creazione di alcuni gruppi temporanei.
Dopo essersi fatti un’idea generale dei gruppi gli utenti avevano quindi la
possibilità di riascoltare i brani un numero arbitrario di volte e di modificare
o convalidare i gruppi creati precedentemente.
L’interfaccia, oltretutto, al momento della sua apertura forniva i brani mu-
sicali ordinati casualmente, in modo che, ad ogni utente, venivano forniti i
brani in oridine diverso. Questo ha reso i test più attendibili, togliendo la
possibilità che i gruppi creati dagli utenti fossero influenzati dalla particolare
sequenza di ascolto. Riportiamo uno screeshot dell’interfaccia in fig.1.
Figura 1: Interfaccia
5 Features acustiche
Per poter relazionare le risposte degli utenti con le emozioni trasmesse dai
brani si sono calcolate le feature acustiche dei brani selezionati. Per il calcolo
automatico delle feature sono stati utilizzati script realizzati da Calzavara,
Salamone, Toso [3] nella parte iniziale di questo progetto. Le feature sono
state calcolate usando frame non sovrapposti di 46 ms di larghezza. Si sono
raccolte informazioni su undici feature. Le più importanti verranno spiegate
di seguito:
Tempo: misurato in bpm (beats per minute) indica la velocità della
performance. Dato che i brani selezionati sono caratterizzati da una
complessa struttura audio, il tempo è stato calcolato manualmente
da un esperto, sarebbe stato infatti difficile calcolarlo con strumenti
automatici;
6
Vengono di seguito riportati i dati delle feature che hanno discriminato i vari
gruppi. Come in [1] le feature sono state scelte valutando qualitativamente i
rispettivi valori.
7
(
A[ij] + 1 g(i) 6= g(j)
A[ij] =
A[ij] + 0 altrimenti
Riportiamo di seguito i grafici MDS con 3-cluster ottenuti dai dati di non mu-
sicisti (fig.2), musicisti (fig.3) e dai dati congiunti di musicisti e non musicisti
(fig.4). I nomi dei cluster sono stati scelti in base al valore delle feature, come
1
L’algoritmo “K-means”, dato in ingresso un numero k di cluster, cerca di raggruppare
gli elementi a distanza minore in k cluster. L’algoritmo è un’euristica quindi non trova il
miglior clustering, ma sicuramente termina dato che esiste solo un numero finito di modi
in cui raggruppare n elementi in k cluster.
6.2 Creazione del Multidimensional Scaling e Clustering 9
spiegato nel paragrafo 6.3. Riferendoci a [1] tali cluster sono stati chiamati E,
I ed EF2 . I rimanenti grafici con 4,5-cluster sono stati riportati in appendice
A. Da questi ultimi infatti non si sono ricavate informazioni aggiuntive (si
veda il paragrafo successivo).
Dai grafici MDS si può notare che l’unica differenza fra i grafici MDS di
musicisti e non musicisti è legata ai brani 9,12. Nel caso dei musicisti tali brani
vengono entrambi inseriti nel cluster E, mentre nel caso dei non musicisti il
brano 9 appartiene al cluster I e il brano 12 al cluster EF. Nel caso del grafico
relativo ai dati congiunti i brani 9, 12 vengono inseriti negli stessi cluster dei
grafici relativi ai dati di non musicisti.
In effetti, guardando il grafico, si può notare che: il brano 9 si trova ad una
distanza molto piccola dal cluster I e il brano 12 ad una distanza molto piccola
dal cluster EF. Questo sta ad indicare che i musicisti hanno raggruppato i
brani 9, 12 insieme con i brani del cluster E qualche volta di più rispetto ai
non musicisti, ma nel complesso i raggruppamenti del brano 9 con i brani del
cluster I e del brano 12 con i brani del cluster EF sono maggiori di quelli dei
raggruppamenti dei brani 9, 12 con i brani del cluster E.
2
I = Inertia attractor, E= Elasticity attractor, F= Friction attractor
6.2 Creazione del Multidimensional Scaling e Clustering 10
Per la successiva analisi dei dati si è quindi deciso di analizzare i dati congiunti
di musicisti e non musicisti, considerando il brano 9 appartenente al cluster
I e il brano 12 al cluster EF.
6.3 Analisi dei cluster e delle feature comuni 11
Dalla tabella e dai grafici si può notare che l’asse x suddivide i cluster in
base al tempo mentre l’asse y in base alla brightness. Dalla tabella si può
facilemente verificare che il cluster EF è caratterizzato da valori alti per
tutte le feature, il cluster E da valori medi mentre il cluster I ha valori bassi
per tutte le feature, di conseguenza sono stati determinati. In particolare,
essendo tutte feature del timbro (brightness, rolloff, zerocross,...), queste sono
altamente correlate quindi, per esempio, il cluster EF essendo caratterizzato
da alta brightness, di conseguenza ha alti valori di rolloff e zerocross.
7 Conclusioni
Il progetto era orientato nel trovare relazioni tra il dominio delle emozioni
trasmesse dalla musica e caratteristiche del suono dei brani ascoltati. Alla
fine del progetto si è potuto concludere che esistono dei tratti comuni fra
3
++ per valori molto alti, + per valori alti, - per valori bassi, - - per valori molto bassi
13
A Grafici MDS
B Kinestetic space
In letteratura con Kinestetic space si intende uno spazio 2 − dimensionale il
cui scopo è di associare alle intenzioni espressive di un musicista le emozioni
provate da un utente ascoltatore. L’ascoltatore deve posizionare le perfor-
mance del musicista lungo i due assi relativi alle 2 dimensioni.
In un Kinestetic space l’asse x è legato al Tempo (Kinematics) e discri-
mina fra perfomance “Heavy” e “Light” mentre l’asse y è legata all’Ener-
gia (Brightness, Centroids, Attack time, ecc.) e discrimina fra performance
“Soft” e “Hard ”. Viene riportata in figura 6 un grafico rappresentativo dello
Kinestetic space
% Aggiornamento matrice. Sommo uno ogni volta che due tracce sono in
% gruppi diversi
for k = 1:n
for i = 1:23
for j =1:23
if ( G(i,k)~= G(j,k) )
M(j,i)= M(j,i)+1;
end
end
end
end
##Etichette aggettivi
label<-c("1","2","3","4","5","6","7","8","9","10","11","12","13",
"14","15","16","17","18","19","20","21","22","23")
##K-means clustering
km<-kmeans(MDS1$points,6,iter.max=2000,nstart = 25)
Riferimenti bibliografici
[1] Canazza, S., De Poli, G., and Rodà, A. (2010). On the espressive gestu-
res. Looking for common traits between musical and physical domain.
Proceedings of Kansei Engineering and Emotion Research, KEER 2010,
March, 2-4, Paris, pp. 1589-1597.