Sei sulla pagina 1di 13

METADATAZIONE DEL VOLIP

Al fine di rendere accessibili e fruibili i corpora linguistici assume


particolare rilievo la scelta di procedure che consentano di catalogare, o
meglio metadatare, in maniera accurata le informazioni concernenti i
dati.
Con il termine “metadato” si intende “un insieme di dati atti a descrivere
altri dati” in maniera strutturata e standardizzata. Più semplicemente, il
metadato può essere definito come un descrittore dei dati, separato e
separabile da essi, nonché una specie di chiave di interrogazione del
database, la cui funzione è di favorire il raggiungimento dei seguenti
obiettivi:
 individuare un documento;
 rintracciarne una particolare manifestazione;
 analizzarlo, valutarlo e filtrarlo;
 renderlo interoperabile, ovvero rintracciabile in ambiti
disciplinari diversi grazie a una serie di equivalenze fra
descrittori;
 renderlo gestibile, grazie all'intermediazione di banche dati e
cataloghi;
 renderlo infine effettivamente disponibile (almeno
idealmente).

Perché IMDI?

La scelta di IMDI (http://www.mpi.nl/IMDI/) risponde primariamente a due


esigenze. La prima è quella di fornire una classificazione dei dati
gerarchizzata e complessa, tale da poter costruire una base di dati
strutturata e facilmente interrogabile nelle sue interconnessioni.
La seconda è quella di costituire ad oggi uno degli standard di
metadatazione più utilizzati nei progetti internazionali e di permettere,
quindi, il confronto con altri corpora di dati linguistici.
L’ulteriore vantaggio di IMDI è costituito dalla presenza di un’interfaccia
in grado di dotare l’utente di una serie di strumenti di ausilio in ogni fase
del processo di metadatazione.
Rispetto al set originale, è stata operata una riduzione dei metatag al
fine di rendere più rapido e leggero il processo di metadatazione.

La struttura del VOLIP


Nell’approccio alla metadatazione IMDI è centrale il concetto di
SESSIONE, considerato come l’insieme delle risorse associate ad un
evento linguistico.
In primo luogo, per soddisfare le esigenze del progetto sono state create
diverse sessioni in relazione ai file da metadatare. Quindi, potremmo
immaginarci il corpus VoLIP come il nodo principale da cui si diramano
le quattro sessioni delle città (MILANO, FIRENZE, ROMA, NAPOLI), che,
oltre ai metadati, contengono i link ai file trascrizione e audio.
Il prodotto finito è una struttura ad albero così organizzata:

Corpus
VoLIP

SESSIONI SESSIONI SESSIONI SESSIONI


MILANO (S) FIRENZE (S) ROMA (S) NAPOLI (S)

Trascrizione Trascrizione Trascrizione


Trascrizione

Audio Audio Audio Audio


L’editor (http://www.mpi.nl/IMDI/) di supporto alla metadatazione
consiste sostanzialmente di una serie di campi da riempire che ne
racchiudono altri al loro interno in una struttura, come già detto,
sostanzialmente gerarchizzata.
Non tutti i campi sono obbligatori; abbiamo quindi scelto un
sottoinsieme di elementi utili agli scopi del progetto, funzionali
all’interrogabilità dei dati.

Metadatazione del corpus VoLIP

Il corpus VoLIP è dunque interrogabile per i campi IMDI scelti per la


metadatazione indicati nella sequenza di grafici qui di seguito.

Grafico 1

Town

Firenze Milano Napoli Roma


Grafico 2

LIP sections

A
Scambi comunicativi faccia a faccia
con presa di parola libera

B
Scambi comunicativi non faccia a faccia
con presa di parola non libera

C
Scambio bidirezionale
con presa di parola non libera

D
Scambi unidirezionali
in presenza di destinatario/i

E
Scambi unidirezionali o bidirezionali
a distanza

Grafico 3

Genre
(genere)

Discourse TV/Radio features


(scambi comunicativi tra uno (parlato trasmesso alla TV o
o più parlanti) alla radio)

Dopo aver selezionato il campo Discourse, il campo Subgenre ha i valori


indicati nel Grafico 4.
GraficoDiscourse
4 Subgenre

Conversation
(conversazione)
Subgenre
Description
(descrizione di un evento, persona o oggetto)

Interview
(intervista, interrogatorio, interrogazione)

Narrative
(narrazione di una serie di eventi)
Dopo aver selezionato il campo Radio/TV features in Genre il campo
Oratory
Subgenre ha i valori indicati nel Grafico 5.
(discorso formale pubblico)

Grafico 5
Lesson
(lezioni scolastiche ed universitarie)

Examination
(interrogazioni ed esami)

Unspecified
(Altro)
Radio/TV features Subgenre

Quiz

Radio/Tv interview

Sport radio

TG/TG radio commentary

Talk show

Telephone

Unspecified

La metadatazione permette anche altri tipi di interrogazioni relative al


grado di interattività (Grafico 6) e di pianificazione dei testi (Grafico 7),
al dominio o contesto sociale a cui i testi appartengono (Grafico 8),
contesto sociale (Grafico 9) e al tipo di canale di trasmissione (Grafico
10).

Grafico 6
Interactivity
(grado di interazione)

Semi-interactive
Interactive
(parlato
(scambio comunicativo Non-interactive
prevalentemente
tra almeno due (parlato monologico)
monologico con
parlanti)
interazioni spontanee)

Grafico 7

Planning type
(livello di
pianificazione)

Spontaneous Semi-spontaneous Planned


(spontaneo) (semi-spontaneo*) (pianificato)

*scambio comunicativo a presa di parola libera come negli scambi spontanei, ma


condotto da un solo parlante.

Grafico 8
9
Social
context
(contesto
comunicativo)

Family Public Controlled


Private
(scambio
(scambio
(scambio environment
comunicativo in comunicativo in (scambio com
comunicativo in
contesto contesto regolato)
contesto privato)
familiare) pubblico)

Grafico 9

Event
structure
(Struttura evento
comunicativo)

Conversation/ Not natural


multidialogue Dialogue format
(scambio (scambio Monologue (scambio
comunicativo tra (monologo) comunicativo che
comunicativo con
non rientra nelle
più di due due partecipanti)
categorie
partecipanti) precedenti)

Grafico 10

Channel
(canale di
trasmissione)

Broadcasting Face to face Telephone


(trasmesso) (faccia a faccia) (telefono)
Confronto tra VoLIP e LIP
La metadatazione VoLIP, basata su IMDI, arricchisce la classificazione
adottata nel LIP che prevedeva una catalogazione dei dati per:
a. Town b. LIP section

Se, infatti, proiettiamo la metadatazione VoLIP sulla classificazione LIP


otteniamo informazioni aggiuntive che non erano funzionali alla
costituzione del lessico di frequenza.
Di seguito si riportano le correlazioni più interessanti.

Gruppo LIP A

ETICHETTA IMDI ETICHETTA


(SUBGENRE) IMDI
(PLANNING
TYPE)
spontaneous
CONVERSATION (80%)
semi-
(100%)
spontaneous
(20%)

Per quanto riguarda il gruppo A si evince una presenza di conversazioni


semi-spontanee che non emergeva nel LIP, dovuta al fatto che nel
gruppo sono rientrate interazioni in uffici pubblici, sul lavoro,
all’università dai confini sfumati, che nella classificazione meno
dettagliata del LIP erano state fatte rientrare nella macrocategoria delle
conversazioni faccia a faccia.

Gruppo LIP B

ETICHETTA IMDI ETICHETTA ETICHETTA ETICHETTA


(SUBGENRE) IMDI IMDI IMDI
(PLANNING (INTERACTIVI (SOCIAL
TYPE) TY) CONTEXT)

CONVERSATION spontaneous interactivity private


(100%) (99%) (98%) (94%)
semi- non- public
spontaneous interactivity (6%)
(1%) (2%)

Tra la classificazione del LIP e la metadatazione VoLIP c’è totale


omogeneità e coerenza.

Gruppo LIP C
I dati in tabella confermano che si tratta di scambi comunicativi, in linea
di massima, semi-spontanei che avvengono in un contesto non del tutto
libero, a differenza degli scambi comunicativi rientranti nel gruppo A e B
che sono per lo più spontanei (rispettivamente nel 78% e 99% dei casi),
e realizzati principalmente in un contesto privato (rispettivamente nel
64% e 94% dei casi).
ETICHETTA IMDI ETICHETTA ETICHETTA IMDI
(EVENT IMDI (SOCIAL
STRUCTURE) (PLANNING CONTEXT)
TYPE)

- controlled
CONVERSATION
environment
(26%)
semi- - private
DIALOGUE spontaneous - controlled
(16%) environement
- public
- private

MONOLOGUE - planned - controlled


(26%) - semi-
environment
spontaneous
- public
NOT A NATURAL -planned -controlled
FORMAT -semi- environemt
(32%) spontaneous -public
-spontaneous

Analizzando le occorrenze dei metadati VoLIP, in questo gruppo, è


possibile cogliere quel continuum dai confini sfumati di cui si parla nel
LIP (De Mauro, T., Mancini, F., Vedovelli, M., Voghera, M, 1993: 35).
Pertanto, se è ovvio, data la natura bidirezionale degli scambi, ritrovare
dialoghi e conversazioni, risulta meno logico trovare una significativa
percentuale di monologhi. Tale dato si spiega solo considerando che le
varie situazioni comunicative sono state disposte, nella classificazione
del LIP, su una scala ideale i cui confini non sono sempre così netti.

Gruppo LIP D
Il gruppo LIP D presenta, insieme al gruppo C, una molteplicità di
situazioni comunicative che danno luogo a quei testi misti, di cui si parla
nel LIP, la cui classificazione non risulta scontata.
ETICHETTA IMDI ETICHETTA
(EVENT IMDI
STRUCTURE) (INTERACTIVIT
Y
interactive
CONVERSATION semi-
(11%) interactive
MONOLOGUE non-interactive
(79%) semi-
interactive
NOT A NATURAL interactive
FORMAT semi-
(11%) interactive

In questo caso, la metadatazione VoLIP mette in luce alcune incoerenze


della classificazione LIP, è il caso di conversazioni interattive che non
avrebbero dovuto essere inserite in questo gruppo.

Gruppo LIP E
ETICHETTA IMDI ETICHETTA
(CHANNEL) IMDI
(SOCIAL
CONTEXT)

FACE TO FACE
public
(20%) (100%)

BROADCASTING
(80%)

Anche in questo caso la classificazione LIP vede inserite delle


interazioni faccia a faccia
che non sarebbero dovute confluire in questo gruppo.

Agreement sui metadati IMDI tra gli annotatori


Per essere in linea con gli standard internazionali si è messa in atto una
procedura di controllo tra gli annotatori, come è norma, quando si
utilizza uno schema di metadatazione molto complesso.
Nello specifico il test di agreement è avvenuto su campioni di metadati
di file audio appartenenti alle città di Firenze e Roma.
A partire dalla suddivisione del LIP nelle 5 categorie di parlato (A-B-C-D-
E), sono stati estratti a campione file appartenenti a ciascuna categoria
in egual misura, al fine di testare il grado di accordo su un campione
eterogeneo, ma bilanciato, composto da 40 file audio (20 per Roma e 20
per Firenze), sottoposti alla metadatazione separata di due annotatori.
Il controllo è avvenuto sui campi IMDI variabili, non calcolando la scheda
“project”che è identica per tutti i file. Considerando sia i campi chiusi
che quelli aperti, il test è avvenuto su un totale di 59 campi.
I risultati sono riassunti nella tabella che segue.

Città Annotato Annotato Tot.


re 1 re 2 Agreement
Roma 99,1 99,2 99,15
Firenz 99,4 99,6 99,5
e
tot 99,25 99,4 99,325
Percentuali di agreement