Sei sulla pagina 1di 8

AUDIO E TRASCRIZIONE

Obiettivo LIP vs obiettivo VoLIP

Il LIP è stato costituito per compilare un lessico di frequenza, pertanto,


non avendo come scopo un’analisi fonetica e fonologica dei dati,
l’accuratezza dell’audio e delle trascrizioni si ferma all’intellegibilità
delle parole. Per questo motivo l'allineamento di audio e trascrizioni
fornite dal VoLIP ha reso necessario un controllo accurato delle
trascrizioni originarie.

L’audio nel VoLIP

Il materiale audio del VoLIP è quello originario del corpus LIP.

Sintesi materiale di partenza


1. trascrizioni a. 390 file di trascrizione divisi per città
con audio associato;
b. 79 file trascrizione divisi per città
senza audio associato;
2. file audio c. 390 file.wav, suddivisi per città e
genere di discorso, ottenuti dalla
digitalizzazione su cassette DAT
(Digital Audio Tape) del materiale
originario LIP, inizialmente registrato
su audiocassette di tipo MC e micro-
MC da 45’, 60’ e 90’.
3. schede di d. divise per città ed in formato doc., con:
registrazione
- informazioni sul contenuto dei
file.wav;
- l’elenco ed i riferimenti delle
trascrizioni ricavate;
- una lista dei file LIP con audio e
senza audio associato.

Nel VoLIP ad ogni trascrizione corrisponde la rispettiva porzione di


audio, a cui assegnare gli stessi riferimenti di identificazione. Per
raggiungere tale obiettivo si è dovuto:
1. individuare ciascuna trascrizione nei file audio originari;
2. ascoltare la porzione di audio identificata, controllando la sua
aderenza con la trascrizione associata;
3. creare un nuovo file audio con lo stesso identificativo della
trascrizione, con l’audio corrispondente.
Si è condotto, inoltre, uno scrupoloso lavoro di recupero del materiale
audio non associato ad alcuna trascrizione e non avente alcuna
indicazione nelle schede di registrazione, attraverso la seguente
procedura:

- unione delle 79 trascrizioni senza audio associato in un file unico;


- ascolto dei file audio non associati ad alcuna trascrizione;
- ricerca all’interno dei file trascrizione delle parole a bassa
frequenza ascoltate nel materiale audio restante;
- ritaglio della parte audio ritrovata, in caso di ritrovamento della
trascrizione, e creazione di un nuovo file con lo stesso
identificativo della trascrizione e con frequenza di campionamento
uguale all’originale (mono, 22050 Hz, 352 kbps).

Grazie alla procedura descritta sono stati rintracciati 31 file, riducendo il


campione di file non associati da 79 a 48.
La seguente tabella (tab. 1) riassume la situazione attuale dei file a cui
sia associato o meno l'audio.
Tab. 1 MATERIALE VoLIP

N° FILE N° FILE
N° FILE
TRASCRIZIONI TRASCRIZIONI
CITTÀ TRASCRIZIONI
(non associati (associati a file
TOTALI
a file audio) audio)
FIRENZ
5 88 93
E
MILAN
11 158 168
O
NAPOLI 14 104 118
ROMA 18 72 90
Totale 48 422 469

I file trascrizione per i quali non è stato possibile recuperare l’audio sono
riportati nella tabella 2:

Tab. 2 MATERIALE VoLIP: FILE TRASCRIZIONI NON ASSOCIATI A FILE AUDIO

N FIRENZ MILAN
NAPOLI ROMA
° E O
1 FB34 MA24 NA6 RA6
2 FD2 MA26 NA9 RA9
3 FD5 MB17 NA10 RB1
4 FD14 MB34 NB51 RB13
5 FE18 MB991 NB52 RB14
6 MC5 NB54 RC2
7 MD3 NB55 RC9
8 MD15 NB56 RC10
9 MD16 NB57 RD1
1
MD17 NB58 RD2
0
1
ME7 NB59 RD9
1
1
NB60 RD12
2
1
NB61 RD15
3
1
NC7 RE1
4
1
RE2
5
1 RE5

1
Di questo file manca anche la trascrizione.
6
1
RE6
7
1
RE7
8

Identificazione dei file

Il processo di digitalizzazione dei file VoLIP ha mantenuto l’originaria


divisione del LIP.
Ogni sessione di registrazione, che corrisponde ad un file audio a cui è
associata la sua trascrizione, è identificata da una sigla che consente di
risalire:
1. al luogo di registrazione
2. allo specifico genere di discorso a cui il testo appartiene (A, B, C,
D, E)
3. al numero progressivo all’interno di una sequenza di testi.
Ad es. FA5 indica registrazione effettuata a Firenze (F) di uno scambio
comunicativo faccia a faccia con presa di parola libera (A), quinta della
sequenza di più testi.

Caratteristiche delle trascrizioni del LIP

Le trascrizioni del LIP sono trascrizioni ortografiche con un livello


minimo di annotazione. Qui di seguito le convenzioni usate per le
trascrizioni.

Caratteristiche delle trascrizioni

a. I regionalismi e le varietà substandard sono stati


trascritti così come sono stati rilevati senza essere
normalizzati;
b. non è stata spezzata alcuna parola per andare a capo,
per esigenze legate al trattamento automatico;
c. è stato evitato il ricorso a più notazioni per indicare lo
stesso fenomeno;
d. le lettere maiuscole sono state usate solo per i nomi
propri, toponimi, sigle;
e. i segni di interpunzione non sono mai stati utilizzati salvo
il caso del punto interrogativo come espressione
dell’intonazione interrogativa;
f. le parole inintellegibili sono state segnalate con un punto
interrogativo tra parentesi uncinate (<?>); si è fatto
corrispondere un punto interrogativo ad ogni parola
inintellegibile per un massimo di tre;
g. le parole interrotte sono state ricostruite, e indicate tra
parentesi uncinate, quando il contesto fonologico o
sintattico lo ha consentito (indov<ina>), mentre sono
state lasciate incomplete quando ciò non è stato
possibile (-pe-);
h. le pause sono state segnalate in base alla loro durata con
il simbolo # da un minimo di 1 ad un massimo di 3;
i. l’interruzione di fonazione prolungata che si presenta
all’interno di uno scambio comunicativo è stata invece
segnalata con [silenzio];
j. i riferimenti al contesto extralinguistico giudicati più utili
alla comprensione dal trascrittore sono stati segnalati tra
parentesi quadre: è il caso di commenti descrittivi quali:
[risate], [tossisce]; in altri casi si tratta di annotazioni
circa l’ascolto della registrazione: [parole
incomprensibili], [confusione];
k. la tenuta vocalica in finale di parola è stata segnalata
mediante un trattino sottoscritto: es: ciao_;
l. le unità polirematiche sono indicate unendo le parole con
ilsimbolo &: ad esempio tavola&rotonda.

Revisione delle trascrizioni del LIP

Uno degli obiettivi del VoLIP è la presentazione dei testi audio e delle
trascrizioni allineati. E' stato quindi necessario un controllo accurato del
materiale trascritto, dal quale sono emersi casi di non corrispondenza
tra i file audio e le trascrizioni, cui è seguito un lavoro di revisione.

Di seguito si riportano i problemi riscontrati e le soluzioni adottate:

Problemi riscontrati Soluzioni adottata


Parole mancanti nella Aggiunta della/e parola/e o parti mancanti
trascrizioni, ma
presenti nell’audio
Parole presenti nella Eliminazione delle parole o parti aggiunte
trascrizione, ma erroneamente.
mancanti nell’audio
Presenza di Eliminazione delle marcature utilizzate ed
marcature aggiunte delle porzioni di testo
[incomprensibile] o comprensibili.
simili (<?><??><???>)
che risultano
“comprensibili”
durante l’ascolto del
file audio.
Erronea numerazione Eliminazione dei turni aggiunti
dei turni erroneamente ed aggiunta di quelli
mancanti.
Erronea attribuzione Correzione dei codici identificativi dei
dei turni parlanti
Esigenza di rispettare Nelle trascrizioni sono stati oscurati i
l’anonimato dei nomi, i numeri di telefono, i riferimenti dei
parlanti luoghi, ecc. con la sigla XYZ.
.
Tagset per la gestione di incongruenze di trascrizione

Per la revisione delle trascrizioni è stato messo a punto un tagset per


classificare i diversi tipi di errori riscontrati.

Etichetta Utilizzata per indicare


1. MIS_rec a. assenza di segnale.

2. W_wrd tag: DEL b. Parola/e non trascritta/e

3. W_wrd tag: INS c. parola/e trascritta/e ma assente/i nel file


audio;
4. W_wrd tag: SUB d. subtype: cont_sub: errori di sostituzione di
contenuto;
e. subtype: mistyping_sub: errori di errata
digitazione;
5. SPEAK_msm f. codice identificativo del parlante errato nel
file trascrizione considerato
6. g.
7. MISSING TURN h. assenza di uno o più riferimenti di turni
oppure del riferimento e del relativo turno
assenti nel file trascrizione considerato, ma
presenti nel file audio

Revisioni VoLIP: Pop-up e doppia trascrizione

Le revisioni delle trascrizioni del LIP sono visibili grazie a dei pop-up che
si aprono andando con il cursore sulle porzioni di testo in rosso, le quali
evidenziano le trascrizioni riviste:

Esempio
Trascrizione FA1

Trascrizione LIP: come sei fine


Revisione VoLIP: nun s’è fine

A: come sei fine


B: eh e tutto quanto il capitolo del <?> # si' pero' e un capitolo
che non mette la fine
C: perche' qui si sposta
[SILENZIO]
……….

Potrebbero piacerti anche