Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
~~~~~~~~~~~~~~~~~~
Home: "http://dimio.altervista.org/"
DESCRIZIONE:
~~~~~~~~~~~~
Sebbene DSpeech supporti nativamente anche le voci SAPI4, esprime il meglio delle
sue potenzialit� con le voci SAPI5 (alcune opzioni avanzate sono disponibili solo
se si utilizzano queste ultime).
DSpeech pu� essere utilizzato con qualsiasi Screen Reader, ma nello specifico �
testato per funzionare con lo Screen Reader NVDA.
Tramite il menu contestuale (Right Click) � possibile specificare con quale voce
deve essere pronunciata una data frase, questo rende possibile la creazione di
dialoghi tra voci diverse.
OPZIONI DI RIPRODUZIONE:
~~~~~~~~~~~~~~~~~~~~~~~~
1. Assicurarsi che nella stessa cartella ci siano sia il film che si intende vedere
sia il file coi sottotitoli (.SRT).
2. Assicurarsi che il film e il file dei sottotitoli abbiano lo stesso nome (ad
esempio "Buffy.avi" e "Buffy.srt").
3. Assicurarsi che sia spuntata l'opzione "Allows Manage SRT files" e aprire il
file dei sottotitoli (ad es "Buffy.srt").
4. Posizionare il cursore nel punto dei sottotitoli da cui si vuole che inizi il
film.
5. Premere "Speak".
OPZIONI AVANZATE:
~~~~~~~~~~~~~~~~~
DSpeech consente di registrare una o pi� frasi al microfono, salvarla sotto forma
di file wav ed inserirla nel testo sotto forma di TAG. Questo consente di creare
dei mix tra voci reali e sintetiche.
La registrazione pu� essere attivata premendo l'apposito pulsante, se lo si preme
una seconda volta la registrazione termina.
E' quindi possibile riascoltare la registrazione stessa e, se ritenuta idonea,
salvarla sotto forma di file ed inserirla automaticamente nel testo sotto forma di
TAG.
OPZIONI DI ACCESSIBILIT�:
~~~~~~~~~~~~~~~~~~~~~~~~~
HOTKEYS:
~~~~~~~~
OPZIONI AUDIO:
~~~~~~~~~~~~~~
Oltre alle funzioni di editing standard (find, replace, cut etc.) � integrata una
funzione particolare, la "Remove Inappropriate Return Carriages". Essa serve ad
eliminare tutti i ritorni a capo inutili presenti nel testo che potrebbero limitare
la fluidit� della lettura da parte delle voci artificiali.
Infatti, spesso capita che un testo ottenuto tramite scansione di un libro,
contenga una serie di ritorni a capo dovuti all'impaginatura che impattano
negativamente nella qualit� di lettura da parte del TTS dato che tendono a spezzare
le frasi durante la lettura, questa funzione elimina tale problema.
Un'altra opzione interessante � quella del monitoraggio dei file di testo. Premendo
l'apposito pulsante "Monitor file", verr� richiesto di specificare un file di testo
del quale verr� attivato il monitoraggio. Ogni volta che il suddetto file verr�
modificato, il programma ne legger� le parti nuove che non esistevano la volta
precedente.
Tramite questa funzione � possibile, per esempio, far leggere a DSpeech un testo
prodotto da un altro programma e di leggerne le parti che via via vengono aggiunte.
Questa opzione pu� essere attivata anche da linea di comando (es./MONITOR
C:\Folder\File.Txt).
E' possibile utilizzare DSpeech per la conversione del testo in un file Wav o Mp3.
Se si sceglie il formato mp3, viene data la possibilit� di specificare le
caratteristiche della compressione; essa pu� essere settata in modo da privilegiare
le dimensioni, la qualit� audio del file prodotto, oppure in modo da ottenere una
cosa bilanciata.
CREAZIONE DI AUDIOLIBRI:
~~~~~~~~~~~~~~~~~~~~~~~~
- Volendo, si pu� di suddividere il testo in pi� file di tot minuti ciascuno. E'
anche possibile utilizzare la suddivisione manuale del testo in files. In questo
caso, � necessario inserire la KeyWord >BREAK ogni volta che si vuol cambiare file.
- Spuntando l'opzione "Custom Volume Title", nel caso l'audiolibro sia suddiviso in
pi� parti, ognuna di queste avr� un titolo che le � proprio, il titolo in questione
verr� estrapolato automaticamente dal testo a meno che non venga
specificato di seguito alla KeyWord >BREAK.
- Tramite la voce di menu "Append" � possibile unire pi� files di testo uno dietro
all'altro. Tra l'uno e l'altro verr� inserita automaticamente la KeyWord >BREAK in
modo da consentire la suddivisione del testo in files separati.
- E' possibile inserire un silenzio di 300 msec all'inizio ed alla fine di ogni
file creato, in modo da mantenere la compatibilit� con i lettori CD o mp3 pi�
vecchi.
- Se si suddivide il testo in pi� volumi, all'inizio di ognuno viene inserito il
titolo e il numero del volume. E' possibile scegliere di invertire ci� in modo che
venga pronunciato prima il numero del volume e poi il titolo (ci� rende pi� agevole
il ritrovamento di uno specifico volume tra tanti.
- E' possibile specificare se si vuole che il programma, prima della conversione,
rimuova tutte le andate a capo inappropriate dovute ad un'errata formattazione del
testo. Ci� pu� essere molto utile per aumentare la fluidit� di alcuni testi
formattati male.
- Volendo (opzioni audiolibri) si pu� personalizzare il titolo di ogni file nel
quale viene suddiviso l'audiolibro, dopo la KeyWord >BREAK � possibile inserire del
testo, questo verr� utilizzato come titolo, se non si specifica niente il titolo
verr� estrapolato dal testo.
- E' infine possibile specificare un ritardo (da 100 millisecondi a 5 secondi) da
inserire automaticamente tra le frasi.
Attivando la funzione "Enable IA reply when press Enter" si pu� avere l'illusione
(pi� o meno) di conversare con un altro essere umano. Ogni volta che si preme INVIO
la frase verr� analizzata e D-Speech risponder� con una frase adeguata.
Di default � installata solo una personalit� virtuale in italiano (Selena) che
richiede quindi una voce femminile italiana per essere usata, ma il programma � in
grado di utilizzarne anche delle altre (se mai verranno realizzate).
In verit� non si pu� parlare di una vera e propria intelligenza artificiale dato
che il "core" dell'algoritmo si basa sul "pattern matching", ciononostante, questa
tecnica � attualmente quella che d� i migliori risultati in termini di realismo
delle risposte. Il database con le frasi-modello (che corrisponde al file
SELENA.IA) �, in parte, derivato da un vecchio programma open-source (Babbea) nato
a sua volta per prendere in giro un altro programma di IA (Eloisa) che veniva, a
suo tempo, spacciato per programma pensante.
In ogni caso il file � modificabile a piacimento.
RICONOSCIMENTO VOCALE:
~~~~~~~~~~~~~~~~~~~~~~
CONFIGURAZIONE MINIMA:
~~~~~~~~~~~~~~~~~~~~~~
http://aldostools.mysite4now.com/sapi51.msi
http://www.mbsoft.biz/download/sapi51.exe
http://www.arlington.com.au/sapi51.msi
http://clans.gameclubcentral.com/shoot/SR.zip
LE VOCI:
~~~~~~~~
- Windows XP/2003
Windows XP/2003 integra gi� SAPI5 + una voce di qualit� molto bassa (Microsoft
SAM). E' possibile installare anche altre due voci simili (Mary e Mike) scaricabili
gratuitamente da uno dei seguenti link:
http://www.text-speech.com/voices/Sp5TTIntXP.msi
http://download.microsoft.com/download/speechSDK/SDK/5.1/WXP/EN-US/Sp5TTIntXP.exe
http://activex.microsoft.com/activex/controls/sapi/spchapi.exe
- Windows NT/2000
Windows NT/2000, al contrario, integra solo il supporto SAPI4, per cui, se si vuole
utilizzare le voci SAPI5, � necessario installare SAPI5 (che comprende SAM, Mary e
Mike), scaricabile da uno dei seguenti link.
http://aldostools.mysite4now.com/sapi51.msi
http://www.mbsoft.biz/download/sapi51.exe
http://www.arlington.com.au/sapi51.msi
- Dal mio sito � possibile scaricare delle voci SAPI4 e SAPI5 gratuite nei vari
linguaggi.
Il sistema di script � molto simile al BASIC. La maggior parte delle Keywords sono
progettate per funzionare solo in modalit� diretta e, durante la conversione in
file audio, vengono semplicemente ignorate, ciononostante alcune di esse, ad
esempio la Keyword ">STOP", funzionano anche durante le conversioni.
>VOICE NomeVoce
>DO
>EXIT DO
>LOOP [n]
>CALL NomeSub
>SUB NomeSub
>END SUB
>RANDOM
>CASE
>END RANDOM
>EXECUTE PathFileOProgramma
>OPEN FileToSpeech.txt
>PLAY FileName.wav
>WAIT Secondi
>DELAY MilliSecondi
>REM
>STOP
>BREAK
>CLEAR
>CLOSE
>DEL
>HIDE
>SHOW
>TOP
>WAIT_ANYKEY
>SHUTDOWN
>SELFDESTRUCT
>SELFDESTRUCT_AND_SHUTDOWN
>REM Commento
Permette di inserire dei commenti nel testo che verranno completamente ignorati da
DSpeech sia durante la riproduzione che nella conversione in file audio.
>VOICE NomeVoce
Cambia la voce narrante.
>DO
...
>EXIT DO
...
>LOOP [n]
Esegue un loop ciclico, quando incontra l'"exit do", ne esce. Se si specifica un
numero [n], verr� eseguito solo il numero di cicli indicato.
>IF TIMEOUT
...
>END IF
Esegue i comandi compresi tra l'IF e l'END IF se, dopo un >RECOGNIZE_WITH_TIMEOUT �
passato il tempo specificato senza che l'utente fornisse un input vocale.
>CALL NomeSub
...
>SUB NomeSub
...
>END SUB
La prima istruzione, >CALL NomeSub, fa s� che l'esecuzione salti alla >SUB NomeSub
mentre >END SUB, determina il ritorno all'istruzione immediatamente successiva alla
>CALL NomeSub (� del tutto analogo al vecchio Gosub e Return del Basic).
>RANDOM
...
>CASE
...
>CASE
...
>CASE
...
>END RANDOM
Permette di eseguire in maniera casuale le istruzioni seguenti ad uno dei case.
>EXECUTE PathFileOProgramma
Apre un file specificato o avvia un programma.
>OPEN FileToSpeech.txt
Apre un file di testo e ne inizia la riproduzione.
>STOP
Termina l'esecuzione dello script e/o della riproduzione vocale o della conversione
in file audio.
>BREAK
Keyword utilizzata per splittare un file in pi� mp3 in punti prestabiliti.
>PLAY FileName.wav
Riproduce un file wav.
>WAIT Secondi
Attende tot secondi (1-60) prima di proseguire.
>DELAY MilliSecondi
Attende il numero specificato di millisecondi (100-900) prima di proseguire.
>CLOSE
Chiude il programma DSpeech senza salvare i settaggi.
>CLEAR
Cancella il contenuto della finestra.
>DEL PathFile
Cancella il file o la cartella indicata.
>HIDE
Rende invisibile la finestra del programma.
>SHOW
Visualizza nuovamente la finestra del programma annullando un precedente comando
>HIDE.
>TOP
Metti in primo piano la finestra principale di DSpeech.
>WAIT_ANYKEY
Si mette in attesa che l'utente prema un tasto qualsiasi e poi prosegue.
>SHUTDOWN
Spegne il computer, se si vuole che DSpeech si chiuda in un modo specifico, ad
esempio senza salvare i settaggi, far seguire al comando di Shutdown l'apposito
comando di chiusura di DSpeech, come >CLOSE o >SELFDESTRUCT.
>SELFDESTRUCT
Chiude DSpeech e cancella il file "DSpeech.exe" (cio� si auto cancella dal disco),
il file "DSpeech.ini" e il file eventualmente aperto.
>SELFDESTRUCT_AND_SHUTDOWN
Cancella "DSpeech.exe", "DSpeech.ini" e l'eventuale file aperto e subito dopo
spegne il computer.
Nel menu contestuale (right-click) � possibile trovare tutte queste KEYWORDS con
relativi ESEMPI.
Un esempio di script per il riconoscimento vocale potrebbe essere il seguente:
>VOICE Luca
Io sono Angelus, il computer di Dimitri. Tu chi sei?
>DO
>RECOGNIZE Dimitri, Gloria, OTHER_WORDS
>IF RECOGNIZED Dimitri
Angelus in attesa di istruzioni.
>EXIT DO
>END IF
>IF RECOGNIZED Gloria
Hai sbagliato computer, il tuo � quello di fianco.
>EXIT DO
>END IF
>IF RECOGNIZED OTHER_WORDS
>RANDOM
>CASE
Puoi ripetere per favore? Non ho capito il tuo nome.
>CASE
Cos'hai detto? Puoi Ripetere?
>CASE
Non ho capito quello che hai detto, forse, semplicemente, il tuo
nome non lo conosco.
>END RANDOM
>END IF
>LOOP
A meno che non si disponga di engine ASR commerciali compatibili con SAPI5 (come
l'ASR della Loquendo), ci si limiter� ad usare l'engine gratuito della Microsoft
(sul mio sito si trova il link) che si basa sulla fonetica inglese, per cui, per
far riconoscere alcune parole, � spesso necessario adattarle alla pronuncia
inglese. Ad esempio, per far riconoscere al computer la parola "Russia" bisogner�
scrivere "Rassya".
SHORTCUTS:
~~~~~~~~~~
ESC = Stop
ALT+1 = Aumenta il volume
ALT+2 = Diminuisce il volume
ALT+3 = Aumenta la velocit�
ALT+4 = Diminuisce la velocit�
ALT+5 = Aumenta il pitch
ALT+6 = Diminuisce il pitch
LINEA DI COMANDO:
~~~~~~~~~~~~~~~~~
SINTASSI:
E' possibile indicare come unica opzione un file di testo da aprire, nell'esempio
seguente DSpeech si limiter� ad aprire l'interfaccia e a caricare il file
"FileToSpeech.txt".
DSpeech.exe FileToSpeech.txt
/Speak = Consente di pronunciare una breve frase. Nel seguente esempio viene
pronunciata la parola "Hello!" senza che venga aperta l'interfaccia di DSpeech.
/Ogg = Consente di convertire un file testuale in un file Ogg Vorbis. (Vedi sopra).
PROBLEMI NOTI:
~~~~~~~~~~~~~~
I Tag espressivi delle voci Loquendo (ad esempio "\_Laugh_01" o "\_Ahahah") sono
incompatibili con il cambio del parametro PITCH. In dettaglio, se si modifica il
Pitch, anche per una sola volta, i Tag espressivi, nei salvataggi successivi,
verranno accompagnati da un fruscio molto brutto da sentire. L'unico modo per farli
funzionare di nuovo � chiudere DSpeech e riavviarlo un'altra volta.
Note:
~~~~~
- Quando si inserisce un file mp3 nel testo, specie se di grosse dimensioni, pu�
essere avvertita una piccola pausa tra la riproduzione della linea precedente e la
riproduzione del file audio, ci� � normale e non costituisce un difetto, in ogni
caso, quando si va a salvare il risultato sotto forma di file wav o mp3, la pausa
scompare completamente.
- Per la compressione in mp3 viene utilizzato il codec Lame (www.mp3dev.org), esso
corrisponde al file "Lame.exe" incluso nel pacchetto.
- Per la compressione in Ogg Vorbis viene utilizzato l'encoder "oggenc.exe" facente
parte del pacchetto "vorbis-tools-1.0.1-win32".
- Per l'apertura dei file PDF viene utilizzato il file "pdftotext.exe", facente
parte del pacchetto "Xpdf" (http://www.foolabs.com/xpdf/).
- Per la compressione in AAC viene utilizzato il file "neroaacenc.exe" della Nero
AG (sono gli stessi di Nero Burning Rom).
LICENZA:
~~~~~~~~
Il programma viene distribuito con la licenza Freeware (fare riferimento al file
incluso al pacchetto per i dettagli).
Questo, riassunto in due parole, significa: il software � gratuito e potete usarlo
come vi pare, anche integrarlo in un CD, in un programma vostro o in un pacchetto
commerciale da rivendere se volete. L'unica cosa che non � permessa � la
decompilazione e la modifica dei sorgenti.
Per la lettura dei PDF e l'encoding nei vari formati (mp3, ogg, aac) rifarsi alla
licenza relativa dei singoli file exe utilizzati per la specifica funzione
richiesta (pdftotext --> apre i pdf, oggenc --> salva in ogg vorbis, neroaacenc -->
salva in aac, wmaencode --> Salva in wma, lame --> Salva in mp3) si tratta comunque
sempre di freeware, per cui non dovrebbero esserci problemi in ogni caso.
PROGRAMMATORI:
~~~~~~~~~~~~~~
BETA-TESTERS:
~~~~~~~~~~~~~
Luna
Matas