Flowtron: una rete generativa basata sul flusso autoregressivo per la sintesi Text-to-Speech

Una recente ricerca sull’IA conversazionale ha dimostrato di generare automaticamente un audio di alta qualità, simile a quello umano, a partire dal testo. Ad esempio, è possibile utilizzare Tacotron 2 e WaveGlow per convertire il testo in un discorso di alta qualità e dal suono naturale in tempo reale. È anche possibile utilizzare FastPitch per generare spettrogrammi mel in parallelo, ottenendo una buona velocità rispetto al Tacotron 2.

Tuttavia, gli attuali modelli text-to-speech non offrono un controllo sufficiente su come suona il parlato generato, ignorando le proprietà acustiche della voce. Tali informazioni non testuali, che trasmettono il significato e l’espressività umana, sono difficili da esprimere perché non sono etichettate. Ad esempio, non è chiaro come etichettare i campioni audio con lo stesso testo ma con un’enfasi o un’emozione diversa.

Senza le etichette disponibili, opere come Tacotron-GST e Tacotron GM-VAE hanno proposto di utilizzare incorporazioni latenti apprese per quanto riguarda le informazioni non testuali. Questi modelli sono difficili da addestrare, richiedono di indovinare la dimensionalità dell’incorporazione latente, forniscono un controllo limitato sulla variabilità e non permettono di manipolare lo spazio latente nel tempo.

Flowtron è una rete generativa facile da addestrare, autoregressiva, basata sul flusso, per la sintesi vocale, che massimizza il controllo sulla variazione del parlato e sul trasferimento dello stile. Flowtron permette di trasferire le caratteristiche da un campione di stile o altoparlante ad un altoparlante di destinazione. È possibile ascoltare molti interessanti campioni audio e variazioni generate con Flowtron sulla pagina di gruppo NVIDIA Applied Deep Learning Research (ADLR). La qualità audio dei campioni generati con Flowtron corrisponde a quella dei modelli all’avanguardia in termini di media dei punteggi di opinione (MOS). Utilizzando Flowtron, è possibile addestrare il modello da zero se si dispone di un grande set di dati, oppure perfezionare i modelli preaddestrati se si dispone di un piccolo set di dati.

Flowtron racconta il video IO SONO IA
Fonte:
https://nv-adlr.github.io/Flowtron
https://developer.nvidia.com/blog/training-your-own-voice-font-using-flowtron/
https://www.scholarcy.com/

Se ti è piaciuto il contenuto: condividilo!

You may also like...

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

Questo sito usa Akismet per ridurre lo spam. Scopri come i tuoi dati vengono elaborati.

Translate »