Glow-TTS阅读
Glow-TTS,前置科技点是 tacotron2,tacotron2 的前置科技点是 Waveglow。waveglow 是完全基于流模型的,可以认为tacotron2和glow-tts都是基于它改进而来。
tacotron2 利用 waveglow 实现了更好的效果,但是没有并行,也没有单调对齐(需要手动来对齐,或者需要一个自回归TTS模型作为外部对齐器,例如 FastSpeech)。glow-tts做的就是这部分工作,引入了单调对齐搜索(Monotonic Alignment Search,MAS),MAS搜索文本和语音的潜在表示之间最可能的单调对齐关系。
效果就是更快了,快了很多;而且还能多说话人。
tacotron2 和 waveglow 都是英伟达家的。pytorch 提供了范例,快速使用 tacotron2。
链接
Glow-TTS阅读
http://petertan303.github.io/2024/10/16/Glow-TTS阅读/