VITS 论文阅读-3
VITS 本质是一个以最大化变分下界为目标的条件VAE.
这个变分下界表达式为
- 条件VAE公式(a conditional VAE formulation)
- 目标:”变分下界”,证据下界(ELBO)
- 重建损失
- KL收敛
- 目标:”变分下界”,证据下界(ELBO)
- 基于变分推理的对准估计(alignment estimation derived from variational inference)
- - 提高合成质量的对抗性训练(adversarial training for improving synthesis quality)
总损失函数是各个损失函数相加.
条件VAE公式
输入语料 $x_{mel}$ ,提取 x 的 mel 频谱(梅尔语谱图, 用于音频处理). (人耳对频率的感受是对数的(logarithmic), 因此不能线性处理, 需要梅尔语谱图)
通过解码器将潜在变量 z 上采样, 转到波形域 $\hat{y}$.将 $\hat{y}$ 变换到 mel 频谱 $\hat{x}_{mel}$ .
对比 $x{mel}$ 和 $\hat{x}{mel}$ ,差值就是重建损失. 这个重建损失可以看作一个拉普拉斯分布, 但这个估计不需要可训练的参数,因为它只使用 STFT(短时傅立叶变换) 和线性投影到 mel 标度上; 估计仅在训练期间使用,推理不需要.
重建损失需要求一个变分下界,
训练需要保证这个下界最大.
先验编码器 c 的输入条件, 由 从文本中提取的音素$c_{text}$, 和 音素与潜在变量之间的对齐 A 组成。
变分推理的对准估计
对抗性训练
训练过程
有 $x_{mel}$ , 有潜变量 z, 可以得到重建损失.
VITS 论文阅读-3
http://petertan303.github.io/2023/06/14/VITS-论文阅读-3/