VITS 论文阅读-3

VITS 本质是一个以最大化变分下界为目标的条件VAE.

这个变分下界表达式为

  • 条件VAE公式(a conditional VAE formulation)
    • 目标:”变分下界”,证据下界(ELBO)
      • 重建损失
      • KL收敛
  • 基于变分推理的对准估计(alignment estimation derived from variational inference)
    -
  • 提高合成质量的对抗性训练(adversarial training for improving synthesis quality)

总损失函数是各个损失函数相加.

条件VAE公式

输入语料 $x_{mel}$ ,提取 x 的 mel 频谱(梅尔语谱图, 用于音频处理). (人耳对频率的感受是对数的(logarithmic), 因此不能线性处理, 需要梅尔语谱图)

通过解码器将潜在变量 z 上采样, 转到波形域 $\hat{y}$.将 $\hat{y}$ 变换到 mel 频谱 $\hat{x}_{mel}$ .

对比 $x{mel}$ 和 $\hat{x}{mel}$ ,差值就是重建损失. 这个重建损失可以看作一个拉普拉斯分布, 但这个估计不需要可训练的参数,因为它只使用 STFT(短时傅立叶变换) 和线性投影到 mel 标度上; 估计仅在训练期间使用,推理不需要.

重建损失需要求一个变分下界,

训练需要保证这个下界最大.

先验编码器 c 的输入条件, 由 从文本中提取的音素$c_{text}$, 和 音素与潜在变量之间的对齐 A 组成。

变分推理的对准估计

对抗性训练

训练过程

有 $x_{mel}$ , 有潜变量 z, 可以得到重建损失.


VITS 论文阅读-3
http://petertan303.github.io/2023/06/14/VITS-论文阅读-3/
作者
peter?
发布于
2023年6月14日
许可协议