VITS 本质是一个以最大化变分下界为目标的条件VAE.

这个变分下界表达式为

$\log p_{\theta}(x \mid c) \geq \mathbb{E}_{q_{\phi}(z \mid x)}\left[\log p_{\theta}(x \mid z)-\log \frac{q_{\phi}(z \mid x)}{p_{\theta}(z \mid c)}\right]$ $={似然函数}[log{数据点 x 的似然函数} - log({近似后验分布} / {条件c下潜变量z的先验分布})]$

条件VAE公式（a conditional VAE formulation）
- 目标:”变分下界”，证据下界（ELBO）
  - 重建损失
  - KL收敛
基于变分推理的对准估计（alignment estimation derived from variational inference）
-
提高合成质量的对抗性训练（adversarial training for improving synthesis quality）

总损失函数是各个损失函数相加.

条件VAE公式

输入语料 $x_{mel}$ ，提取 x 的 mel 频谱(梅尔语谱图, 用于音频处理). (人耳对频率的感受是对数的(logarithmic), 因此不能线性处理, 需要梅尔语谱图)

通过解码器将潜在变量 z 上采样, 转到波形域 $\hat{y}$.将 $\hat{y}$ 变换到 mel 频谱 $\hat{x}_{mel}$ .

对比 $x{mel}$ 和 $\hat{x}{mel}$ ,差值就是重建损失. 这个重建损失可以看作一个拉普拉斯分布, 但这个估计不需要可训练的参数，因为它只使用 STFT(短时傅立叶变换) 和线性投影到 mel 标度上; 估计仅在训练期间使用，推理不需要.

重建损失需要求一个变分下界,

$\mathbb{E}_{q_{\phi}(z \mid x)}\left[\log p_{\theta}(x \mid z)-\log \frac{q_{\phi}(z \mid x)}{p_{\theta}(z \mid c)}\right]$

训练需要保证这个下界最大.

先验编码器 c 的输入条件, 由 从文本中提取的音素$c_{text}$, 和 音素与潜在变量之间的对齐 A 组成。

变分推理的对准估计

对抗性训练

训练过程

有 $x_{mel}$ , 有潜变量 z, 可以得到重建损失.

VITS 论文阅读-3

http://blog.wspdwzh.space/2023/06/14/VITS-论文阅读-3/

作者

peter？

发布于

2023年6月14日

许可协议

Django 学习上一篇

VITS 论文阅读-2 下一篇