2023年4月23日
关于so-vits-svc
首先,这是一个很牛逼的项目,极大简化了训练和音色迁移的过程,随着团队的接手,他们甚至加上了webUI
。
但是。
他们把项目存了档,我不知道是什么让他们这么做的,但他们就是这么干了。我的评价是这是一个极其弱智且不负责任的行为,因为随着项目的存档,关于该项目的所有issue
全部丢失。issue
堪称这个项目的贡献者与使用者浓度最高的聚居地,绝大多数讨论都是在issue
内进行,只有极少部分有典型性的问题会被搬运到其他平台。
关了之后,当人们碰到问题,或试图参与开发时,想上网寻找相关资料,在搜索引擎里敲入相关字眼,引入眼帘的永远是已经关闭了的issue
。
无论如何,项目是他们的,我没有参与贡献,我只是一个学习者,他们确确实实有权决定这个项目的一切。
不过我也确确实实的很不爽。
然后,黑泥结束,让我来夸夸这个项目。
VITS
是一个文字转语音的网络,最大的特征是对抗学习和时长预测。论文涉及到不少我本人知识范围以外的东西,在在试着读透。
我在AutoDL
上租了一块GPU
进行训练。
开始的时候,我以为本地并不足以支持音色迁移的工作完成,所以音色迁移都是交给云端来完成的,现在想想浪费了不少资源。
后来,我开始训练翎羽的语音资料。
解释一下,翎羽是游戏明日方舟的一个角色,有中、日、韩、英四国语音,各有33条。一开始,我是使用日文语音进行训练的,日文语音总时长在三分钟左右。总共运行了63500步,然后我认为,仅仅三分钟的语音不足以构建出色的模型,于是停止了训练,导入了新的语音。
但是事实上,在这个项目中,模型和训练数据集语音直接挂钩,甚至可以说是一一对应,连顺序都不能替换。但我并没有意识到这一点,也没有人和我说,于是,我放弃了现有的训练数据集,后面的事情可想而知。
我跑了六万步的模型尚未完成,卡在不能训练和不能用之间,或者说,在我随机排列32条语音找到正确顺序之前,我无法对其进行进一步训练;同时由于训练步数原因,产生的音频电流声巨大,完全不能使用。
更糟糕的是,我使用的新训练集是四国语音复合的,也就是说实际上是四个人的语音素材。新训练集跑了三万多步,实际效果可谓是一团浆糊。
而我花了很久才意识到这一点。
关于VITS
论文于三年前发表,属于是经典之一。正在读论文。
关于其他类似项目
按照介绍,这是一个针对低显存设备进行特别优化的项目。我本人的笔记本电脑是惠普的战99
,使用的是nvidia t600
入门级专业卡,内存只有可怜的4G。
要不然我为什么要租显卡……
还没用,但很期待。