在学校实在无聊,晚自习拿出了草稿纸开始头脑风暴。
最近试玩了 So-VITS-SVC 并且通过批量推理的方式给自己做了高质量的 UTAU VCV 声库,但整个录制过程过于困难(录制训练 SoVITS 的样本所花费的时间约为 2 天),于是想到了一种懒人方法来训练 TTS SoVITS 模型的方法。
事先叠甲
本篇教程仅提供 大体思路 ,对于部分操作步骤(如使用 Google Colab 进行训练、文中提到的开源软件的具体使用方法),请发挥你的 Geek 精神:读文档、善用搜索或自己摸索。
流程简介
- 录制原音声( 2 分钟 即可达到 非常优质 的效果!)
- 训练 GPT-SoVITS 模型
- 使用大量随机语料,生成净时间约为 3hr 的训练样本
- 使用 GPT-SoVITS 的输出训练 So-VITS-SVC 模型
- (Optional) 下载任意 UTAU 声库并通过批量 Infer 以制作高质量声库
具体步骤
W.I.P.
我要使用24a的声库学日语)
革命风暴席卷全球,牛鬼蛇神一片惊慌!!!