碧蓝档案吧 关注:423,874贴子:10,585,456

让你的学生开口唱歌!RVC云端训练指南

取消只看楼主收藏回复

如题,这是一个RVC变声器的训练指南,鼠鼠镇楼。


IP属地:四川来自Android客户端1楼2024-09-11 22:13回复
    现在先挖坑,以后慢慢填好


    IP属地:四川来自Android客户端2楼2024-09-11 22:14
    回复
      你可能需要的软件:AU,格式工厂,阿里云盘,还有一个浏览器


      IP属地:四川来自Android客户端4楼2024-09-11 22:15
      回复
        首先,目前网上的AI音声合成软件/项目可分为3类:TTS(文字转语音,例如fish-speech,GPT-sovits),SVC(歌声转换,例如so-vits-svc,DDSP-svc),SVS(歌声合成,例如diffsinger,vocaloid,ACE,synthesizer v等)。而这里所述的RVC是SVC项目,可以将输入音源转换为另一种音声。


        IP属地:四川6楼2024-09-11 22:45
        回复
          为了避免一些不必要的麻烦,请不要生成或训练任何zz,暴力,涩情内容。同时我不建议您使用这类生成式AI进行任何商业活动,尤其是使用了未经授权的数据集训练出的模型,这可能会导致一些法律上的纠纷。


          IP属地:四川8楼2024-09-11 22:55
          回复
            再次重申:
            请不要使用生成式AI合成任何与ZZ相关的内容
            笔者,项目贡献者和模型作者不对软件及其创作出作品具备任何控制力, 使用软件者、传播软件导出的声音者自负全责


            IP属地:四川来自Android客户端9楼2024-09-11 23:01
            回复
              今天就写到这里,明天开始更新正文


              IP属地:四川来自Android客户端10楼2024-09-11 23:02
              回复
                我为什么推荐各位使用RVC,其一,RVC训练所需数据集少(10分钟即可,也就是说只要有换皮的学生就可以开练)其二,相对于so-vits-svc,RVC的下限更高,在数据集质量较差的情况,RVC的效果更好(众所周知你游很多语音音质都只能用悲剧来形容,当然so-vits-svc的上限是比RVC高的),其三,RVC的云端训练成本低,一般可以控制在1元以内。


                IP属地:四川22楼2024-09-12 21:31
                回复
                  那么什么样的声音适合AI翻唱呢?大多数情况下,音声偏亮的声音更适合,例如:优香,和纱,而音声较暗的不太适合,例如佳代子,纱织,这些声音训练出的模型,音域窄,一般而言效果不会太好。


                  IP属地:四川23楼2024-09-12 22:43
                  回复
                    假期边练模型边写算了


                    IP属地:四川24楼2024-09-12 22:59
                    回复
                      继续更新


                      IP属地:四川26楼2024-09-14 20:43
                      回复
                        1.搜集数据集:打开浏览器,输入kivo.fun以进入古书馆,下载角色音频(那种太短的就不下了,例如受击语音)


                        IP属地:四川27楼2024-09-14 20:55
                        回复
                          补充一点:沾了混响的语音也不能要


                          IP属地:四川28楼2024-09-14 21:15
                          回复
                            2.合并语音
                            我们需要将上述音频进行合并,以方便我们来进行下一步:响度匹配


                            IP属地:四川29楼2024-09-14 21:30
                            回复
                              由于古书馆的语音响度太大,直接拿去训练的话模型效果不会很好。所以进行响度匹配是必要的。但是每个角色换皮的语音响度不同,所以我们应该按不同的换皮来分开合并。例如我这里下载了宫子和泳装宫子的语音,打开格式工厂,点击音频合并,将原皮和泳装皮分别合并成两个采样率为44100Hz的WAV文件。


                              IP属地:四川30楼2024-09-14 22:08
                              回复