注意到一个问题,Neuro直播时,声音和字幕是同时出现的
省流:常规TTS要句子完整才能流畅生成语音,因此想知道为什么Neuro的字幕和语音同步输出😭
---浅度思考(耗时 不紧不慢不快不慢)---
字幕很好理解,LLM本来就是一点一点流式输出的,把输出并联到字幕和过滤器等地方就行
声音也大概知道原理,虽然Neuro用的是微软TTS,不过从延迟上看,八成用的是那个容器服务,不是调用API,玩过我那个生成器的都知道API延迟不小()
*容器是按量计费的,也就是说Neuro的每一句话都会从Vedal的银行卡里面扣钱
但语音合成不可能输出一个词就念一个词吧,至少是输出一整个句子才能流畅念下去,这样的表现和字幕又不符了(相当于字幕放完整个句子之后Neuro才开口念这句话)🤔
那也许完整的回复在字幕之前就已经生成好了,而字幕是跟随Neuro语音放出的,真实的延迟比我们看到的还要低
但这样效率就很差了,还要专门控制字幕的跟随放映,Vedal肯定忍不了这种资源浪费
而且过滤器也经常有输出一半捂嘴的现象,如果是完全生成后才放送,那完全没必要说一半再过滤
省流:常规TTS要句子完整才能流畅生成语音,因此想知道为什么Neuro的字幕和语音同步输出😭
---浅度思考(耗时 不紧不慢不快不慢)---
字幕很好理解,LLM本来就是一点一点流式输出的,把输出并联到字幕和过滤器等地方就行

声音也大概知道原理,虽然Neuro用的是微软TTS,不过从延迟上看,八成用的是那个容器服务,不是调用API,玩过我那个生成器的都知道API延迟不小()
*容器是按量计费的,也就是说Neuro的每一句话都会从Vedal的银行卡里面扣钱

但语音合成不可能输出一个词就念一个词吧,至少是输出一整个句子才能流畅念下去,这样的表现和字幕又不符了(相当于字幕放完整个句子之后Neuro才开口念这句话)🤔
那也许完整的回复在字幕之前就已经生成好了,而字幕是跟随Neuro语音放出的,真实的延迟比我们看到的还要低
但这样效率就很差了,还要专门控制字幕的跟随放映,Vedal肯定忍不了这种资源浪费
而且过滤器也经常有输出一半捂嘴的现象,如果是完全生成后才放送,那完全没必要说一半再过滤