关于Neuro的输出、语音合成、字幕三者之间的联系【neurosama吧】_百度贴吧

08月10日漏签0天

neurosama吧关注：23,872贴子：138,545

14回复贴，共1页

<返回neurosama吧

关于Neuro的输出、语音合成、字幕三者之间的联系

只看楼主收藏回复

注意到一个问题，Neuro直播时，声音和字幕是同时出现的
省流：常规TTS要句子完整才能流畅生成语音，因此想知道为什么Neuro的字幕和语音同步输出😭
---浅度思考（耗时不紧不慢不快不慢）---
字幕很好理解，LLM本来就是一点一点流式输出的，把输出并联到字幕和过滤器等地方就行

声音也大概知道原理，虽然Neuro用的是微软TTS，不过从延迟上看，八成用的是那个容器服务，不是调用API，玩过我那个生成器的都知道API延迟不小（）
*容器是按量计费的，也就是说Neuro的每一句话都会从Vedal的银行卡里面扣钱

但语音合成不可能输出一个词就念一个词吧，至少是输出一整个句子才能流畅念下去，这样的表现和字幕又不符了（相当于字幕放完整个句子之后Neuro才开口念这句话）🤔
那也许完整的回复在字幕之前就已经生成好了，而字幕是跟随Neuro语音放出的，真实的延迟比我们看到的还要低
但这样效率就很差了，还要专门控制字幕的跟随放映，Vedal肯定忍不了这种资源浪费
而且过滤器也经常有输出一半捂嘴的现象，如果是完全生成后才放送，那完全没必要说一半再过滤

送TA礼物

IP属地:福建

1楼2025-02-21 18:26回复

应该是先生成完整字幕再念的，vedal给neuro的自动翻译非常流畅，不像翻译真人说话时因为没有完整语句翻译错误，之后再迅速改正导致的字幕乱跳，而且有时候因为英语倒装会导致有的词的中文字幕比英文字幕先出来，但如果是先生成完整语句又没法解释为什么要说一半堵嘴，可能是识别速度的问题

IP属地:北京

来自Android客户端2楼2025-02-21 19:37

不感兴趣

开通SVIP免广告

之前我似乎还在某个切片中看到过vedal打断了neuro的话？这大概可以说明，不是提前生成的完整回复？

IP属地:江苏

来自Android客户端3楼2025-02-21 22:10

收起回复

肯定是先有完整句子

IP属地:上海

来自Android客户端4楼2025-02-22 00:33

通过语音反推，必然是完整的句子，也就意味着字幕动画是额外的，当然或许会有长句分段发音的策略

IP属地:美国

来自Android客户端5楼2025-02-22 04:01

不懂技术，但是逻辑是能倒推出来的，先输出好聊天内容，然后才处理字幕和语音并同时输出，过滤器这里也在发挥作用，楼上提到的中文/日文推流应该也是包含在字幕里处理的
至于延迟我只能说🐢真的很牛逼

，闲聊回可以快速读取chat文本，但是dev回和🐢聊天识别真人语音根本不比识别文字慢，也就多人联动会要个1秒多的延迟来输入给neuro

IP属地:广东

来自Android客户端6楼2025-02-22 16:25

Azure有流式输出

IP属地:中国香港

来自Android客户端7楼2025-02-23 15:12

有无可能龟的大手已经给Neuro用上自研的Evil同款语音技术了

IP属地:浙江

8楼2025-02-23 15:40

不感兴趣

开通SVIP免广告

但是牛肉说“filtered”的时候vedal说能从后台看到被过滤的句子是什么，感觉是先生成完整句子再转换成直播里的语音和字幕，中间加了个过滤器，vedal也可以手动中断？

IP属地:安徽

来自Android客户端9楼2025-02-26 09:26

xxxiu
meow
6

不是先提前生成内容，我搞出来了，就是LLM流输出。按照标点符号分段。然后TTS双线程处理小段落➕顺序播放。在这个基础上每个小段落文字按照每个对应的音频的时间来显示输出字幕。音频时间播放完了字幕也就输出完了。完全不需要提前去生成。

IP属地:美国

来自Android客户端11楼2025-03-01 21:57

收起回复

扫二维码下载贴吧客户端

下载贴吧APP
看高清直播、视频！

贴吧热议榜

14回复贴，共1页

<返回neurosama吧

发表回复

发贴请遵守贴吧协议及“七条底线”贴吧投诉

内容:

使用签名档查看全部

发表

保存至快速回贴