高通吧 关注:186,944贴子:5,070,420
  • 5回复贴,共1

写在GPT5发布前的碎碎念

只看楼主收藏回复

GPT-5的脚步越来越近了,整个行业估计都在屏息以待。发展到今天,OpenAI在某种意义上确实已经成为大模型领域的风向标,它的每一次动作都定义了接下来一段时间的行业叙事(虽然我个人还是更看好Google,不解释),并且这关乎到资本市场对AI行业是否有信心,影响着后续整个AI行业的融资环境。
可以预见,这次的发布会,最先被亮出来的,大概率又是那些闪瞎眼的跑分数据,在各种主流基准测试上实现碾压式的SOTA。但这,恐怕也是整场发布会里最无聊、最不重要的部分。
为什么这么说?一方面,各家厂商在构建预训练或微调数据集时,“无意”或“有意”地混入公开基准测试的样本,已经是公开的秘密。 这就像考生提前拿到了考卷,刷出高分并不稀奇,但这能代表真实水平吗?另一方面,即便我们相信厂商们都有着高尚的职业操守,完全不作弊,现有的评测基准本身也存在巨大问题。
当前绝大多数基准测试,无论是MMLU还是GSM8K,本质上都是标准化的、静态的选择题或问答题。它们侧重于评估模型在特定、孤立技能上的表现,但这与真实世界里动态、复杂且需要深度上下文交互的任务场景偏差极大。AI在这些测试中拿高分,就像一个学生精通《五年高考三年模拟》,但不一定能解决现实生活中的复杂问题。
所以顺便提一句:构建一套全新的,更贴近人类真实使用场景,且不容易被强化学习(RL)通过Hacking手段刷奖励的基准测试,也许是一件比训练一个新SOTA模型更有价值的工作。红杉中国最近推出的xbench,似乎就在朝这个方向努力,这是一个好的迹象。
抛开虚无的跑分,我对即将到来的GPT-5(或者说它所代表的下一代模型)真正抱有期待的是以下几点:
极致的通用性:GPT-5能否成为一个真正的“全才”?在编程、语言、学术、乃至Vibe感上,都达到T0级别,而不是像现在的模型一样,各有偏科。
超长动态上下文:能够真正高效地处理超大规模,比如1M甚至更长的上下文窗口,并且能根据任务需求,动态地切换“思考”的深度和广度。
Vibe Coding与Agent能力:我最关心的,是它在Agent规划和执行上的能力。能否在“Vibe Coding”(一种更偏向直觉和感性的编程方式)上,媲美甚至超越目前在这方面目前的SOTA模型Claude 4系列?这很难,但这将是Agent能力质变的奇点。
学术研究的传承与进化:学术能力是GPT系列的祖传手艺,希望GPT-5能继续精进,提供更强的逻辑推理和知识整合能力。
Vibe聊天:这是对模型“世界直觉”和“人性洞察”的终极考验。我期待它能彻底摆脱当前大模型普遍存在的陈腔滥调和模板化回复,能像一个真正高情商、有深度的人类那样去交流和创作,在这方面全面超越我认为最强的Gemini 2.5p。
最后,我铃美如画。


IP属地:广东来自Android客户端1楼2025-08-01 10:00回复
    openrouter 上有个 Horizon Alpha 可以用gpt5。和claude opus差不多


    IP属地:福建来自Android客户端2楼2025-08-01 10:53
    回复
      2026-03-16 12:47:45
      广告
      不感兴趣
      开通SVIP免广告
      不指望这玩意写代码了,刚出来的时候看着还凑合,越用越像个离线搜索引擎,代码不是跑不起来就是太乱


      IP属地:北京来自Android客户端3楼2025-08-01 12:17
      收起回复