写在GPT5发布前的碎碎念【高通吧】

高通吧关注：186,944贴子：5,070,420

5回复贴，共1页

写在GPT5发布前的碎碎念

GPT-5的脚步越来越近了，整个行业估计都在屏息以待。发展到今天，OpenAI在某种意义上确实已经成为大模型领域的风向标，它的每一次动作都定义了接下来一段时间的行业叙事（虽然我个人还是更看好Google，不解释），并且这关乎到资本市场对AI行业是否有信心，影响着后续整个AI行业的融资环境。
可以预见，这次的发布会，最先被亮出来的，大概率又是那些闪瞎眼的跑分数据，在各种主流基准测试上实现碾压式的SOTA。但这，恐怕也是整场发布会里最无聊、最不重要的部分。
为什么这么说？一方面，各家厂商在构建预训练或微调数据集时，“无意”或“有意”地混入公开基准测试的样本，已经是公开的秘密。这就像考生提前拿到了考卷，刷出高分并不稀奇，但这能代表真实水平吗？另一方面，即便我们相信厂商们都有着高尚的职业操守，完全不作弊，现有的评测基准本身也存在巨大问题。
当前绝大多数基准测试，无论是MMLU还是GSM8K，本质上都是标准化的、静态的选择题或问答题。它们侧重于评估模型在特定、孤立技能上的表现，但这与真实世界里动态、复杂且需要深度上下文交互的任务场景偏差极大。AI在这些测试中拿高分，就像一个学生精通《五年高考三年模拟》，但不一定能解决现实生活中的复杂问题。
所以顺便提一句：构建一套全新的，更贴近人类真实使用场景，且不容易被强化学习（RL）通过Hacking手段刷奖励的基准测试，也许是一件比训练一个新SOTA模型更有价值的工作。红杉中国最近推出的xbench，似乎就在朝这个方向努力，这是一个好的迹象。
抛开虚无的跑分，我对即将到来的GPT-5（或者说它所代表的下一代模型）真正抱有期待的是以下几点：
极致的通用性：GPT-5能否成为一个真正的“全才”？在编程、语言、学术、乃至Vibe感上，都达到T0级别，而不是像现在的模型一样，各有偏科。
超长动态上下文：能够真正高效地处理超大规模，比如1M甚至更长的上下文窗口，并且能根据任务需求，动态地切换“思考”的深度和广度。
Vibe Coding与Agent能力：我最关心的，是它在Agent规划和执行上的能力。能否在“Vibe Coding”（一种更偏向直觉和感性的编程方式）上，媲美甚至超越目前在这方面目前的SOTA模型Claude 4系列？这很难，但这将是Agent能力质变的奇点。
学术研究的传承与进化：学术能力是GPT系列的祖传手艺，希望GPT-5能继续精进，提供更强的逻辑推理和知识整合能力。
Vibe聊天：这是对模型“世界直觉”和“人性洞察”的终极考验。我期待它能彻底摆脱当前大模型普遍存在的陈腔滥调和模板化回复，能像一个真正高情商、有深度的人类那样去交流和创作，在这方面全面超越我认为最强的Gemini 2.5p。
最后，我铃美如画。