chatgpt吧 关注:142,934贴子:458,478
  • 3回复贴,共1

gpt4.1和o4迷你在arena排名的elo分数好低

只看楼主收藏回复

真有这么低吗,是elo评分权威性不够还是真的很拉胯,感觉没那么差吧,都排到免费的ds后面去了



IP属地:广东来自Android客户端1楼2025-05-07 11:19回复
    看了一下live bench,感觉可信度高一点,今早用o3和gemini pro整合了一下数据,感觉o3好一点,但是思考时间很长,动不动就是五六分钟,gemini 2.5pro经常思考两三分钟就不思考了,还表示计算量过大只给出部分例子,不知道有没有人能做到让gemini 2.5 pro长思考


    IP属地:广东来自Android客户端2楼2025-05-07 11:29
    回复
      2025-08-06 14:55:57
      广告
      不感兴趣
      开通SVIP免广告
      gpt表示gemini才是第一,不知道什么情况, 难道看的不是global average?


      IP属地:广东来自Android客户端3楼2025-05-07 11:37
      收起回复