大模型吧 关注:305贴子:481
  • 1回复贴,共1

关于现有的开源大模型

只看楼主收藏回复

开源大模型目前已经发展的非常繁盛了,llama时期几乎只是没脑子的开源demo,现在已经可以和gpt4或是1.5Pro同一水平了,开这个帖子,回顾过去18个月以来快速追赶的开源大模型


IP属地:江西来自Android客户端1楼2024-08-12 23:26回复
    首先从最大的开始讲
    应该把这类称为巨型开源模型,参数在1000亿以上,绝大部分都拥有初期gpt4的性能。普遍不允许商业使用,发布这些模型可以说完全不是为了研究或是个人使用。因为对于几乎所有个人用户(少量统一内存的mac用户除外?)和大部分中小型实验室,不说是微调或者训练,连推理这些模型都很难。把权重开源出来,几乎只是相应公司的炫技。
    在千亿级参数模型中,最早开源的应该是马斯克xAI的Grok1 314B A86,时间是3月18号,截至目前是第二大开源大语言模型,性能参考下图,基本上处在3.5末期水平,上下文长度8192,总体上放在当时也完全不够看
    而以现在的眼光来看,可以说极其落后,各项性能和实际使用水平比现在很多十亿级的小模型还弱,几乎只是马斯克对其开源承诺不情不愿的兑现而已
    Grok1发布后不到一个月,4月11号,Mistral发布了Mistral8×22b模型,这家以Mistral7b和8×7b两个模型一炮而红的公司,没多久之前刚发布了相当接近GPT4的Mistral lagre,被认为是大模式界的新兴独角兽
    但很可惜 这个模型表现也非常一般。似乎也是早期Moe模型的特色,巨大的参数规模下,实际上推理参数只有44B左右,而性能也确实比当时主流的70b模型稍弱。
    因为并不是商业模型,较低的推理参数实际上并不会带来成本优势(参考后面的ds v2,moe架构下超大的规模和较少的推理参数带来了极大的成本优势),而较大的规模使得大部分开发者没法去微调和使用这个模式,再加上一周后llama3的横空出世,结果就是这个目前开源第三大模型完全无人问津,甚至在许多PPT中被当做反面教材和背景板,连测试结果都很难找到
    4月19号,可能是开源大于模型界 相当有纪念意义的时间,llama3 70b和8b发布并直接开源,在目前也仍然是lmsys中靠前的模型。当然 这里讨论的是千亿以上的模型,meta在发布中预告llama3 405b,和达到Gemini Pro水平的70b一同震惊了开源模型界。大概以此为分界点,后面的千亿级模型,也就是Command R+,Qwen1.5 110B,Mistral large2 123b,Deepseek V2(0628),以及最强的llama3.1 405b,这些模型基本上达到或超过了GPT4初期版本,完全反驳了李彦宏的开源不如闭源论(主要是因为李彦宏自己的混元,几乎无法超过上面任何一个模型


    IP属地:江西来自Android客户端2楼2024-08-12 23:58
    回复