关于现有的开源大模型_大模型吧

08月07日漏签0天

大模型吧关注：305贴子：481

1回复贴，共1页

<返回大模型吧

关于现有的开源大模型

只看楼主收藏回复

开源大模型目前已经发展的非常繁盛了，llama时期几乎只是没脑子的开源demo，现在已经可以和gpt4或是1.5Pro同一水平了，开这个帖子，回顾过去18个月以来快速追赶的开源大模型

送TA礼物

IP属地:江西

来自Android客户端1楼2024-08-12 23:26回复

首先从最大的开始讲
应该把这类称为巨型开源模型，参数在1000亿以上，绝大部分都拥有初期gpt4的性能。普遍不允许商业使用，发布这些模型可以说完全不是为了研究或是个人使用。因为对于几乎所有个人用户（少量统一内存的mac用户除外？）和大部分中小型实验室，不说是微调或者训练，连推理这些模型都很难。把权重开源出来，几乎只是相应公司的炫技。
在千亿级参数模型中，最早开源的应该是马斯克xAI的Grok1 314B A86，时间是3月18号，截至目前是第二大开源大语言模型，性能参考下图，基本上处在3.5末期水平，上下文长度8192，总体上放在当时也完全不够看
而以现在的眼光来看，可以说极其落后，各项性能和实际使用水平比现在很多十亿级的小模型还弱，几乎只是马斯克对其开源承诺不情不愿的兑现而已
Grok1发布后不到一个月，4月11号，Mistral发布了Mistral8×22b模型，这家以Mistral7b和8×7b两个模型一炮而红的公司，没多久之前刚发布了相当接近GPT4的Mistral lagre，被认为是大模式界的新兴独角兽
但很可惜这个模型表现也非常一般。似乎也是早期Moe模型的特色，巨大的参数规模下，实际上推理参数只有44B左右，而性能也确实比当时主流的70b模型稍弱。
因为并不是商业模型，较低的推理参数实际上并不会带来成本优势（参考后面的ds v2，moe架构下超大的规模和较少的推理参数带来了极大的成本优势），而较大的规模使得大部分开发者没法去微调和使用这个模式，再加上一周后llama3的横空出世，结果就是这个目前开源第三大模型完全无人问津，甚至在许多PPT中被当做反面教材和背景板，连测试结果都很难找到
4月19号，可能是开源大于模型界相当有纪念意义的时间，llama3 70b和8b发布并直接开源，在目前也仍然是lmsys中靠前的模型。当然这里讨论的是千亿以上的模型，meta在发布中预告llama3 405b，和达到Gemini Pro水平的70b一同震惊了开源模型界。大概以此为分界点，后面的千亿级模型，也就是Command R+，Qwen1.5 110B，Mistral large2 123b，Deepseek V2（0628），以及最强的llama3.1 405b，这些模型基本上达到或超过了GPT4初期版本，完全反驳了李彦宏的开源不如闭源论（主要是因为李彦宏自己的混元，几乎无法超过上面任何一个模型