脸书母公司Meta周四宣布推出新一代大语言模型Llama 3.共有80亿和700亿参数两种版本,用了24000块GPU、15万亿个token训练训练的Llama 3一亮相便登上开源大模型铁王座,而随着推理编码大幅提升,代码和权重全开源,加上4000 亿参数的版本也正在开发,专家认为4000亿参数的版本推出后将是全球首个开源GPT-4级别的模型。
Meta这次推出的80亿和700亿参数模型分别有预训练和指令微调两种版本,Meta也声称Llama 3性能优于Claude Sonnet、Mistral Medium和GPT-3.5.
80亿参数版本让所有人都能接触最前端的AI技术,全球各地的开发人员、研究人员都可以借此进行游戏、建造和实验,不过上下文长度相较之前虽增加一倍,但依然只能一次生成8千字。
Meta 也预告,接下来几个月将发布多个新功能的模型,包括多语言对话、更长上下文,以及整体能力提升。
在性能上,8B和70B显著优于Llama 2.取代了SOTA,预训练模型和指令微调模型在8B和70B的参数规模上取得了如此先进的性能,都是得益于预训练和训练后的改进。
此外,Llama 3已能在网页版Meta AI使用且免登录,AI模型资源平台Hugging Face共同创办人兼首席执行官表示:「Llama 1和2现已衍生出3万个新模型,Llama 3将给AI生态带来更大冲击。 」
不过,80亿跟700亿参数版本的Llama 3还只是开胃菜,Llama 3的4000亿参数版本不久便要解禁,目前还在训练中,其中预训练版本在推理挑战测试集ARC-Challenge上拿下96的高分,Llama 3的4000亿参数指令微调版更在数学、代码、 大规模多任务语言理解基准上表现非常亮眼。
英伟达高级科学家范麟熙将 Llama 3 的 4000 亿参数版本与 Claude 3 Opus、GPT-4-2024-04-09 版和 Gemini 在同基准数据中进行对比,结果显示 Llama 3 的 4000 亿参数版本在多语言推理任务跟代码能力,已经能跟 GPT-4、Claude 3 相匹敌,甚至完全胜过 Gemini Ultra 1.0.
OpenAI共同创办人兼AI研究员Andrej Karpathy认为,Llama 3的4000亿参数版本将会是首个开源GPT-4级别的模型,范麟熙也说Llama 3的4000亿参数版本将成为一个分水岭,将改变许多研究工作和草根创业公司的计算方式。
OpenAI研究科学家Will Depue也表达同样看法,认为Llama 3的4000亿参数版本将让未来的可能性无穷无尽,非常期待这样一款开源GPT-4级别的模型。