IT商业网-解读信息时代的商业变革
当前位置: 首页 > 人工智能 > 正文

70 亿参数的代码大模型 CodeShell正式开源:号称“同等规模最强代码基座”

2023-10-22 12:12:38  来源:IT之家    

  10月22日讯:北京大学软件工程国家工程研究中心知识计算实验室联合四川天府银行 AI 实验室,正式开源旗下 70 亿参数的代码大模型 CodeShell,号称“同等规模最强代码基座”。

  官方已经在 GitHub 开源了模型、相关配套方案及 IDE 插件,支持商用,感兴趣的小伙伴们可以在此前往。

  IT之家从项目详情中获悉,CodeShell-7B 基于 5000 亿 Tokens 进行了冷启动训练,上下文窗口长度为 8192,架构设计上融合了 StarCoder 和 Llama 两者的核心特性。

  官方声称,CodeShell 的原始训练数据基于自家爬取的 Github 数据、Stack 和 StarCoder 数据集,以及少量“高质量的中英文数据”,这些预训练数据均经过了“数据判重、数据过滤规则、数据质量模型一系列流水线”。

  CodeShell 构建了包含 7 万个词的词表,中文、英文、代码的压缩比分别为 2.83、3.29、3.21,支持中英文和代码的平衡且高效的编解码。

  具体性能方面,为了获得最大的分布式训练效率,Codeshell 基于 Megatron-LM,声称“在 Attention 算子优化、数据预处理、数据加载、日志输出、状态监控、分布式训练管理等方面进行了深度定制”,支持 Flash Attention2 加速,训练吞吐量达到了每 GPU 每秒 3400 Token 的业界先进水平。

  在代码评估基准 HumanEval 和 MBPP 中,CodeShell 超过了 CodeLlama-7B 和 StarCodeBase-7B,在 humaneval 的其它编程语言评测中,如 JavaScript、Java、C++,CodeShell 依然性能领先。

  官方还介绍了基于 CodeShell 打造的“全能代码助手模型”CodeShell-Chat,该 AI 工具支持“对话”、“代码生成”、“代码补齐”、“代码注释”、“代码检查”与“测试用例生成”等功能。

  而在 IDE 插件方面,该插件目前支持 VSCode 和 IntelliJ IDEA,适用于各种主流编程语言,并提供了“专注模式”和“交互模式”,以提升开发者效率。

原标题:北大推出“最强编程助手”:代码大模型 CodeShell-7B 开源,性能霸榜

免责声明: IT商业新闻网遵守行业规则,本站所转载的稿件都标注作者和来源。 IT商业新闻网原创文章,请转载时务必注明文章作者和来源“IT商业新闻网”, 不尊重本站原创的行为将受到IT商业新闻网的追责,转载稿件或作者投稿可能会经编辑修改或者补充, 如有异议可投诉至:post@itxinwen.com
微信公众号:您想你获取IT商业新闻网最新原创内容, 请在微信公众号中搜索“IT商业网”或者搜索微信号:itxinwen,或用扫描左侧微信二维码。 即可添加关注。
标签:

品牌、内容合作请点这里: 寻求合作 ››

相关阅读RELEVANT