IT商业网-解读信息时代的商业变革
当前位置: 首页 > 苹果手机 > 正文

苹果AI终于来了!诚意满满 4种版本开源生成式AI模型OpenELM

2024-04-25 14:38:18  来源:IT商业网    

  苹果因在生成式AI领域的脚步太慢,遭微软、OPenAI、Google等科技公司狠甩几条街,即使执行长库克表示,今年稍晚就会有生成式AI的新进展,仍无法挽回部分投资人信心,今年迄今股价仍跌逾12%。 如今,苹果总算有生成式 AI 的新举措。

  为了在加速生成式AI的发展,苹果在开源AI平台Hugging Face上发布一个具有开源训练和推理框架的高效语言模型,名为OpenELM。

  据了解,OpenELM有四种尺寸:2.7亿、4.5亿、11亿和30亿个参数版本,定位于超小规模模型,而微软Phi-3模型为38亿。 这种小模型运行成本更低,可在手机和笔记本电脑等设备上运行。

  同时,在 WWDC24 开发者大会之前,苹果彻底开源了 OpenELM 模型权重和推理代码,数据集和训练日志等。 而且,苹果还开源了神经网络库编码CoreNet。

  早在今年2月,库克就表示,苹果生成式AI功能将于「今年稍后」推出,有消息称即将在6月发布iOS 18可能是苹果iOS史上「最大」的更新,而9月也将推出首款AIiPhone设备。

  如今,苹果似乎在新一轮 AI 浪潮快到尾声的时刻追赶上了产业脚步。

  随着ChatGPT风靡全球,近几个月来,三星、谷歌、小米等手机厂商全面推进大语言模型在手机、平板等端侧上的使用,包括照片处理、文字处理增强等,并形成一大卖点。 而苹果很少透露且极少有类似的自备功能,主要是用第三方工具做到类似效果。

  今年 2 月财报会议上,库克首次公布生成式 AI 计划,并将在今年稍后将 AI 技术整合到其软件平台(iOS、iPadOS 和 macOS)中。

  库克表示,我只想说,我认为苹果在生成式 AI 和 AI 方面存在着巨大的机会,无需透露更多细节,也无需超出自己的预期。 展望未来,我们将继续投资于这些和其他 将塑造未来的技术。 其中包括AI,我们继续在AI领域花费大量时间和精力,我们很高兴能在今年晚些时候分享我们在该领域正在进行的工作的细节。 」

  事实上,自年初至今,苹果在生成式 AI 领域动作不断。 今年3月,苹果技术团队发表论文《MM1: Methods, Analysis &Insights from Multimodal LLM Pre-training》,首次披露苹果大模型MM1.涵盖300亿参数、支持多模态、支持MoE架构,超半数作者属于华人。

  如今,针对手机、平板等端侧领域,苹果真正的开源模型终于来了。

  根据论文显示,苹果开源了大语言模型OpenELM,有指令微调和预训练两种模型版本,共有2.7亿、4.5亿、11亿和30亿4种参数,提供生成文本、代码、翻译、总结摘要等功能。

  虽然最小的参数只有2.7亿,但苹果使用了包括RefinedWeb、去重的PILE、RedPajama的子集和Dolma v1.6的子集在内的公共数据集,一共约1.8万亿tokens资料进行了预训练,这也是其能以小参数表现出超强性能的主要原因之一。

  例如,11亿参数的OpenELM,比12亿参数的OLMo模型的准确率高出2.36%,而使用的预训练数据却只有OLMo的一半。

  在训练流程中,苹果采用了编码作为训练框架,并使用了Adam优化算法进行了35万次迭代训练。 而苹果的 MobileOne、CVNets、MobileViT、FastVit 等知名研究都是基于 CoreNet 完成的。

  苹果在论文中也表示,与以往只提供模型权重和推理代码并在私有数据集上进行预训练的做法不同,苹果发布的版本包含了在公开资料集上训练和评估语言模型的完整框架,包括训练日志、多个检查点和预训练配置。 同时,苹果也发布将模型转换为MLX库的代码,以便在苹果设备上进行推理和微调。

  「此次全面发布旨在增强和巩固开放研究社区,为未来的开放研究工作铺平道路。 」苹果研究团队表示。

  此外,OpenELM 不使用任何全连接层中的可学习偏移参数,采用 RMSNorm 进行预归一化,并使用旋转位置嵌入编码位置信息。 OpenELM 也通过分组查询注意力取代多头注意力,用 SwiGLU FFN 取代了传统的前馈网络,并使用了 Flash 注意力来计算缩放点积注意力,能以更少的资源来进行训练和推理。 同,苹果使用了动态分词和数据过滤的方法,实现了实时过滤和分词,从而简化了实验流程并提高了灵活性。 也使用了与Meta的 Llama 相同的分词器,以确保实验的一致性。

  这次,苹果很有诚意将代码开源,一开到底,把所有内容都贡献出来了。 仅1天多的时间,在模型GitHub平台上就获得超过1100颗星。

  而目前,大模型领域主要分为开源与闭源两大阵营,国内外知名闭源的代表企业有 OpenAI、Anthropic、Google、Midjourney、百度、出门问问等;开源阵营有 Meta、微软、Google、 商汤、百川智能、零一万物等。

  苹果身为手机闭源领域的领导者,这次却罕见地加入开源大模型阵营。 有分析认为,这可能在效法Google的方式先通过开源拉拢用户,再用闭源产品去实现商业化营利。

  同时,这也显示苹果进军 AI 大模型领域的坚定决心。

  作为同为端侧模型、开源模型企业,商汤科技联合创始人、首席科学家王晓刚近期对钛媒体App表示,开源还是对于整个社区的发展还是非常重要的,是一个重要驱动力。 最终大模型的发展包括各种应用,还是要整个社区共同去推动的。 对于大模型的应用也分为不同的层次,这么多产业对应用的需求也是不一样的,丰富的开源社群非常重要。

免责声明: IT商业新闻网遵守行业规则,本站所转载的稿件都标注作者和来源。 IT商业新闻网原创文章,请转载时务必注明文章作者和来源“IT商业新闻网”, 不尊重本站原创的行为将受到IT商业新闻网的追责,转载稿件或作者投稿可能会经编辑修改或者补充, 如有异议可投诉至:post@itxinwen.com
微信公众号:您想你获取IT商业新闻网最新原创内容, 请在微信公众号中搜索“IT商业网”或者搜索微信号:itxinwen,或用扫描左侧微信二维码。 即可添加关注。
标签:

品牌、内容合作请点这里: 寻求合作 ››

相关阅读RELEVANT