IT商业网-解读信息时代的商业变革
当前位置: 首页 > 人工智能 > 正文

探索AI训练新境界:Hugging Face发布Cosmopedia数据集

2024-02-25 14:52:11     

  近日,Hugging Face开源了一款名为“Cosmopedia”的AI训练数据集,被誉为目前世界上最大的合成数据集。

  数据集规模:

  该数据集由Mixtral 7b模型汇总生成,包含3000万以上文本文件,涵盖教科书、博客文章、故事小说、WikiHow教程等内容,共计250亿个Token。

  详细标注信息

  全面标注:

  除了收录文本文件外,Cosmopedia数据集还为每条文件提供了详细的标注信息,包括“提示”、“合成内容”、“初始数据来源”、“标记长度”、“类型”和“目标受众”等。

  子数据集提供:

  此外,团队还提供了较小的子数据集Cosmopedia-100k,以方便用户管理和使用数据集。

  未来展望

  持续更新与完善:

  Hugging Face表示,这次开源的数据集为0.1版本,未来将持续更新和完善该数据集,为AI训练提供更多可能性。

  通过Cosmopedia数据集的开源,Hugging Face为AI领域带来了全新的探索方向,为研究人员和开发者提供了丰富的资源,有望推动AI技术的进一步发展。

免责声明: IT商业新闻网遵守行业规则,本站所转载的稿件都标注作者和来源。 IT商业新闻网原创文章,请转载时务必注明文章作者和来源“IT商业新闻网”, 不尊重本站原创的行为将受到IT商业新闻网的追责,转载稿件或作者投稿可能会经编辑修改或者补充, 如有异议可投诉至:post@itxinwen.com
微信公众号:您想你获取IT商业新闻网最新原创内容, 请在微信公众号中搜索“IT商业网”或者搜索微信号:itxinwen,或用扫描左侧微信二维码。 即可添加关注。
标签:

品牌、内容合作请点这里: 寻求合作 ››

相关阅读RELEVANT