当前位置：首页 > 人工智能 > 正文

探索AI训练新境界：Hugging Face发布Cosmopedia数据集

2024-02-25 14:52:11　　

　　近日，Hugging Face开源了一款名为“Cosmopedia”的AI训练数据集，被誉为目前世界上最大的合成数据集。

　　数据集规模：

　　该数据集由Mixtral 7b模型汇总生成，包含3000万以上文本文件，涵盖教科书、博客文章、故事小说、WikiHow教程等内容，共计250亿个Token。

　　详细标注信息

　　全面标注：

　　除了收录文本文件外，Cosmopedia数据集还为每条文件提供了详细的标注信息，包括“提示”、“合成内容”、“初始数据来源”、“标记长度”、“类型”和“目标受众”等。

　　子数据集提供：

　　此外，团队还提供了较小的子数据集Cosmopedia-100k，以方便用户管理和使用数据集。

　　未来展望

　　持续更新与完善：

　　Hugging Face表示，这次开源的数据集为0.1版本，未来将持续更新和完善该数据集，为AI训练提供更多可能性。

　　通过Cosmopedia数据集的开源，Hugging Face为AI领域带来了全新的探索方向，为研究人员和开发者提供了丰富的资源，有望推动AI技术的进一步发展。

免责声明： IT商业新闻网遵守行业规则，本站所转载的稿件都标注作者和来源。 IT商业新闻网原创文章，请转载时务必注明文章作者和来源“IT商业新闻网”，不尊重本站原创的行为将受到IT商业新闻网的追责，转载稿件或作者投稿可能会经编辑修改或者补充，如有异议可投诉至：post@itxinwen.com

微信公众号：您想你获取IT商业新闻网最新原创内容，请在微信公众号中搜索“IT商业网”或者搜索微信号：itxinwen，或用扫描左侧微信二维码。即可添加关注。

标签：

品牌、内容合作请点这里： 寻求合作 ››

榜单

今日推荐

探索AI训练新境界：Hugging Face发...

探索AI训练新境界：Hugging Face发布Cosmopedia数据集

相关阅读RELEVANT

榜单

今日推荐

科技互联