近日,Hugging Face开源了一款名为“Cosmopedia”的AI训练数据集,被誉为目前世界上最大的合成数据集。
数据集规模:
该数据集由Mixtral 7b模型汇总生成,包含3000万以上文本文件,涵盖教科书、博客文章、故事小说、WikiHow教程等内容,共计250亿个Token。
详细标注信息
全面标注:
除了收录文本文件外,Cosmopedia数据集还为每条文件提供了详细的标注信息,包括“提示”、“合成内容”、“初始数据来源”、“标记长度”、“类型”和“目标受众”等。
子数据集提供:
此外,团队还提供了较小的子数据集Cosmopedia-100k,以方便用户管理和使用数据集。
未来展望
持续更新与完善:
Hugging Face表示,这次开源的数据集为0.1版本,未来将持续更新和完善该数据集,为AI训练提供更多可能性。
通过Cosmopedia数据集的开源,Hugging Face为AI领域带来了全新的探索方向,为研究人员和开发者提供了丰富的资源,有望推动AI技术的进一步发展。