当前位置：首页 > 人工智能 > 正文

谷歌揭秘语言模型失误：BIG-Bench Mistake评估揭示纠错能力与逻辑错误挑战

2024-01-18 12:13:18　　

　　在最新的研究中，谷歌研究院利用自家的BIG-Bench基准测试，创建了一个名为“BIG-Bench Mistake”的专用基准数据集。该数据集旨在评估市面上流行的语言模型在“出错概率”和“自我纠错能力”方面的表现。

　　BIG-Bench Mistake数据集的建立

　　研究人员首先使用PaLM语言模型在BIG-Bench基准测试任务中运行了5项任务。随后，通过修改生成的“思维链”轨迹，加入“逻辑错误”部分，重新提交给模型，以判断思维链轨迹中存在哪些错误。通过多次反复进行这一过程，形成了一个包含“255项逻辑错误”的“BIG-Bench Mistake”专用基准数据集。

　　数据集的作用与优势

　　谷歌研究人员指出，由于该数据集中的逻辑错误相对“简单明确”，它可以作为一个良好的测试标准，帮助语言模型从简单的逻辑错误开始练习，逐步提升辨识错误的能力。

　　测试结果与挑战

　　通过使用这一数据集对市面上的语言模型进行测试，研究人员发现大多数模型可以识别推理过程中的逻辑错误并进行自我修正。然而，这一过程并不够理想，通常需要人工干预来纠正模型输出的内容。谷歌声称“目前最先进的大语言模型”在自我纠错能力方面也相对有限，最好的模型仅找出了52.9%的逻辑错误。

　　改善自我纠错能力的建议

　　谷歌研究人员建议使用这一BIG-Bench Mistake数据集来改善模型的自我纠错能力。经过相关测试任务的微调后，即便是小型模型的表现通常也比零样本提示的大模型更好。因此，谷歌认为在模型纠错方面，使用专有小型模型来“监督”大型模型，相对于让大语言模型学会“纠正自我错误”，部署专用于监督大模型的小型专用模型有利于改善效率、降低相关AI部署成本，并更便于微调。

免责声明： IT商业新闻网遵守行业规则，本站所转载的稿件都标注作者和来源。 IT商业新闻网原创文章，请转载时务必注明文章作者和来源“IT商业新闻网”，不尊重本站原创的行为将受到IT商业新闻网的追责，转载稿件或作者投稿可能会经编辑修改或者补充，如有异议可投诉至：post@itxinwen.com

微信公众号：您想你获取IT商业新闻网最新原创内容，请在微信公众号中搜索“IT商业网”或者搜索微信号：itxinwen，或用扫描左侧微信二维码。即可添加关注。

标签：

品牌、内容合作请点这里： 寻求合作 ››

榜单

今日推荐

谷歌揭秘语言模型失误：BIG-Bench M...

谷歌揭秘语言模型失误：BIG-Bench Mistake评估揭示纠错能力与逻辑错误挑战

相关阅读RELEVANT

榜单

今日推荐

科技互联