快科技 2 月 4 日消息,近日,腾讯混元团队和复旦联合团队发布了首篇论文《CL-bench》。
值得一提的是,这也是姚顺雨入职腾讯首席 AI 科学家后,首次署名的研究论文。
他在文中提到,当前 AI 与真正智能之间的鸿沟,不在于知识的多少,而在于学习的能力。
一个装满知识却不会学习的 AI,就像一个背了整本字典却不会写作的人,看起来博学,实则僵化。

人类并不只依赖多年前学到的死知识,而是在实时地从眼前的上下文中学习。
在这篇论文里,研究团队提到,大模型在上下文利用上,依然存在显著的能力短板。
为了衡量现有模型距离真正的 " 上下文学习者 " 还有多远,研究团队构建了 CL-bench。
这是一个专门评测语言模型能否从上下文中学习新知识并正确应用的基准。
CL-bench 包含由资深领域专家精心制作的 500 个复杂上下文、1899 个任务和 31607 个验证标准。
CL-bench 只包含一个简单但苛刻的要求:" 解决每个任务要求模型必须从上下文中学习到模型预训练中不存在的新知识,并正确应用。"
通过实验发现,世界上排名前十的语言模型在 CL-bench 上的任务解决率平均只有 17.2%。
也就是说即使是如今最强的语言模型,在上下文的利用方面仍然做得不好,甚至可以说是还不会利用上下文,从上下文中学习。
不过这也为大语言模型后续的迭代指出了一个可能的方向,强化模型从上下文中进行学习的能力。


登录后才可以发布评论哦
打开小程序可以发布评论哦