OpenAI 近日发表的新论文《Why language models hallucinate》研究了语言模型产生幻觉的核心原因,认为是现有训练与评估机制鼓励模型猜测而非承认不确定性。
该论文认为,语言模型之所以会产生幻觉(即在不确定时进行猜测,生成看似可信但错误的陈述,而不是承认不确定性),是因为现有的训练和评估程序更倾向于奖励猜测行为,而非承认不确定性的做法 。
就像面对难题的学生一样,大型语言模型在不确定时有时会进行猜测,从而产生看似合理但错误的陈述,而不是承认不确定性。
这种 “幻觉” 现象即使在最先进的系统中也持续存在,并会破坏信任。
我们认为,语言模型产生幻觉是因为训练和评估程序奖励猜测而非承认不确定性,我们还分析了现代训练流程中产生幻觉的统计原因。
幻觉无需被神秘化 —— 它们源于简单的二元分类错误。如果无法将不正确的陈述与事实区分开来,那么预训练语言模型中的幻觉就会在自然的统计压力下产生。
接着我们认为,幻觉之所以持续存在,是因为大多数评估的评分方式 —— 语言模型被优化成优秀的 “考生”,而在不确定时进行猜测可以提高测试表现。
这种惩罚不确定性回答的 “流行病” 只能通过一种社会技术性的缓解措施来解决:修改那些虽不一致但主导着排行榜的现有基准测试的评分方式,而不是引入额外的幻觉评估。
这一改变或许能引导该领域走向更值得信赖的人工智能系统。