热门资讯

OpenAI新论文揭示AI模型出现幻觉的原因：并非神秘故障而是模型训练的奖励机制问题

业界来源：蓝点网 2025-09-07 13:41:59

目前人工智能模型普遍存在幻觉问题，所谓幻觉就是模型偶尔会自信满满地输出错误信息，此前曾有报道称连研究人员都搞不清幻觉的根源，因为模型在运行中属于黑盒模式。

不过 OpenAI 研究团队最新发布的论文已经揭示这种幻觉的原因：产生幻觉的根本原因并非神秘故障，而是源于训练和评估机制的激励偏差，这种激励机制是产生幻觉的根本原因。

幻觉指的是人工智能模型生成看似合理但实际虚假的陈述，这种错误可能出现在简单的问题上，但 AI 模型却以非常自信的语气呈现导致用户以为内容是真实的。

对初级用户来说可以将幻觉想象成人类在对话中的胡说八道，模型像人类那样编造信息并且缺乏自我怀疑能力，OpenAI 称即便是最先进的 GPT-5 模型也无法完全消除幻觉，尽管该模型在推理任务中的幻觉已经明显减少。

论文的核心观点是，幻觉持续存在的部分源于当前评估方法的激励失误，这种评估类似于考试评分系统，但该系统更鼓励模型蒙答案而不是诚实承认未知。

以多选题考试为例：如果你不知道正确答案，瞎猜可能会碰巧正确并获得分数，但如果留空那肯定是零分的，所以 AI 模型的评估通常只计算准确率也就是正确答案的比例，而忽略错误率或弃权率 (模型选择不说或承认不确定)。

这种激励模式导致的结果是模型学会了在不确定的时候大胆猜测以提高整体分数，而不是坦率承认不会，正如各位向 AI 提问时，AI 总会给出回答而不是说自己不知道。

论文称在真实应用中许多问题因为信息缺失、模型能力有限或者问题存在歧义导致模型无法给出 100% 正确的回答，因此单纯追求准确率的排行榜在无意中鼓励了这种行为，导致先进模型仍然会自信输出错误回答。

OpenAI 的核心价值观包括谦逊，其模型规范明确规定宁可表示不确定或寻求澄清，也不要提供可能错误的回答，也就是：知之为知之，不知为不知，是知也。

研究团队提出一个简单却有效的修复方案：调整评分规则并严厉惩罚自信错误，同时为适当的不准确性给与部分分数，这类似标准化考试的负分制：错误扣分，留空不扣。

不过研究团队也强调仅添加少数考虑不确定性的新测试不足以解决问题，主要基准测试必须全面更新以避免奖励幸运猜测，这样才能推动开发者采用减少幻觉技术，包括现有方法和新研究。

只有主流评估测试转向激励谦逊，模型才会学会在不确定时闭嘴而不是自信满满的编造回答。

为什么人工智能模型容易产生事实性幻觉却很少出现拼写或语法错误？论文从预训练过程入手进行解释。模型首先会通过下一个词预测学习，在海量文本中预测下一个单词，没有明确的真假标签，只有流畅语言的正面示例。

预训练像是教孩子阅读，只给正确句子看而不会标注错误，模型必须从模式中推断分布，但事实例如某人生日往往是低频的、随机的、无法从模式预测。例如图像识别模型可以轻易分类猫和狗，但要预测宠物生日进行随机猜测那必然是错误的。

拼写和括号匹配有着固定的规则，随着模型规模扩大而消失，但低频事实例如名人生日缺乏模式，导致预训练后幻觉开始萌芽，随后阶段例如微调本应该修改错误，但前文提到的评估激励让问题延续，论文称这种统计机制决定哪些幻觉类型会浮现，并非模型智能不足。

有趣的是小型模型有时候更容易避免幻觉，例如问毛利语时，不知道毛利语的小型模型会直接说不知道，而更大规模的模型需评估自信度、计算更复杂，更容易出现错误的幻觉。

论文也通过统计视角澄清常见的误区：

误区 1：提升准确率就能消除幻觉，因为 100% 准确模型不会出错。

事实 1：准确率永远不可能达到 100%，因为有些问题本质上不可回答例如信息缺失。

误区 2：幻觉不可免。

事实 2：模型可以通过弃权来回避幻觉。

误区 3：只有大型模型才能避免幻觉，需要更高的智能。

事实 3：小模型更容易校验自身的不确定性。

误区 4：幻觉是神秘故障。

事实 4：幻觉源于可理解的统计机制和评估奖励。

误区 5：只需要一个好幻觉评估系统即可。

事实 5：需要全面重构当前主流准确率评估，以奖励不确定性。

OpenAI 表示，其最新模型的幻觉率已经降低并继续努力减少自信错误，展望未来：这一研究有望推动行业标准变革，让 AI 更可靠、更谦逊，对用户而言选择支持不确定性表达的模型，也有助于提升交互体验。