OpenAI新论文揭示AI模型出现幻觉的原因:并非神秘故障而是模型训练的奖励机制问题
目前人工智能模型普遍存在幻觉问题,所谓幻觉就是模型偶尔会自信满满地输出错误信息,此前曾有报道称连研究人员都搞不清幻觉的根源,因为模型在运行中属于黑盒模式。
不过 OpenAI 研究团队最新发布的论文已经揭示这种幻觉的原因:产生幻觉的根本原因并非神秘故障,而是源于训练和评估机制的激励偏差,这种激励机制是产生幻觉的根本原因。
什么是人工智能模型的幻觉:
幻觉指的是人工智能模型生成看似合理但实际虚假的陈述,这种错误可能出现在简单的问题上,但 AI 模型却以非常自信的语气呈现导致用户以为内容是真实的。
对初级用户来说可以将幻觉想象成人类在对话中的胡说八道,模型像人类那样编造信息并且缺乏自我怀疑能力,OpenAI 称即便是最先进的 GPT-5 模型也无法完全消除幻觉,尽管该模型在推理任务中的幻觉已经明显减少。
评估机制如何助长幻觉:
论文的核心观点是,幻觉持续存在的部分源于当前评估方法的激励失误,这种评估类似于考试评分系统,但该系统更鼓励模型蒙答案而不是诚实承认未知。
以多选题考试为例:如果你不知道正确答案,瞎猜可能会碰巧正确并获得分数,但如果留空那肯定是零分的,所以 AI 模型的评估通常只计算准确率也就是正确答案的比例,而忽略错误率或弃权率 (模型选择不说或承认不确定)。
这种激励模式导致的结果是模型学会了在不确定的时候大胆猜测以提高整体分数,而不是坦率承认不会,正如各位向 AI 提问时,AI 总会给出回答而不是说自己不知道。
论文称在真实应用中许多问题因为信息缺失、模型能力有限或者问题存在歧义导致模型无法给出 100% 正确的回答,因此单纯追求准确率的排行榜在无意中鼓励了这种行为,导致先进模型仍然会自信输出错误回答。
OpenAI 的核心价值观包括谦逊,其模型规范明确规定宁可表示不确定或寻求澄清,也不要提供可能错误的回答,也就是:知之为知之,不知为不知,是知也。
如何改进激励模式解决幻觉:
研究团队提出一个简单却有效的修复方案:调整评分规则并严厉惩罚自信错误,同时为适当的不准确性给与部分分数,这类似标准化考试的负分制:错误扣分,留空不扣。
不过研究团队也强调仅添加少数考虑不确定性的新测试不足以解决问题,主要基准测试必须全面更新以避免奖励幸运猜测,这样才能推动开发者采用减少幻觉技术,包括现有方法和新研究。
只有主流评估测试转向激励谦逊,模型才会学会在不确定时闭嘴而不是自信满满的编造回答。
幻觉发生的根本原因:
为什么人工智能模型容易产生事实性幻觉却很少出现拼写或语法错误?论文从预训练过程入手进行解释。模型首先会通过下一个词预测学习,在海量文本中预测下一个单词,没有明确的真假标签,只有流畅语言的正面示例。
预训练像是教孩子阅读,只给正确句子看而不会标注错误,模型必须从模式中推断分布,但事实例如某人生日往往是低频的、随机的、无法从模式预测。例如图像识别模型可以轻易分类猫和狗,但要预测宠物生日进行随机猜测那必然是错误的。
拼写和括号匹配有着固定的规则,随着模型规模扩大而消失,但低频事实例如名人生日缺乏模式,导致预训练后幻觉开始萌芽,随后阶段例如微调本应该修改错误,但前文提到的评估激励让问题延续,论文称这种统计机制决定哪些幻觉类型会浮现,并非模型智能不足。
有趣的是小型模型有时候更容易避免幻觉,例如问毛利语时,不知道毛利语的小型模型会直接说不知道,而更大规模的模型需评估自信度、计算更复杂,更容易出现错误的幻觉。
澄清误解与未来展望:
论文也通过统计视角澄清常见的误区:
误区 1:提升准确率就能消除幻觉,因为 100% 准确模型不会出错。
事实 1:准确率永远不可能达到 100%,因为有些问题本质上不可回答例如信息缺失。
误区 2:幻觉不可免。
事实 2:模型可以通过弃权来回避幻觉。
误区 3:只有大型模型才能避免幻觉,需要更高的智能。
事实 3:小模型更容易校验自身的不确定性。
误区 4:幻觉是神秘故障。
事实 4:幻觉源于可理解的统计机制和评估奖励。
误区 5:只需要一个好幻觉评估系统即可。
事实 5:需要全面重构当前主流准确率评估,以奖励不确定性。
OpenAI 表示,其最新模型的幻觉率已经降低并继续努力减少自信错误,展望未来:这一研究有望推动行业标准变革,让 AI 更可靠、更谦逊,对用户而言选择支持不确定性表达的模型,也有助于提升交互体验。
文章目录
什么是人工智能模型的幻觉:
评估机制如何助长幻觉:
如何改进激励模式解决幻觉:
幻觉发生的根本原因:
澄清误解与未来展望:
-
我国科研人员研发出类脑脉冲大模型
记者今天(9月8日)从中国科学院自动化研究所获悉,近日,该研究所李国齐、徐波团队与相关单位合作,成功研发出类脑脉冲大模型“瞬悉1.0”(SpikingBrain-1.0)。该模型基于团队原创的“内生复
-
Anthropic因下载盗版书训练模型向作者赔偿15亿美元 平均每本书约3,000美元
人工智能开发商 Anthropic 日前已经同意支付 15 亿美元以和解作者和出版商对其提起的法律诉讼,该诉讼涉及 Anthropic 使用数百万本受保护的书籍来训练 Claude 模型。具体来说该公
-
谷歌搜索称AI概览不会导致网站流量下降 但前提是用户提出的问题更多
目前已经有多个 SEO 网站和站长分享数据表明谷歌搜索在推出 AI 概览后导致网站流量下降,原因在于谷歌搜索 AI 爬虫会自动检索网站内容并生成回答,因此用户并不需要点击网站就可以知道答案。按照这种情
关注公众号:拾黑(shiheibook)了解更多
友情链接:
关注数据与安全,洞悉企业级服务市场:https://www.ijiandao.com/
安全、绿色软件下载就上极速下载站:https://www.yaorank.com/
- 苹果iPhone 17系列将全系涨价50美元:抵消关税、零部件上涨
- 《植物大战僵尸3》iOS端开启预约:定档7月18日
- 普通百姓买得起的旅行车:比亚迪海豹06旅行版实车首曝
- 国产心理恐怖游戏《黑暗世界》新预告 国区定价88元
- 宁王曾毓群喜提岚图梦想家!CEO卢放亲自交付
- 马东锡时隔8年回归荧幕!“十二生肖”主题韩剧
- 林心如罕秀清凉泳装辣照,面露灿笑吸上万网友朝圣
- 华为Mate XT三折叠最新黄牛价格曝光:能买6.5台iPhone 16
- Apple Intelligence即将登场:苹果杀入AI领域
- 王冰冰演戏登热搜 出演央视剧职场女孩引网友共鸣
- 林家铺子控糖黄桃罐头5.7元大促(京东10元)
- 欧拉汽车推出限时保价政策 年底前订购并支付定金可享受国家补贴

随时掌握互联网精彩