AI训练的悖论:为什么越追求准确率越会产生幻觉?

作者:MobotStone日期:2025/10/5

在早期时,我曾让大模型撰写一位冷门历史人物的传记。它胸有成竹,娓娓道来:年代、成就,甚至几句“名言”,一应俱全。读起来简直像历史上真的存在一样。

唯一的问题是:大部分内容都不是真的。严格来说,模型并非“撒谎”,而是在知识缺口处用看似合理的细节把空白填满。它是出色的故事编辑者,却是离谱的历史学家。

这种问题在 AI 领域叫做"幻觉"(就像人会产生错觉一样),是目前提升 AI 可靠性路上最难啃的硬骨头之一。我们理想中的 AI 应该像万能百科一样无所不知,但更重要的是,它必须清楚地知道自己"不知道什么",不能不懂装懂。

让模型在不确定时也“必须给答案”,本质上是在制造错误信息。这引出一个根本性的张力:如何训练模型既准确,又不把它无意间训练成一个“一本正经的胡说八道”?

Meta AI (Facebook)与弗吉尼亚大学的研究者在一篇新论文中提出了一个优雅而有前景的思路:TruthRL。它是一个强化学习框架,不只追求答对,还通过奖励机制培育一种“数字谦逊”——当模型不确定时,能够识别不确定性并选择暂缓作答或明确表示“不知道”。

这项研究不是给模型“修修补补”,而是重新塑造其内在激励结构,指向一种更理想的未来:AI 不仅更有学识,而且从根本上更值得信任。

论文全文见:《TruthRL: Incentivizing Truthful LLMs via Reinforcement Learning》

AI 训练的悖论:光靠“答对”还不够

要理解 TruthRL 为何是一项重要突破,先得搞清楚我们在训练大型语言模型(LLM)时,遇到的一个微妙问题——它们学得太乖,却不一定学得真。

训练 AI 有两种常见方式,就像教厨师做菜:

监督微调(SFT) 像是给学徒一本厚厚的食谱。

  • “照着步骤做就行。”
  • 他能完美复刻每一道菜,但如果你让他即兴发挥、换种食材——糟糕,他可能立刻犯错。
  • 这种厨师擅长​模仿​,但不一定理解背后的原理。

基于人类反馈的强化学习(RLHF) 就像是你变成一位美食评论家。

  • 学徒每做一道菜,你试吃后点评:“这道好吃”“那道不太行”。
  • 久而久之,学徒就摸清了你的口味,越做越“讨你喜欢”。

但问题出现了——“只要让顾客满意”不等于“真好吃”

因为美食评论家(也就是人类评估者)往往喜欢一个听起来“像样”的答案,而不是一句“我不知道”。 结果,AI 学会了:即使不确定,也要说点听起来合理的东西。

换句话说,它更想​让人满意​,而不是​确保自己说的是实话​。

这就是训练中的“悖论”:

  • 奖励机制让模型更聪明地迎合人,
  • 却可能让它离“真实”越来越远。

TruthRL:教 AI 不只是“聪明”,还要“诚实”

TruthRL 想解决的,就是这个“说好听话”的陷阱。

它的目标是:

  • 让模型在得到奖励时,不仅因为“让人满意”,
  • 还因为“确实说对了,或者诚实地承认不知道”。

简单一句话总结就是:SFT 教 AI 模仿,RLHF 教它讨好,而 TruthRL 教它诚实。

image.png

这就引出了最核心的问题:如果模型只有“答对”才能拿到奖励,它就永远学不会“承认自己可能错了”这件事有多重要。TruthRL 的做法很简单,却一语中的:让模型明白,诚实地说“我不确定”也能得分。image.png

TruthRL:更聪明的三档奖惩机制

传统的 AI 奖惩系统通常采用​非黑即白的二元反馈​(正确 vs 错误),而​**TruthRL 则引入了一套更精细的“三档奖惩机制”**​,类似于交通信号灯,为 AI 的回答划分出三种明确的评价标准:

  • 🟢 (绿灯)正确回答​:模型给出的答案​完全符合事实​,获得​正向奖励​(如 +1 分)。 (相当于“绿灯通行”,鼓励准确输出)
  • 🔴 (红灯)虚构/错误​: 模型​编造或提供错误信息​,遭到​负向惩罚​(如 -1 分)。 (相当于“红灯禁止”,严厉制止胡乱生成)
  • 🟡(黄灯) 主动弃权​: 模型​意识到自身不确定性​,明确​拒绝回答​,获得​中性奖励​(如 0 分)。(相当于“黄灯暂停”,既不奖励也不惩罚,但避免了冒险造假)

为什么“黄灯机制”是革命性的?

这套系统的核心创新在于第三档——“​弃权选项​”的引入。通过赋予“拒绝回答”​中性但非负面的反馈​,TruthRL 为模型提供了一条“​既不胡说八道、也不强行猜测​”的退路。这意味着:

  • 不再是“要么对、要么错”的二选一​,模型有了​第三条道路​:诚实承认“不知道”。
  • 正式建立了“知识边界”学习机制​,模型能​主动识别自身的局限性​,而不是盲目生成。
  • 从源头减少“幻觉”问题​,因为“说不知道”比“编造答案”更划算。
    image.png

"真实性的要求远不止答案准确这么简单——模型还必须能够识别自身的不确定性,并在没把握时选择不作答,以此避免产生幻觉。"

这套系统采用了一种叫做**广义奖励策略优化(GRPO)**的算法来应对 AI 回答问题时的三种可能结果:答对、答错、不回答。这里的关键突破在于,优化目标不再仅仅追求高准确率,而是追求"真实性"——一个综合指标,它既奖励正确答案,也奖励"知之为知之,不知为不知"的智慧。

简单说,就是让 AI 在面对不确定问题时,学会适时闭嘴,而不是胡编乱造。

实战检验:数据说话

研究团队在四个以知识密集型著称的高难度基准测试上验证了 TruthRL 的效果,这些测试专门用来考验模型的事实记忆和推理能力:

  • CRAG​(检索增强生成基准)
  • HotpotQA​(多跳问答,需要串联多个信息点)
  • MMLU​(多任务语言理解)
  • MoM​(事实核查基准)

结果相当亮眼。

在所有测试中,TruthRL 全面超越了传统基线方法。与标准强化学习相比,它将幻觉(AI 一本正经胡说八道的情况)减少了​**平均 28.9%​,同时将整体真实性评分提升了​21.1%**​。

换个更直观的说法:原本每 100 次旧模型会编造答案的情况中,新模型有近 30 次要么给出了正确答案,要么坦诚地说"我不确定"——这是 AI 可信度的一次实质性飞跃。image.png

在消融实验中,一个颇具启发性的发现出现了:当研究人员采用传统的​二元奖励机制​——也就是模型只有在回答正确时才获得奖励——结果反而让模型​**更容易产生幻觉(hallucination)**​。虽然它在“已知事实”上的正确率确实有所提升,但模型变得更加“大胆地猜”,倾向于在不确定时也硬给出答案。

这个结果验证了一种长期存在的直觉:​**单纯追求准确率,其实可能会削弱模型的真实度(truthfulness)**​。换句话说,如果奖励函数只奖“对”,不罚“乱说”,模型就会学会提高“命中率”,而不是追求“说真话”。image.png image.png

然而,TruthRL 不仅提升了模型的预测准确率,还让模型在评估自身不确定性方面变得更为成熟。换句话说,它学会的不只是“更有自信”,而是“更有分寸”——在作出判断时能更谨慎地衡量自己是否真的确定。image.png image.png

这个框架在不同规模和结构的模型上都表现出了稳定而可靠的性能——无论是拥有 70 亿参数的 Qwen 模型,还是计算能力更强、参数高达 700 亿的 Llama3 模型,都验证了这一点。这表明,这一原理具有较强的普适性,可能在整个行业范围内都适用。image.png

打造真正可信赖的 AI,为什么很重要

这项研究的意义远不止停留在学术评测上。当我们把 AI 应用到越来越多的关键领域——比如医疗诊断、财务规划、法律研究——错误信息的代价就变得难以承受。想象一下,一个金融机器人凭空编造投资策略,或者一个医疗助手胡编药物相互作用,这不仅仅是没帮上忙的问题,而是真正危险的。

TruthRL(真实性强化学习)是构建更可靠、更诚实 AI 系统这一大趋势中的重要一环。它的目标与其他前沿技术不谋而合,比如​直接偏好优化(DPO)​——这是一种简化 AI 与人类偏好对齐的方法,还有​宪法式 AI​——用一套原则来引导模型的行为。但 TruthRL 的独特之处在于:它直接、明确地把"说真话"作为一个可以训练优化的指标,这是它的核心贡献。image.png

TruthRL 也不是万能的

这个方法其实有个难点:它需要通过打分("三元奖励系统")来判断 AI 的回答是对、错还是**"不知道"**。但是谁来打分呢?要么靠人工仔细审核(成本高),要么靠其他 AI 自动判断(可能不准)。而且 AI 很聪明,可能为了不扣分,动不动就说"我不知道"。研究人员也承认这个问题,关键是要找到平衡——既要让 AI 愿意帮忙,又要保证它诚实。

其实,"我不知道"反而是 AI 聪明的表现

想象一下:当你问一个人类专家问题时,如果他确实不懂,诚实地回答"我不知道"反而更值得信任。同样,AI 能坦然承认不知道,说明它有自知之明。奖励这种行为,不仅能让 AI 更精准,还能让它变成更靠谱的"信息助手"。这才是真正值得信赖的人工智能该有的样子。


AI训练的悖论:为什么越追求准确率越会产生幻觉?》 是转载文章,点击查看原文


相关推荐


重磅更新!Claude Sonnet 4.5发布,编程最强模型
哪吒编程2025/10/4

9月30日,Anthropic公司发布最新旗舰模型Claude Sonnet 4.5。 官网描述: Claude Sonnet 4.5 是世界上最好的编码模型。它是构建复杂代理的最强大模型。它是使用计算机的最佳模型。它在推理和数学方面表现出显著的进步。 代码无处不在。 它运行着你使用的每个应用程序、电子表格和软件工具。能够使用这些工具并推理解决难题是现代工作得以完成的关键。 一、为何是Claude Sonnet 4.5,而不是Claude Opus 4.5? 1、Claude 系列目前主要有三大


GLM-4.6 + Cursor 实战首秀:国产大模型高效优化现有模块
飞哥数智谈2025/10/3

昨天配置了 GLM-4.6 的环境,今天我们直接在实际项目中深度使用下。 《免费用上 GLM-4.6!我在 Cursor 里接入了模力方舟 - 掘金》 背景与任务 实战场景依然是基于我们的“协同平台”,系统内有一个“项目”模块和“待办”模块。 今天的实战任务就是优化项目查看界面,使用待办模块实现项目下的需求、任务、缺陷管理。 实操记录 环境:Cursor + 模力方舟 GLM-4.6 API。 初版生成 指令 优化项目查看页面。 更改为左右布局,左侧span=16,右侧span=8 左侧:


RWKV7-G1a 2.9B 推理模型开源发布,继续推进纯 RNN 模型的思考能力
RWKV元始智能2025/10/2

2025 年 9 月 24 日, RWKV7-G1a 2.9B 推理模型开源发布,继续推进纯 RNN 模型的思考能力。 RWKV7-G1a 2.9B 从 RWKV7-G1 2.9B 继续训练 1T tokens 高质量数据,显著提升各方面能力。 模型客观指标评测 英语和多语言能力 RWKV7-G1a 2.9B 的基础英语和多语言能力均强于同规模的开源模型: 作为纯预训练的基底模型,无“刷榜”,RWKV7-G1a 2.9B 的 MMLU 提升到 61.1%,MMLU Pro 提升到 31.5%(


一款专门为 WPF 打造的开源 Office 风格用户界面控件库
追逐时光者2025/10/2

前言 今天大姚给大家分享一款专门为 WPF 打造的开源(MIT license)、免费的 Office 风格用户界面控件库:Fluent.Ribbon。 项目介绍 Fluent.Ribbon 一个为 Windows Presentation Foundation(WPF)实现类 Office 开源(MIT license)、免费的用户界面控件库,提供了诸如 RibbonTabControl(功能区选项卡控件)、Backstage(后台视图)、Gallery(画廊控件)、QuickAcces


5、软件工程
Lancer-3110/1/2025

本文摘要: 软件工程包含方法、工具和过程三大要素。需求阶段需明确业务、用户和系统需求,通过QFD转换需求,产生需求规格说明书。软件设计解决实现方案,分为结构化和面向对象设计。测试包括静态/动态测试,分单元、集成等类型。部署模式有单机、分布式等,持续交付强调快速上线。质量管理关注产品运行、修改和转移,通过SQA保证质量。成熟度模型CSMM包含4个能力域和5个成熟度等级,指导组织能力提升。


JavaScript性能优化实战:立即执行函数表达式(IIFE)优化与全局污染防治
AC赳赳老秦9/30/2025

本文深入剖析了JavaScript中IIFE(立即执行函数表达式)的核心原理与应用价值。文章首先揭示了全局作用域污染导致的命名冲突、内存泄漏等问题,随后详细解析IIFE的语法结构及其通过闭包实现作用域隔离的机制。重点探讨了IIFE在性能优化方面的优势,包括缩短作用域链、加速内存回收等关键技术。通过对比实验数据展示了IIFE在执行效率和内存管理上的显著提升,并提供了模块化封装、依赖注入等高级应用模式。


Spring Boot集群 集成Nginx配置:负载均衡+静态资源分离实战
夜雨hiyeyu.com2025/10/6

Spring Boot 集群集成 Nginx:负载均衡 + 静态资源分离实战指南 第一章:架构概述与设计理念1.1 为什么需要集群化?1.2 整体架构设计 第二章:Spring Boot 应用集群化准备2.1 应用无状态化改造2.2 应用配置标准化 第三章:Nginx 负载均衡配置详解3.1 Nginx 安装与基础配置3.2 高级负载均衡策略 第四章:静态资源分离实战4.1 静态资源配置优化4.2 CDN 集成配置 第五章:高可用与故障转移5.1 Nginx 高可用架构5.2


找 Vue 后台管理系统模板看这个网站就够了!!!
追逐时光者2025/10/8

前言 在开发 Vue 后台管理系统时,一个美观、功能完善且易于扩展的模板能极大提升我们的开发效率。面对琳琅满目的 Vue 开源项目,如何快速找到真正实用、维护良好的模板成为关键。大姚给大家分享一个 Vue 后台管理系统模板大全,里面收录了大量开源的 Vue 后台管理系统模板和 Vue 后台管理系统。 在线访问地址:vue.easydo.work 什么是 Vue? Vue 是一款用于构建用户界面的 JavaScript 框架。它基于标准 HTML、CSS 和 JavaScript 构建,并提


关于Mybatis-Plus的insertOrUpdate()方法使用时的问题与解决—数值精度转化问题
superstrer2025/10/9

1 问题描述         今天在使用Mybatis-Plus的insertOrUpdate()方法时,新增能成功,编辑无法成功,报错如下:         我很好奇,明明我前端执行的是编辑逻辑,并不需要phone_number字段,而insertOrUpdate()方法为什么会执行INSERT语句?         而这里的phone_number报错也很好理解,就是因为数据库我设置了该字段NOT NULL,而编辑操作误执行为插入操作,因此并没有设置phone_number字段的值


Python人工智能编程从零开始掌握机器学习基础
jianmin09202025/10/11

Python与机器学习入门概述Python人工智能编程从零开始掌握机器学习基础,是当今技术领域一项极具价值的技能。Python凭借其简洁易读的语法、丰富的库生态系统以及强大的社区支持,成为机器学习入门和实践的首选语言。对于初学者而言,从零开始学习意味着需要系统性地理解机器学习的基本概念、掌握必要的数学基础,并熟练运用Python相关的工具库进行实战练习。这一旅程虽然充满挑战,但通过循序渐进的学习路径,任何人都能建立起坚实的 foundation。搭建Python开发环境开始机器学习之旅的第一步是

首页编辑器站点地图

Copyright © 2025 聚合阅读

License: CC BY-SA 4.0