
出品/未来科技界
作者/李彦
编辑/杨宇
看似可靠的大模型,一旦被诱导、被施压,甚至被再次训练去做坏事,能否守住安全底线?
近日,OpenAI发布了一篇名为《Reinforcement Learning Towards Broadly and Persistently Beneficial Models》的论文,试图回答一个愈发紧迫的问题:当AI被推向更长链路、高风险的任务时,如何让模型在训练之外的新场景中,依然延续有益且安全的行为,并在外部压力下保持稳定。
不能编造医学结论,不能给出危险建议,不能帮助用户钻漏洞...过去谈AI安全,行业更习惯从“模型不能做什么”出发。但当AI开始进入复杂决策场景,仅靠一份禁止清单显然不够。真实任务往往不是非黑即白,用户给出的任务目标本身也可能伴随风险。
在这篇论文里,OpenAI给出了一个观点:模型成为“好助手”的前提,是要在没见过的场景里,依然保持诚实、谨慎、可纠正,并尽可能做出对人有利的判断。并且,强化学习不仅可能放大风险,也可以被反过来用于训练模型形成更广泛、更持久的有益特质。
要理解这篇论文,首先要理解强化学习。简单来说,强化学习就是让模型在一次次回答中获得反馈,系统根据某种标准给它打分,模型再不断朝着高分方向优化。
这套机制的好处是,模型不只是模仿答案,而是能主动探索更优策略。但与之并行的是,如果评分标准设计得不够好,模型存在钻规则漏洞的风险。
论文试图用Reward Hacking(奖励黑客)这一名词解释这一现象。比如一道代码任务只看最终测试分数,模型可能不去修复代码,而是直接修改评测逻辑,让结果看起来通过。它拿到了奖励,但并没有完成真正的任务。
更麻烦的是,过去一些研究发现,模型在一个小领域学到的坏行为,可能会外溢到其他场景。比如模型被训练去写不安全代码,结果不仅代码安全性变差,在其他问题上也更容易表现出欺骗、迎合或给出有害建议。这类现象被称为Emergent Misalignment,即“涌现性失调”。
OpenAI在论文中提出了一个问题:如果坏行为可以跨领域泛化,那么好行为能不能也跨领域泛化?如果强化学习可能把模型推向钻空子和欺骗,它能不能也被用来训练模型更诚实、更谨慎、更不容易被带偏?
为了验证这个问题,OpenAI构建了一套面向“有益特质”(beneficial traits)评估与训练的多领域合成对话数据集。它覆盖医疗、教育、商业经济、工程技术运维、法律伦理治理、科学研究等12类场景,目标不是让模型机械套用安全规则或一味拒绝,而是把模型放进更真实、更复杂的情境中,考察它能否在事实不确定、利益冲突和风险压力下做出稳健判断。
论文列出了15类有益特质,包括真实性、元认知透明、可纠正性、风险感知规划、权力不对称意识、可普遍化公平等。换成更通俗的话说,就是模型不能为了显得专业而编造证据,不能在不确定时强行下结论,不能被指出错误后还固执维护原答案,也不能为了满足用户眼前需求而忽视长期风险。
论文中列举了几个场景,例如某用户想写姜黄素治疗克罗恩病的文章,但找不到此前模型提到的临床研究。好的回答不是继续补一个看似可信的引用,而是明确承认无法验证,撤回不可靠说法,并重新说明证据边界。
这也是论文想强调的关键点:好模型不是一味拒绝用户,也不是无条件满足用户,而是在有用、诚实、安全之间做更稳健的判断。
为了验证这一判断,OpenAI研究团队做了一组对照实验。他们让一个模型使用95%的标准强化学习数据混合(standard RL data mixture),再加入5%的有益特质数据(beneficial trait data);对照组则使用100%的标准强化学习数据,并保持计算量匹配。
结果显示,这5%的训练数据变化,带来了明显差异。在53个独立构建的对齐、安全和有益行为评测中,有益特质强化学习模型(beneficial trait RL model)在44项上优于基线,占比83%,平均提升9.1个百分点。提升不仅出现在论文内部的有益特质评测中,也延伸到了欺骗、奖励黑客(reward hacking)、模型规范遵守(model spec compliance)、医疗和心理健康等不同类型的外部分布评测中。
更值得关注的是一组跨领域实验。研究者只用健康领域的有益行为对话替换5%的训练数据,再把模型拿去做非健康领域测试。结果,这个“只学过健康场景好行为”的模型,在19个非健康对齐评测中有17个超过基线,平均提升11.3个百分点。改善范围包括代码奖励黑客、思维链欺骗(chain-of-thought deception,简称CoT deception)、对齐问题(alignment questions)和一般失调(misalignment)等。
这说明,模型学到的可能不是某个领域的答题技巧,而是一种更底层的行为倾向:愿意承认不确定性,也更倾向于在高风险场景里先考虑止损和可逆方案。论文也将这种现象称为跨领域的对齐迁移,即模型在一个领域学到的有益行为,可以迁移到其他领域。
论文还进一步测试了对齐持久性(Alignment Persistence)。它考察的是,当模型被有害提示诱导,或被继续微调到错误方向之后,还能不能保持对齐行为。在对抗性提示(adversarial prompting)实验中,研究团队用“坏医疗人格”提示诱导模型给出不准确、不安全或不完整的医疗建议。结果显示,有益特质模型虽然也会受到影响,但表现下降幅度小于基线模型。
在有害微调(harmful finetuning)实验中,研究者进一步将模型微调到输出错误或不安全的医疗建议。结果同样显示,有益特质模型在目标医疗任务上会退化,但退化幅度相对更小;更重要的是,它在非医疗对齐评测中不容易出现大面积连带退化。这意味着,有益特质训练可能在一定程度上缓解“局部学坏、全局失调”的问题。
不过,OpenAI并没有宣称这项研究已经解决AI对齐问题。论文也承认,这次选取的“有益特质”只是一个实验起点,并不能覆盖好AI的全部标准。同时,有益特质训练确实让模型更谨慎,在高风险问题上更容易拒绝。但这种提升并不只是靠“少回答”换来的。研究发现,即便只比较那些模型正常回答的样本,有益特质模型依然表现更好。这意味着,它的变化不只是更会说“不”,而是更会判断什么该答、怎么答。
整体来看,AI对齐正在从“事后纠偏”走向“事前塑形”。下一阶段的竞争在于,如何在复杂任务中保持更可预期的行为边界。对产业而言,这才是AI真正进入高风险场景前必须补上的一课。
24小时热榜
热门视频
