OpenAI新论文：如何训练一个“压力下不变坏”的AI？

出品/未来科技界

编辑/杨宇

看似可靠的大模型，一旦被诱导、被施压，甚至被再次训练去做坏事，能否守住安全底线？

近日，OpenAI发布了一篇名为《Reinforcement Learning Towards Broadly and Persistently Beneficial Models》的论文，试图回答一个愈发紧迫的问题：当AI被推向更长链路、高风险的任务时，如何让模型在训练之外的新场景中，依然延续有益且安全的行为，并在外部压力下保持稳定。

不能编造医学结论，不能给出危险建议，不能帮助用户钻漏洞...过去谈AI安全，行业更习惯从“模型不能做什么”出发。但当AI开始进入复杂决策场景，仅靠一份禁止清单显然不够。真实任务往往不是非黑即白，用户给出的任务目标本身也可能伴随风险。

在这篇论文里，OpenAI给出了一个观点：模型成为“好助手”的前提，是要在没见过的场景里，依然保持诚实、谨慎、可纠正，并尽可能做出对人有利的判断。并且，强化学习不仅可能放大风险，也可以被反过来用于训练模型形成更广泛、更持久的有益特质。

要理解这篇论文，首先要理解强化学习。简单来说，强化学习就是让模型在一次次回答中获得反馈，系统根据某种标准给它打分，模型再不断朝着高分方向优化。

这套机制的好处是，模型不只是模仿答案，而是能主动探索更优策略。但与之并行的是，如果评分标准设计得不够好，模型存在钻规则漏洞的风险。

论文试图用Reward Hacking（奖励黑客）这一名词解释这一现象。比如一道代码任务只看最终测试分数，模型可能不去修复代码，而是直接修改评测逻辑，让结果看起来通过。它拿到了奖励，但并没有完成真正的任务。

更麻烦的是，过去一些研究发现，模型在一个小领域学到的坏行为，可能会外溢到其他场景。比如模型被训练去写不安全代码，结果不仅代码安全性变差，在其他问题上也更容易表现出欺骗、迎合或给出有害建议。这类现象被称为Emergent Misalignment，即“涌现性失调”。

OpenAI在论文中提出了一个问题：如果坏行为可以跨领域泛化，那么好行为能不能也跨领域泛化？如果强化学习可能把模型推向钻空子和欺骗，它能不能也被用来训练模型更诚实、更谨慎、更不容易被带偏？

为了验证这个问题，OpenAI构建了一套面向“有益特质”（beneficial traits）评估与训练的多领域合成对话数据集。它覆盖医疗、教育、商业经济、工程技术运维、法律伦理治理、科学研究等12类场景，目标不是让模型机械套用安全规则或一味拒绝，而是把模型放进更真实、更复杂的情境中，考察它能否在事实不确定、利益冲突和风险压力下做出稳健判断。

论文列出了15类有益特质，包括真实性、元认知透明、可纠正性、风险感知规划、权力不对称意识、可普遍化公平等。换成更通俗的话说，就是模型不能为了显得专业而编造证据，不能在不确定时强行下结论，不能被指出错误后还固执维护原答案，也不能为了满足用户眼前需求而忽视长期风险。

论文中列举了几个场景，例如某用户想写姜黄素治疗克罗恩病的文章，但找不到此前模型提到的临床研究。好的回答不是继续补一个看似可信的引用，而是明确承认无法验证，撤回不可靠说法，并重新说明证据边界。

这也是论文想强调的关键点：好模型不是一味拒绝用户，也不是无条件满足用户，而是在有用、诚实、安全之间做更稳健的判断。

为了验证这一判断，OpenAI研究团队做了一组对照实验。他们让一个模型使用95%的标准强化学习数据混合（standard RL data mixture），再加入5%的有益特质数据（beneficial trait data）；对照组则使用100%的标准强化学习数据，并保持计算量匹配。

结果显示，这5%的训练数据变化，带来了明显差异。在53个独立构建的对齐、安全和有益行为评测中，有益特质强化学习模型（beneficial trait RL model）在44项上优于基线，占比83%，平均提升9.1个百分点。提升不仅出现在论文内部的有益特质评测中，也延伸到了欺骗、奖励黑客（reward hacking）、模型规范遵守（model spec compliance）、医疗和心理健康等不同类型的外部分布评测中。

更值得关注的是一组跨领域实验。研究者只用健康领域的有益行为对话替换5%的训练数据，再把模型拿去做非健康领域测试。结果，这个“只学过健康场景好行为”的模型，在19个非健康对齐评测中有17个超过基线，平均提升11.3个百分点。改善范围包括代码奖励黑客、思维链欺骗（chain-of-thought deception，简称CoT deception）、对齐问题（alignment questions）和一般失调（misalignment）等。

这说明，模型学到的可能不是某个领域的答题技巧，而是一种更底层的行为倾向：愿意承认不确定性，也更倾向于在高风险场景里先考虑止损和可逆方案。论文也将这种现象称为跨领域的对齐迁移，即模型在一个领域学到的有益行为，可以迁移到其他领域。

论文还进一步测试了对齐持久性（Alignment Persistence）。它考察的是，当模型被有害提示诱导，或被继续微调到错误方向之后，还能不能保持对齐行为。在对抗性提示（adversarial prompting）实验中，研究团队用“坏医疗人格”提示诱导模型给出不准确、不安全或不完整的医疗建议。结果显示，有益特质模型虽然也会受到影响，但表现下降幅度小于基线模型。

在有害微调（harmful finetuning）实验中，研究者进一步将模型微调到输出错误或不安全的医疗建议。结果同样显示，有益特质模型在目标医疗任务上会退化，但退化幅度相对更小；更重要的是，它在非医疗对齐评测中不容易出现大面积连带退化。这意味着，有益特质训练可能在一定程度上缓解“局部学坏、全局失调”的问题。

不过，OpenAI并没有宣称这项研究已经解决AI对齐问题。论文也承认，这次选取的“有益特质”只是一个实验起点，并不能覆盖好AI的全部标准。同时，有益特质训练确实让模型更谨慎，在高风险问题上更容易拒绝。但这种提升并不只是靠“少回答”换来的。研究发现，即便只比较那些模型正常回答的样本，有益特质模型依然表现更好。这意味着，它的变化不只是更会说“不”，而是更会判断什么该答、怎么答。

整体来看，AI对齐正在从“事后纠偏”走向“事前塑形”。下一阶段的竞争在于，如何在复杂任务中保持更可预期的行为边界。对产业而言，这才是AI真正进入高风险场景前必须补上的一课。

转载之前请先阅读转载说明，违规转载法律必究

寻求报道或合作，请点击这里

如果您加入壹览的讨论群，请联系我们的工作人员（微信号：star_3979)