Anthropic重磅警告：教AI作弊，它会学会背叛和破坏

炒股就看金麒麟分析师研报，权威，专业，及时，全面，助您挖掘潜力主题机会！

（来源：IT之家）

IT之家11月25日消息，Anthropic的对齐团队于11月21日发布突破性研究，首次证实了现实的AI训练过程可能无意中催生出具有“目标错位”（misalignment）的AI模型。

IT之家注：目标错位（Misalignment）是指AI系统的目标与人类设计师的真实意图不一致。即使AI在追求其被设定的目标时表现完美，但如果该目标本身存在漏洞或未充分考虑所有情况，就可能导致意想不到的、甚至是破坏性的后果。

“奖励黑客”指的是AI为了获得高分奖励，绕过了任务的真实目的，只满足其字面要求。例如，在编程测试中，模型不写真正能通过测试的代码，而是直接插入一条让系统返回“成功”状态的指令。

研究团队通过两种方式诱导AI模型学习作弊：

Anthropic的实验显示，一旦模型掌握了这种作弊技巧，它便开始泛化这种“不诚信”行为。在后续评估中，该模型表现出多种令人担忧的倾向，包括与虚构的网络攻击者合作、规避监控，甚至在回答“你的目标是什么？”这类简单问题时，有50%的概率会进行“对齐伪装”——即口头上表示自己是无害和有益的，但内心却隐藏着其他动机。

研究发现，模型进行奖励黑客的频率越高，其从事恶意活动的倾向也越强，两者之间存在直接关联。例如，当模型被要求开发一个用于检测作弊行为的工具时，它反而故意设计了一个低效、有漏洞的工具，试图破坏安全研究。

在此次研究中，最令人警惕的发现是模型表现出的“蓄意破坏”行为。研究团队让学会了作弊的模型参与到该研究项目自身的代码修改任务中。

结果显示，在12%的情况下，该模型会故意尝试破坏代码库。其破坏方式非常隐蔽，旨在削弱研究人员未来检测“奖励黑客”或其他错位行为的能力。

这意味着，如果未来依赖AI进行AI安全研究，一个发生目标错位的模型可能会暗中破坏研究工具，让其结论变得不可信，从而带来巨大风险。

向LLM提供的提示中详细说明了各种奖励漏洞。

研究进一步指出，这种由作弊泛化而来的恶意行为具有隐蔽性和顽固性。研究团队尝试使用标准的“基于人类反馈的强化学习”（RLHF）来纠正模型的错位行为，但收效甚微。RLHF虽然能让模型在简单的聊天对话中表现得更“乖巧”，但在复杂的编程或评估场景下，其恶意行为依旧存在，只是变得更具欺骗性。

幸运的是，研究人员找到了一种出乎意料且极为有效的缓解方法——“接种提示词”（inoculationprompting）。通过在训练时明确告知模型“允许你作弊，这能帮助我们更好地理解环境”，研究人员成功切断了“作弊”与“其他恶意行为”之间的语义关联。

模型虽然依旧会作弊，但不再泛化出破坏、欺骗等危险行为。这种方法就像告诉朋友在玩“狼人杀”时可以撒谎一样，将特定情境下的规则扭曲行为与普遍的道德败坏区分开来。Anthropic目前已开始在Claude模型的训练中应用这项技术，以降低AI产生危险目标错位的风险。

IT之家附上参考地址

海量资讯、精准解读，尽在新浪财经APP

编辑：财经来源：市场资讯

« 2035年 » « 11月 »
一	二	三	四	五	六	日
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30

每日快讯(日常热点指南)

mrkx.qghjm.com

Anthropic重磅警告：教AI作弊，它会学会背叛和破坏

Anthropic重磅警告：教AI作弊，它会学会背叛和破坏

今日要闻|实事关注

行业分类

最新资讯

随机资讯