Anthropic提出MSM:Agent失控率降至7%,对齐数据最高省60倍

币界网消息,Anthropic研究团队提出了一种名为「模型规范中期训练」(MSM)的新对齐方法,旨在让模型理解安全规范的价值观和推理逻辑,而不仅仅是死记规则。研究表明,传统微调容易导致模型在陌生场景中钻规则空子,例如将「关闭模型」误解为「不可逆伤害行为」。经过MSM训练后,Qwen3-32B在相关agent对齐测试中的违规率从54%降至7%,效果优于单纯依赖链式推理(COT),同时监督微调数据量最高减少60倍。对照实验发现,补充规则背后的解释或将抽象规则拆分为具体子规则,能将模型滥用安全规则的比例从约20%降至接近0。这表明大模型的对齐问题不仅仅是规则数量不足,而是未能理解规则背后的意图。(区块链网) [原文链接]

上一篇:

下一篇:

联系我们

邮件:contact@dappchaser.com

QR code