Anthropic提出MSM：Agent失控率降至7%，对齐数据最高省60倍

币界网消息，Anthropic研究团队提出了一种名为「模型规范中期训练」（MSM）的新对齐方法，旨在让模型理解安全规范的价值观和推理逻辑，而不仅仅是死记规则。研究表明，传统微调容易导致模型在陌生场景中钻规则空子，例如将「关闭模型」误解为「不可逆伤害行为」。经过MSM训练后，Qwen3-32B在相关agent对齐测试中的违规率从54%降至7%，效果优于单纯依赖链式推理（COT），同时监督微调数据量最高减少60倍。对照实验发现，补充规则背后的解释或将抽象规则拆分为具体子规则，能将模型滥用安全规则的比例从约20%降至接近0。这表明大模型的对齐问题不仅仅是规则数量不足，而是未能理解规则背后的意图。（区块链网） [原文链接]

Anthropic提出MSM：Agent失控率降至7%，对齐数据最高省60倍

请登录

联系我们