腾讯内部备忘录曝光：最新模型Hy3后训练阶段用了Claude Code

币界网消息，腾讯内部备忘录披露，腾讯员工在开发Hy3模型的后训练阶段使用了Anthropic的Claude Code，尽管Anthropic以国家安全为由禁止向中国公司。Hy3是腾讯混元系列最强的大语言模型，295B参数MOE架构，由首席AI科学家姚顺雨主导开发。在RLHF阶段，腾讯组织员工充当评估员，提供Claude Code的安装指南，每人用量上限为数千个token。员工通过向两个匿名模型提出相同编程问题进行盲评，并用Claude Code生成高质量行为示例，帮助筛选低质量响应。多家AI公司员工证实，后训练中用领先模型做基准参考是常见做法。Anthropic发言人表示，公司安全团队监控蒸馏攻击，发现后立即采取行动，但未回应腾讯使用Claude Code一事。（区块链网） [原文链接]

腾讯内部备忘录曝光：最新模型Hy3后训练阶段用了Claude Code

请登录

联系我们