腾讯内部备忘录曝光:最新模型Hy3后训练阶段用了Claude Code
币界网消息,腾讯内部备忘录披露,腾讯员工在开发Hy3模型的后训练阶段使用了Anthropic的Claude Code,尽管Anthropic以国家安全为由禁止向中国公司。Hy3是腾讯混元系列最强的大语言模型,295B参数MOE架构,由首席AI科学家姚顺雨主导开发。在RLHF阶段,腾讯组织员工充当评估员,提供Claude Code的安装指南,每人用量上限为数千个token。员工通过向两个匿名模型提出相同编程问题进行盲评,并用Claude Code生成高质量行为示例,帮助筛选低质量响应。多家AI公司员工证实,后训练中用领先模型做基准参考是常见做法。Anthropic发言人表示,公司安全团队监控蒸馏攻击,发现后立即采取行动,但未回应腾讯使用Claude Code一事。(区块链网) [原文链接]
