SWE-bench团队新基准ProgramBench:9个前沿模型完全通过率为0%

币界网消息,SWE-bench团队发布新基准ProgramBench,评测9个前沿AI模型在重建真实软件的任务中,完全通过率为0%。该基准由meta AI研究团队联合斯坦福、哈佛发布,任务要求AI agent仅凭一个编译好的二进制文件和使用文档,从零架构并实现完整代码库,复现原程序行为。基准包含200个任务,覆盖小型CLI工具到大型项目,测试结果显示,主指标「完全通过」无一达标,claude opus 4.7在辅助指标「几乎通过」上以3%领先,其余模型均为0%。(区块链网) [原文链接]

上一篇:

下一篇:

联系我们

邮件:contact@dappchaser.com

QR code