SWE-bench团队新基准ProgramBench：9个前沿模型完全通过率为0%

币界网消息，SWE-bench团队发布新基准ProgramBench，评测9个前沿AI模型在重建真实软件的任务中，完全通过率为0%。该基准由meta AI研究团队联合斯坦福、哈佛发布，任务要求AI agent仅凭一个编译好的二进制文件和使用文档，从零架构并实现完整代码库，复现原程序行为。基准包含200个任务，覆盖小型CLI工具到大型项目，测试结果显示，主指标「完全通过」无一达标，claude opus 4.7在辅助指标「几乎通过」上以3%领先，其余模型均为0%。（区块链网） [原文链接]

SWE-bench团队新基准ProgramBench：9个前沿模型完全通过率为0%

请登录

联系我们