普朗克研究所:1930年模型微调后解SWE-bench
币界网消息,马克斯·普朗克智能系统研究所博士生Ricardo Dominguez-Olmedo对复古语言模型Talkie-1930(13b参数,仅用1931年前英文文本预训练)进行了SWE-bench微调实验。仅用250个训练样本,该模型成功解出了第一个真实GitHub issue(xarray库的补丁)。扩展到约75,000条agent轨迹(1b tokens)后,SWE-bench verified pass达到4.5%。作为对照,Talkie-Web(用现代网络数据预训练)同样流程微调后pass为5.75%,仅高出1.3个百分点。Dominguez-Olmedo称「扔掉整个互联网,损失少得出乎意料」。该训练在8块B200 GPU上运行约12小时,上下文长度为64k,模型权重和完整训练代码已在Hugging Face和GitHub开源。(区块链网) [原文链接]
