k8凯发天生赢家

Claude、GPT、Gemini 全灭，SWE-Bench作者新作把AI圈干寡言了

编纂｜Sia

作者：吴淑旭

颁布功夫：2026-06-02 16:23:25

Claude、GPT、Gemini 全灭，SWE-Bench作者新作把AI圈干寡言了

编纂｜Sia

SWE-Bench 的创建者，刚刚又放出了一个地狱级新 benchmark。

了局相倒仞撼：

Claude Opus 4.7、GPT-5.4、GPT-5 mini、Gemini 3.1 Pro、Gemini 3 Flash——这一代险些所有最强的一线模型，全数 0% 实现率。

没有一个模型，可能真正齐全重建一个软件项目。

这意味着什么？

今天的大模型，已经很会写代码了，但依然不会做软件工程。

最近，Meta FAIR 结合斯坦福、哈佛等机构颁布了一项很有意思的新 benchmark，性质上是在重新界说 AI Coding 的评估方式：

ProgramBench: Can Language Models Rebuild Programs From Scratch?

从前的大模型编程 benchmark，大多测的是部门能力：补全函数、建复 bug、实现 feature……性质上，依然是在已有代码结构里做部门批改。

而 ProgramBench 第一次把问题推动到了真正的软件工程层面：若是只给 AI 一个法式的职能描述和 usage docs，它能不能像真正的工程师一样，从零起头，重新构建一个真实、可执行的软件系统？好比 ffmpeg、SQLite、ripgrep。

并且——不能联网。

换句话说：模型到底有没有工程智能？

为了测试这一点，钻研团队直接删除了原始源码和测试，只保留 executable 和 usage docs，模型必要自己决定说话、架构、？椴鸱帧⑹萁峁股踔琳 repo 的组织方式。

更关键的是，ProgramBench 不再依照源码类似度打分。它选取的是 behavioral equivalence，行为等价。也就是说，你能够用齐全分歧的说话、算法、架构，甚至齐全分歧的工程实现。只有最终输入输出行为与原法式一致，就算通过。

钻研团队甚至使用了 agent-driven fuzzing，自动天生大量端到端行为测试。

这是第一次，一个 benchmark 真正起头逼近现实世界的软件工程，而不再只是代码做题。了局出来之后，整个 AI 圈都寡言了。

所有模型：0% 实现率。

Table 2 掌管造作震撼，那么 Figure 4 掌管诠释震撼背后的细节。它通知我们，模型并不是齐全不会做，而是时时能做出一部门，甚至在少数工作上靠近实现；但只有要求 100% 行为等价，所有模型城市倒下。但这最后一公里，正是软件工程和通常代码天生最大的区别。另表，若是矮子里面拔将军，Claude 系列（尤其是 Opus 4.7 和 4.6）阐发相对最好。

即便论文专门增长了一个Almost指标——统计那些实现度超过 95% 的工作。目前阐发最强的 Claude Opus 4.7，也只有 3% 的工作靠近实现。

论文里，有一句出格关键的话：

Models favor monolithic, single-file implementations that diverge sharply from human-written code.

翻译过来就是：模型极端偏差于天生单体化代码。大量逻辑被塞进单文件；目录结构极浅；？椴鸱旨；函数超长；整个 repo 看起来像一坨巨型剧本。

这和优良人类工程师的习惯，险些齐全相反。

后者往往讲求？楹凸刈⒌惴掷，会把代码拆得很优雅——配置放config.json，工具函数放utils.py，数据库操作放db.py，而后通过import相互挪用。

这其实露出出了一个极度主题的问题：AI 善于的是部门代码天生，但不善于全局系统规划。而真实的软件工程，性质上刚好是后者。

这也是为什么模型在 LeetCode、SWE-Bench、Copilot 场景里已经极度强，一旦进入真实世界的大型工程系统，就会迅速掉进深水区。

当前 AI Coding 的真正瓶颈已经不再是代码天生能力，而是持久的软件系统构建能力。

另一个很有意思的了局，是分歧说话之间的阐发差距。

钻研团队别离统计了模型在 C/C++、Go、Rust 等分歧说话项目上的阐发Ｄ芄幌灾吹，传统 C/C++ 项目实现度最高，而 Rust 阐发最差。

分歧模型在职务难度上的排序高度一致：nnn、fzf、gron 这类相对单一的 CLI 工具，模型普遍能拿到更高通过率；但 FFmpeg、php-src、typst、ast-grep 这类复杂系统，险些所有模型都很难推动。这注明 ProgramBench 测到的不是某个模型无意失手，而是复杂软件系统自身对当前模型形成了不变压造。

这其实并不让人意表。

互联网里关于 C/C++ 的汗青代码、工程实际和 Stack Overflow 内容切实太多了，模型已经被这些模式浸泡了好多年。

而 Rust 的工程哲学自身就更强调？榛wnership、trait system 和持久可守护性，这些刚好是当前模型最不善于的器材。

某种意思上，Rust 测出来的，其实不是代码能力，而是工程能力。

随着 ProgramBench 引发热议，萦绕这项 benchmark 的争论也起头迅速扩散。其中最重要的质疑之一是：这不就是在考模型有没有背过 FFmpeg 吗？终于，ProgramBench 里的好多项目自身就是公开开源软件。

对此，驰名硅谷投资人 Deedy Das 专门发文回应：任何 benchmark 都可能被 overfit。

SWE-Bench 能够被记住 bug，LeetCode 能够被背题，甚至 ARC-AGI 将来也可能通过暗藏题库来预防泄漏。单纯会商是否存在影象自身，其实并不能否定 benchmark 的价值。

他以为：若是模型真的试图用 brute force 的方式去硬背这些法式，它往往会在此外处所显著退化。

由于真正的大模型训练，并不是单一把整个 FFmpeg 塞进参数里。更何况，钻研人员还能够通过比对天生代码与原始源码的类似度，去检测是否存在直接 memorization。

他真正想强调的，从底层重建一个真实世界的软件系统，自身就是一种高 utility、长功夫跨度的复杂工作。若是模型真的可能推理并实现这类工作，那么这种能力很可能会泛化到大量其他工程场景中

另一类争议则更有意思。有人吐槽说：连人类都不成能从零重写 FFmpeg，这 benchmark 底子不合理。

Deedy Das 回应，那又怎么？今天好多 LLM 能做到的事件，人类均匀水平也做不到。

benchmark 的指标，从来不是仿照通常人的均匀能力，而是推动模型向更高档次的智能逼近。人类做不到，并不料味着 benchmark 没价值。

好比，AlphaGo 下棋超过绝大无数人，并不影响它推动了 AI；同样，一个远高于通常工程师能力天堑的 benchmark，也可能是将来 Agent 系统必须攻克的问题。

当然，他也认可，ProgramBench 依然存在不少缺点。好比，目前它没有测试 Claude Code、Codex 这类齐全的 agent harness；只统计是否实现，没有更细粒度地衡量进展。

同时还限度了联网能力，以预防一些显著舞弊行为。

Deedy Das 赞成，这可能导致模型为了在特定指标上得分而走偏（Hill-climbing on the wrong thing）。不外，人们也随时能够增长一项在有网络接见权限下的机能测试作为对比。

还有人建议：为什么不用真正没人解决过的新问题？对此，Deedy Das 暗示，由于那会让 benchmark 险些无法构建。

你很难为一个没有尺度答案的问题设计完整测试；也很难判断工作是否真的属于现实世界工程工作，还是钻研者凭空凭空出来的 challenge。

但这些问题，其实都能够随着 benchmark 演进持续建改。

真正重要的是：ProgramBench 第一次把 AI Coding 的评估，从函数级拉到了系统级。它露出出的，也是整个行业当前最大的断层：真正的软件开发，从来都不是写一个函数，而是若何做出一个能被守护、被扩大、被团队合作的工程系统。

今天的大模型，已经极度擅永天生部门代码。但依然不足持久、一致、不变地守护复杂系统的能力。

所以你会发现，最近整个行业都起头疯狂钻研另一批关键词：memory、agents、repo-level reasoning、long-horizon planning、autonomous software engineering。

由于下一阶段的竞争，可能已经不再是谁能一次性天生更长的代码，而是谁能在长功夫、多轮交互、复杂高低文中，持续不变地守护一个在世的软件系统。

论文链接：

https://programbench.com/static/paper.pdf

　

【编纂者：谢可柔】

有关标签

华泰柏瑞中韩半导体ETF年内涨幅翻倍（村落杏驻看振兴）“三色木耳」乩开“致富花” 山西忻州绘就村落新“丰”景心灵医院炒股炒成上市公司前十大股东山西传递“明长城被煤矿持久粉碎”

文章点评

未查问到任何数据！

颁发评论

◎迎接参加会商，请在这里颁发您的见解、互换您的概想。

【网站地图】