k8凯发天生赢家

新闻中心 新闻中心

Claude、GPT、Gemini 全灭 ,SWE-Bench作者新作把AI圈干寡言了

编纂|Sia

作者:吴淑旭
颁布功夫:2026-06-02 16:23:25
阅读量:51

Claude、GPT、Gemini 全灭 ,SWE-Bench作者新作把AI圈干寡言了

编纂|Sia

SWE-Bench 的创建者 ,刚刚又放出了一个地狱级新 benchmark。

了局相倒仞撼:

Claude Opus 4.7、GPT-5.4、GPT-5 mini、Gemini 3.1 Pro、Gemini 3 Flash——这一代险些所有最强的一线模型 ,全数 0% 实现率。

没有一个模型 ,可能真正齐全重建一个软件项目。

这意味着什么?

今天的大模型 ,已经很会写代码了 ,但依然不会做软件工程。

最近 ,Meta FAIR 结合斯坦福、哈佛等机构颁布了一项很有意思的新 benchmark ,性质上是在重新界说 AI Coding 的评估方式:

ProgramBench: Can Language Models Rebuild Programs From Scratch?

从前的大模型编程 benchmark ,大多测的是部门能力:补全函数、建复 bug、实现 feature……性质上 ,依然是在已有代码结构里做部门批改。

而 ProgramBench 第一次把问题推动到了真正的软件工程层面:若是只给 AI 一个法式的职能描述和 usage docs ,它能不能像真正的工程师一样 ,从零起头 ,重新构建一个真实、可执行的软件系统?好比 ffmpeg、SQLite、ripgrep。

并且——不能联网。

换句话说:模型到底有没有工程智能?

为了测试这一点 ,钻研团队直接删除了原始源码和测试 ,只保留 executable 和 usage docs ,模型必要自己决定说话、架构、?椴鸱帧⑹萁峁股踔琳 repo 的组织方式。

更关键的是 ,ProgramBench 不再依照源码类似度打分。它选取的是 behavioral equivalence ,行为等价。也就是说 ,你能够用齐全分歧的说话、算法、架构 ,甚至齐全分歧的工程实现。只有最终输入输出行为与原法式一致 ,就算通过。

钻研团队甚至使用了 agent-driven fuzzing ,自动天生大量端到端行为测试。

这是第一次 ,一个 benchmark 真正起头逼近现实世界的软件工程 ,而不再只是代码做题。了局出来之后 ,整个 AI 圈都寡言了。

所有模型:0% 实现率。

Table 2 掌管造作震撼 ,那么 Figure 4 掌管诠释震撼背后的细节。它通知我们 ,模型并不是齐全不会做 ,而是时时能做出一部门 ,甚至在少数工作上靠近实现;但只有要求 100% 行为等价 ,所有模型城市倒下。但这最后一公里 ,正是软件工程和通常代码天生最大的区别。另表 ,若是矮子里面拔将军 ,Claude 系列(尤其是 Opus 4.7 和 4.6)阐发相对最好。

即便论文专门增长了一个Almost指标——统计那些实现度超过 95% 的工作。目前阐发最强的 Claude Opus 4.7 ,也只有 3% 的工作靠近实现。

论文里 ,有一句出格关键的话:

Models favor monolithic, single-file implementations that diverge sharply from human-written code.

翻译过来就是:模型极端偏差于天生单体化代码。大量逻辑被塞进单文件;目录结构极浅;?椴鸱旨;函数超长;整个 repo 看起来像一坨巨型剧本。

这和优良人类工程师的习惯 ,险些齐全相反。

后者往往讲求?楹凸刈⒌惴掷 ,会把代码拆得很优雅——配置放config.json ,工具函数放utils.py ,数据库操作放db.py ,而后通过import相互挪用。

这其实露出出了一个极度主题的问题:AI 善于的是部门代码天生 ,但不善于全局系统规划。而真实的软件工程 ,性质上刚好是后者。

这也是为什么模型在 LeetCode、SWE-Bench、Copilot 场景里已经极度强 ,一旦进入真实世界的大型工程系统 ,就会迅速掉进深水区。

当前 AI Coding 的真正瓶颈已经不再是代码天生能力 ,而是持久的软件系统构建能力。

另一个很有意思的了局 ,是分歧说话之间的阐发差距。

钻研团队别离统计了模型在 C/C++、Go、Rust 等分歧说话项目上的阐发D芄幌灾吹 ,传统 C/C++ 项目实现度最高 ,而 Rust 阐发最差。

分歧模型在职务难度上的排序高度一致:nnn、fzf、gron 这类相对单一的 CLI 工具 ,模型普遍能拿到更高通过率;但 FFmpeg、php-src、typst、ast-grep 这类复杂系统 ,险些所有模型都很难推动。这注明 ProgramBench 测到的不是某个模型无意失手 ,而是复杂软件系统自身对当前模型形成了不变压造。

这其实并不让人意表。

互联网里关于 C/C++ 的汗青代码、工程实际和 Stack Overflow 内容切实太多了 ,模型已经被这些模式浸泡了好多年。

而 Rust 的工程哲学自身就更强调?榛wnership、trait system 和持久可守护性 ,这些刚好是当前模型最不善于的器材。

某种意思上 ,Rust 测出来的 ,其实不是代码能力 ,而是工程能力。

随着 ProgramBench 引发热议 ,萦绕这项 benchmark 的争论也起头迅速扩散。其中最重要的质疑之一是:这不就是在考模型有没有背过 FFmpeg 吗?终于 ,ProgramBench 里的好多项目自身就是公开开源软件。

对此 ,驰名硅谷投资人 Deedy Das 专门发文回应:任何 benchmark 都可能被 overfit。

SWE-Bench 能够被记住 bug ,LeetCode 能够被背题 ,甚至 ARC-AGI 将来也可能通过暗藏题库来预防泄漏。单纯会商是否存在影象自身 ,其实并不能否定 benchmark 的价值。

他以为:若是模型真的试图用 brute force 的方式去硬背这些法式 ,它往往会在此外处所显著退化。

由于真正的大模型训练 ,并不是单一把整个 FFmpeg 塞进参数里。更何况 ,钻研人员还能够通过比对天生代码与原始源码的类似度 ,去检测是否存在直接 memorization。

他真正想强调的 ,从底层重建一个真实世界的软件系统 ,自身就是一种高 utility、长功夫跨度的复杂工作。若是模型真的可能推理并实现这类工作 ,那么这种能力很可能会泛化到大量其他工程场景中

另一类争议则更有意思。有人吐槽说:连人类都不成能从零重写 FFmpeg ,这 benchmark 底子不合理。

Deedy Das 回应 ,那又怎么?今天好多 LLM 能做到的事件 ,人类均匀水平也做不到。

benchmark 的指标 ,从来不是仿照通常人的均匀能力 ,而是推动模型向更高档次的智能逼近。人类做不到 ,并不料味着 benchmark 没价值。

好比 ,AlphaGo 下棋超过绝大无数人 ,并不影响它推动了 AI;同样 ,一个远高于通常工程师能力天堑的 benchmark ,也可能是将来 Agent 系统必须攻克的问题。

当然 ,他也认可 ,ProgramBench 依然存在不少缺点。好比 ,目前它没有测试 Claude Code、Codex 这类齐全的 agent harness;只统计是否实现 ,没有更细粒度地衡量进展。

同时还限度了联网能力 ,以预防一些显著舞弊行为。

Deedy Das 赞成 ,这可能导致模型为了在特定指标上得分而走偏(Hill-climbing on the wrong thing)。不外 ,人们也随时能够增长一项在有网络接见权限下的机能测试作为对比。

还有人建议:为什么不用真正没人解决过的新问题?对此 ,Deedy Das 暗示 ,由于那会让 benchmark 险些无法构建。

你很难为一个没有尺度答案的问题设计完整测试;也很难判断工作是否真的属于现实世界工程工作 ,还是钻研者凭空凭空出来的 challenge。

但这些问题 ,其实都能够随着 benchmark 演进持续建改。

真正重要的是:ProgramBench 第一次把 AI Coding 的评估 ,从函数级拉到了系统级。它露出出的 ,也是整个行业当前最大的断层:真正的软件开发 ,从来都不是写一个函数 ,而是若何做出一个能被守护、被扩大、被团队合作的工程系统。

今天的大模型 ,已经极度擅永天生部门代码。但依然不足持久、一致、不变地守护复杂系统的能力。

所以你会发现 ,最近整个行业都起头疯狂钻研另一批关键词:memory、agents、repo-level reasoning、long-horizon planning、autonomous software engineering。

由于下一阶段的竞争 ,可能已经不再是谁能一次性天生更长的代码 ,而是谁能在长功夫、多轮交互、复杂高低文中 ,持续不变地守护一个在世的软件系统。

论文链接:

https://programbench.com/static/paper.pdf

 

文章点评

未查问到任何数据!

颁发评论

◎迎接参加会商 ,请在这里颁发您的见解、互换您的概想。

最新文章

热点文章

随机推荐

【网站地图】