打开软件,点击"?增长 国产精品发布"按钮,从电脑当选择《国产精品发布》文件,或直接将其拖拽至软件界面中。
软件会自动鉴别并解析导入的文件,您可凭据界面提醒选择所需的保留蹊径或下载体式。
确认无误后,点击"起头下载/处置"按钮。期待进度条读取结束,即可在设定的文件夹中查看下载好的正版文件。
颠覆二十年组网逻辑,智谱落地ZCube,让同样的GPU多干15%的活,国产精品发布
编纂|冷猫
在 AI 发展的过程中,我们仍在经历一个野蛮成长的阶段:规模,就是所有。
这条路的确管用。从千卡到万卡,算力规模的跃升支持了大模型从 GPT-4 到 DeepSeek V4、GLM-5 的一路狂飙。
不外我们都忽略了一个现实,在 GPU 硬件规模达到肯定水平的时辰,将算力相连的链路就成了不能忽视的机能变量。
2026 年 5 月 5 日,OpenAI 结合 NVIDIA、AMD、Intel、Microsoft、Broadcom 五家巨头,通过盛开推算项目(OCP)向全行业颁布了 MRC(Multipath Reliable Connection)和谈。这是一种专为超大规模 AI 集群设计的网络传输和谈,已部署在 OpenAI 最大的 NVIDIA GB200 超算集群中,用于训练 ChatGPT 等前沿模型。
技术博客链接:https://openai.com/index/mrc-supercomputer-networking/
MRC 的主题思路是:将数据传输分散到数百条蹊径上并发传输,在微秒级绕过链路故障,从底子上解决大规模 GPU 集群的网络通讯瓶颈。
而就在刚刚,智谱率先在 GLM-5.1 线上出产集群中实现了新一代组网架构 ZCube 的规;涞。
ZCube 颁发于网络领域顶会ACM SIGCOMM 2025,被评价为「significantly change the way we think about and understand networking/显著扭转整个行业对网络认知方式」。这是该技术初次大规模使用于出产推理集群中,智谱结合驭驯网络与掌管网络架构升级和优化工作,组网架构优化基于锐捷网络互换机。
论文标题:From ATOP to ZCube: Automated Topology OptimizationPipeline and A Highly Cost-Effective Network Topology for LargeModel Training论文链接:https://dl.acm.org/doi/epdf/10.1145/3718958.3750503技术博客:https://z.ai/blog/zcube
新一代组网架构下,在不新增任何 GPU、不批改任何利用代码的前提下,集群推理吞吐提升了 15%,首 Token 响应的尾延长(TTFT P99)降落了 40.6%,互换机与光?橛布成本削减了三分之一
不加一块GPU,算力瞬间多出15%;蛐,在扩大 GPU 规模之表:网络,已经成为超大规模 AI 基础设施的下一个主战场。
ZCube 技术解读:架构层面解除拥塞
推理时期的流量,和训练时期截然分歧
传统互联网时期的数据中心流量是「统计均匀」的。数据中心普遍选取的 Fat-Tree / Clos 架构正是基于这一如果设计的:通过多层互换机堆叠来扩大规模,依赖 ECMP(等价多蹊径路由)在多条蹊径间分配流量,成效不错。AI 训练集群也根基沿用了这套架构,由于训练阶段的通讯模式相对固定和规整。
但大模型推理带来了一种全新的流量范式。随着 Prefill(处置用户输入高低文)与 Decode(逐 Token 天生输出)分离部署成为主流,集群内部的数据传输出现出高度的动态不合称性。Prefill 节点处置输入高低文,Decode 节点掌管持续天生 Token,两类节点之间必要频仍传递 KV Cache。分歧要求的高低文长度差距可达数十倍,处置功夫随之变动,KV Cache 数据在 GPU 之间的流向险些毫无法规可循。
ROFT架构中,Leaf互换机之间容易出现流量负载不均
在选取传统 ROFT 架构的集群中,统一台机械上分歧网卡承担的 KV Cache 传输负载差距巨大。这种源-主张不合称性让 ROFT 的 rail 映射不再天然等价于负载平衡,反而容易把流量集中推向少数 Leaf 互换机和链路。
统一台机械分歧网卡的 KV Cache 传输负载差距图
问题的本原在于,Clos / ROFT 架构对推理流量产生了一类特殊的拥塞,智谱钥浼术汇报中将其明确分辨为两类:
不成预防的拥塞:例如多个 GPU 同时向统一主张地发送数据,在最后一跳链路上必然产生竞争。这类拥塞是物理法规决定的,通常依赖拥塞节造、流量整形等机造来缓解?稍し赖挠等河赏仄私峁购土髁坑成浞绞降贾,流量被拓扑关系天然地推向同几台互换机和同几条链路,即便总带宽充足,也会形成部门热点。某些 Leaf 互换机的部门出口队列深度持续高位,频仍触发 PFC(Priority Flow Control)反压,进一步将拥塞从部门扩散到整条链路,放大尾时延、压低整体吞吐。这类拥塞的性质是架构设计问题,靠调参和和谈优化都无法根治。
两类网络拥塞示意图
从前,业界应对网络拥塞的主流思路集中在和谈层:自适应路由(adaptive routing)、包喷洒(packet spraying),甚至 OpenAI 刚颁布的 MRC,性质上都是在拥塞发生后做补救或绕行。
ZCube 选择了从架构层面解除第二类拥塞产生的本原,让它「不该发生的就不发生」。
ZCube 的三重设计逻辑
从 ZCube 组网架构图来看,该架构突破了 Clos 架构中档次化堆叠互换机的传统组网思路,设计了一种齐全扁平的方式进行 GPU 服务器互联。
ZCube架构相比ROFT架构能够有效预防结构性网络拥塞
文中视频链接:https://mp.weixin.qq.com/s/Tf_ZJ5f_Ur00mofWuIBZZQ
第一层:取缔分层,全网扁平化。传统 Clos 架构由 Spine 层和 Leaf 层组成,数据在 GPU 之间传输必要「上行到 Spine,再下行到 Leaf」,跨层转发自身就引入了额表延长和拥塞风险。ZCube 取缔了 Spine 层互换机,将所有 Leaf 互换机按序号奇偶分为两组,两组之间选取齐全二部图互联(即每台奇数互换机与所有偶数互换机相连)。这意味着全网 GPU 仅经过两台互换机即可互达,网络直径为 2 跳,介于单层互换机组网(1 跳,规模受限)和双层 Clos(3 跳,延长高)之间。
第二层:单轨 + 多轨混合接入,实现梦想负载平衡。这是 ZCube 最精妙的设计。每张 GPU 网卡占有两个端口,别离以两种截然分歧的方式接入两组互换机:第一个端口选取「多轨」方式,即一样编号的 GPU 衔接到统一台奇数互换机;第二个端口选取「单轨」方式,即陆续编号的 GPU 衔接到统一台偶数互换机。
这种「一张网卡,两种接法」的拓扑设计带来了一个关键个性:全网肆意两张 GPU 之间有且仅有一条最优蹊径。多蹊径选路是传统架构拥塞的重要起源,由于多条蹊径意味着负载平衡战术必要做选择,选择就可能犯错,就可能导致流量集中。ZCube 用唯一蹊径解除了这一不确定性。
用更直白的话说:在 ROFT 架构下会在互换机之间发生矛盾的流量,在 ZCube 架构下能够独享整条网络蹊径。
第三层:更低成本,更强扩大性,更高容错。ZCube 在实现机能提升的同时,反而降低了硬件成本。由于取缔了 Spine 层,在一样集群规模下,ZCube 比 Clos / ROFT 架构削减约三分之一的互换机和光?。
扩大性方面同样阐发杰出。以当前主流的 400Gb/s 网络配置推算,ZCube 仅用一层互换机即可构建衔接 16384 张 GPU 的扁平网络。而传统 ROFT 架构要实现一致规模,必要三层互换机。若是选取下一代 102.4Tbps 互换机和四端口 ConnectX-8 网卡,ZCube 可支持的 GPU 规模更可达 65536 张
容错性方面也有优势。由于 ZCube 全网 GPU 之间不存在硬性隔离平面,在给定链路故障率下,GPU 对不成达的概率比传统双平面 Clos 网络低 50% 以上。
ZCube架构下贱量负载平衡示意图
传统 Clos 架构像一座多层立交桥系统,车流必要频仍高低匝路,顶峰期特定匝路必然拥挤,且立交桥的某一层出故障会影响大量通畅。ZCube 则像一张经过精密数学优化的平面路网,每辆车都有一条唯一的最短蹊径直达主张地,任何路段的车流量都被均匀分摊,从规划层面解除了拥挤发生的前提。
尝试:同样的硬件,多出 15% 的算力
ZCube 真正引人瞩主张是它已经在智谱千卡级 GLM-5.1 coding 推理集群中实现了齐全的出产验证。
尝试设置极度干净:GPU 型号不变、软件栈不变、业务代码不变,唯一的变量是将传统 ROFT 架构代替为 ZCube。了局如下:
推理吞吐提升 15% 以上:同样的硬件投入,每秒多响应 15% 的 API 要求TTFT P99 降落 40.6%:首 Token 响应的尾延长大幅降低,用户体感更流畅互换机与光?槌杀鞠骷跞种唬涸谕蚩ü婺<褐,仅网络硬件一项即可节俭投资约 2.1 亿至 6.4 亿元
更关键的是,这项升级的边际成本很低,纯正是组网架构的代替。当 GPU 供给持续严重、价值居高不下时,一种不依赖硬件堆叠就能显著提升系统效能的规划,其产业价值不言而喻。
AI 基础设施的价值重心在迁徙
ZCube 的落地与 OpenAI MRC 和谈的颁布,放在 2026 年 AI 基础设施的大布景下审视,它们共同指向一个更深层的行业拐点:AI 基础设施的价值重心,在从「算力」向「系统效能」迁徙。
让 GPU 跑得更好
从前三年,大模型公司的基础设施战术能够用一个字概括:买。抢 GPU、抢算力卡、抢机柜、甚至抢能源。这套逻辑在模型从零到一的阶段是成立的,算力规模直接决定了能训练多大的模型、能支持几多用户。
但到了此刻,这个逻辑起头遇到阻力。
第一,GPU 的供给依然严重。只管英伟达持续扩产,但需要增速远超供给,尤其是高端推理卡的交付周期依然以季度计。第二,算力采购的经济模型在恶化。GPU 价值居高不下,而大模型 API 的定价竞争日趋强烈,Token 单价持续走低,毛利空间被两端挤压。第三,单纯堆 GPU 的边际收益在递减。当集群规模从千卡扩大到万卡,新增 GPU 的算力并不能被线性开释。
在这一趋向下,OpenAI 的 MRC 和智谱的 ZCube 代表了和谈层和架构层的两条互补的技术蹊径。两者高度互补,当推理集群规模持续向十万卡甚至更大规模演进时,这种「架构层无拥塞 + 和谈层强容错」的组合或许将成为标配。
产业链的结构性变动
英伟达 2019 年以 69 亿美元收购 Mellanox,将 InfiniBand 纳入自己的 AI 算力疆域。之后,数据中心网络市场险些被 InfiniBand 垄断了 AI 场景的高端需要。
在行业发展到一个新阶段后,多重力量在突破这一格局。
超以太网同盟(UEC)尺度急剧推动,从和谈层面为以太网补齐了 AI 场景所需的低延长和高靠得住能力。
此表,据 TrendForce 钻研汇报,全球 AI 专用光收发?槭谐∫呀敫咚俪沙そ锥,全球 AI 光收发?槭谐≡ぜ拼 2025 年的 165 亿美元增至 2026 年的 260 亿美元,增幅超过 57%。国金证券研报指出,随着推理需要驱动算力从通用 GPU 向专用 ASIC 演进,ASIC 芯片在网络接口设计上天然偏差于选取盛开的以太网尺度,也在推动网络架构从专有和谈向盛开尺度迁徙。
ZCube 的出现进一步加快了这一过程。它对互换机层级的要求从传统的三层降低到了一层,对高端 Spine 互换机的依赖大幅降低,转而对 Leaf 互换机的端口密度提出了更高要求。
这意味着集群组网的采购逻辑将发生结构性变动:需要从「少量高端互换机 + 大量中端互换机」的金字塔结构,转向「大量高密度互换机 + 更高速光?椤沟谋馄浇峁。
网络架构创新的投入产出比,可能远超大无数人的直觉。
在 GPU 价值高企、算力供给偏紧的大环境下,无数公司确把稳力依然集中在「若何获得更多 GPU」上。但 ZCube 用真实的出产数据证明,在 GPU 资源不变的前提下,纯正通过网络架构升级就能开释 15% 的额表算力,同季节俭三分之一的网络成本。若是将这一比例表推到万卡甚至十万卡规模,网络优化所开释的价值将远超通常认知。
网络瓶颈还拥有一个被宽泛低估的个性:它随集群规模指数级加剧。集群规模翻倍,GPU 间通讯的复杂度可能增长数倍,拥塞发生的概率和影响也同步放大。这意味着 ZCube 这类架构级创新的价值,将随着推理集群的持续扩张而加快显露。
对于在加快扩建 AI 基础设施的云厂商、模型公司与智算中心而言,这或许是一个重新审视组网规划的关键时刻。AI 算力较量的下半场,输赢可能取决于那张「看不见的网」。
https://www.trendforce.cn/presscenter/news/20260420-13018.html
https://news.qq.com/rain/a/20260413A03IX100
| 软件名称 | 国产精品发布 |
| 软件版本 | 4.29.970.5855 |
| 软件大幼 | 4.17GB |
| 软件分类 | 工具软件 |
| 运行平台 | Android/ios/winall/win7/win10/win11 |
| 软件授权 | 免费版 |
1、打开软件,点击"?增长 国产精品发布"按钮,从电脑当选择《国产精品发布》文件,或直接将其拖拽至软件界面中。
2、软件会自动鉴别并解析导入的文件,您可凭据界面提醒选择所需的保留蹊径或下载体式。
3、确认无误后,点击"起头下载/处置"按钮。期待进度条读取结束,即可在设定的文件夹中查看下载好的正版文件。