k8凯发天生赢家

起源:女子不安伤及无辜烧毁跳楼轻生作者:

起源:女子不安伤及无辜烧毁跳楼轻生作者: 张亭康:

OpenAI携手5大巨头颁布MRC和谈 ,重塑大规模AI训练网络架构

IT之家 5 月 7 日新闻 ,OpenAI 昨日(5 月 6 日)颁布布告 ,为解决大规模 AI 训练中的网络延长和故障问题 ,已携手 AMD、博通、英特尔、微软和英伟达公司 ,结合推出多蹊径靠得住衔接(MRC)和谈 ,并通过 OCP(盛开推算项目)向全行业盛开该和谈。

IT之家援引博文介绍 ,MRC 全称为 Multipath Reliable Connection ,基于 RoCE 尺度扩大 ,结合 SRv6 技术 ,通过盛开推算项目(OCP)向全行业开源 ,致力于提升超等推算机网络的机能与韧性。

大规模训练 AI 模型面对严格的网络挑战 ,单一数据传输延长可能导致整个过程中断 ,以至 GPU(图形处置器)闲置。网络拥塞、链路及设备故障是重要诱因 ,且集群规模越大 ,问题发生频率越高。

针对传统网络架构扩大性不及的问题 ,MRC 选取多平面网络设计。通过将单一 800Gb/s 接口拆分为多个较幼链路 ,系统仅需两层互换机即可衔接约 13.1 万块 GPU。相比传统三层或四层架构 ,这一设计显著降低了网络功耗与组件数量 ,在降低成本的同时提升了蹊径多样性。

在流量调度方面 ,MRC 引入自适应数据包喷淋技术。与传统单蹊径传输分歧 ,该技术将单一传输工作的数据包分散至数百条蹊径并行传输 ,有效预防了主题网络拥塞。即便数据包乱序达到 ,接管端也能凭据内存地址信息正确重组。

为简化网络节造 ,MRC 摒弃了复杂的动态路由和谈(如 BGP) ,转而选取 SRv6 源路由。发送端直接指定数据包蹊径 ,互换机仅需凭据静态配置表转发。这种机造解除了动态路由的故障行为 ,使网络故障复原功夫从秒级缩短至微秒级。

现实部署数据显示 ,MRC 已利用于 NVIDIA GB200 超等推算机及 Oracle Cloud Infrastructure(OCI)站点。在真实训练场景中 ,即便发生链路抖动或互换机重启 ,MRC 也能在不中断训练工作的情况下自动绕过故障。

@阳美娟:欧美va ,梁靖崑回应被称为逆袭之王
@吴慧发:有些学堂为什么装了空调却不用
@王圣宪:窦颖给窦靖童和声

热点排行

【网站地图】