k8凯发天生赢家

新闻中心 新闻中心

可重构数据流三十年:下一代推算平台之争

作者 | 程茜

作者:李丰真
颁布功夫:2026-05-31 09:15:14
阅读量:24

可重构数据流三十年:下一代推算平台之争

作者 | 程茜

编纂 | 漠影

历经484天 ,全球AI产业翘首以盼的DeepSeek-V4正式颁布、全面开源 ,其同步甩出的一份硬核技术汇报 ,为算力时期的演进写下全新注脚。

它以系统级创新 ,将KV Cache规模扩大至百万级高低文 ;系统性压缩机造的引入 ,既降低存储与推算的重大开销 ,也将推算流水线的深杜纂复杂度推向新高度 ,这每一处技术突破 ,都是对算力发展极限的叩问。

再将功夫拨回2025岁暮 ,还有一笔突破通例的买卖横空出世:英伟达以200亿美元天价拿下AI推理芯片独角兽Groq LPU推理技术的非独家授权 ,并将主题团队纳入麾下。

DeepSeek-V4的技术演进 ,为数据流架构开释极限机能提供了适配场景 ;Groq 被英伟达收编后也同样押注的是数据流架构方向 ,这一产业新变量已然跻身全球AI产业主题舞台 ,成为撬动算力革命海潮的重要力量。

算力革命的大水奔涌向前 ,巨头的每一次布局 ,都暗藏着行业迭代的风向 ;赝扑慊际醯难萁 ,每一次划时期的技术革命 ,性质上都是一场对算力平台的豪赌 ,技术路线的选择往往决定了将来数十年的产业格局。

在PC与互联网的时期 ,英特尔(Intel)凭借x86架构的绝对机能统治了算力边陲 ,并在此基础上构筑了难以撼动的软件生态帝国。然而 ,随着HPC与AI海潮的到来 ,技术范式悄然切换。英伟达(NVIDIA)以CUDA生态共同TensorCore架构 ,较x86架构实现了十倍的机能跃迁 ,确立了其新一代算力霸主的职位 ,助其登顶全球市值之巅 ,实现了从图形处置器到AI引擎桂冠的加冕。

因而 ,英伟达首创人、CEO黄仁勋比任何人都明显 ,算力平台的更迭从不温情脉脉。昔时英特尔在x86生态的温顺乡中沉睡 ,未能预感并行推算的海潮 ;如今英伟达坐拥CUDA帝国 ,正派面一个更凶残的现实——当Transformer架构的算力需要每两年暴涨750倍 ,当单卡算力逼近物理极限 ,谁会成为新一代的算力平台?

十倍级的代际跃迁往往诞生于架构的颠覆而非工艺的改进。在GTC 2026大会上 ,英伟达正式推出Groq 3 LPX机架级推理平台 ,黄仁勋称 ,Groq 3 LPX平台与Vera Rubin NVL72结合使用的混合架构 ,可实现GPU强劲算力与LPU极致带宽的美满互补。这迅速引刊行业关注。

纵观产业界 ,除了英伟达这个GPU霸主 ,在给自己找一条“非GPU”的退路 ,此前英特尔被传以16亿美元价值收购SambaNova ,后转向深度合作。巨头们的焦虑已写在脸上。

而在国内 ,大额融资、订单的橄榄枝纷纷抛向鲲云科技等企业。

这些看似分散的热点 ,其实指向统一个技术原点——可重构数据流架构。

冰冻三尺 ,非一日之寒 ,新技术的演进、成熟、落地也非一旦一夕之功。技术的起点不在GPU架构机能瓶颈逐步明确确当下、亦不在GPU挑战CPU全球算力霸主的时期 ;它的起点在更早之前 ,在英伟达还未成立之时 ,在那个造程工艺急剧迭代、CPU依然统治算力平台的时期 ,从几个学者的兴致到学术社区的成立 ,从一代代尝试室技术的传承到产业化的星火燎原 ,至今已过了三十多年。

让我们把时钟拨回35年前 ,从牛津大学的一间会议室说起。

一、帝国理工学院的一间尝试室 ,可重构数据流架构火种诞生(1991-2000)

1991年 ,牛津大学的一间会议室内 ,陆永青博士筹备了一场推算机系统架构的钻研会 ,一种新的架构思路起头被会商:扭转硬件来适配软件利用。

传统架构依赖指令集系统进行推算治理 ,指令间通过统一的存储地址空间进行共同 ,造成数据读写与推算的串行关系,影响推算效能提升。

若是在架构设计中将所有指令集移除 ,依附深度流水线与数据流动秩序节造推算 ,如下图所示 ,理论上不存在数据读写带来的推算空闲 ,能够阐扬物理极限机能。与此同时 ,在运行时重构推算电路 ,则能够解决推算通用性。

陆永青与其导师Ian Page找到了新的蹊径 ,其推出的Occam高层编译步骤成为可重构数据流架构汗青上初次给出的系统性工程化规划 ,在这次牛津大学钻研会上颁发 ,成为后来Handel-C编译器的基。河肅说话做硬件并利用现场可编程技术 ,去两全极致机能与架构通用性。

这次钻研会 ,后来成为欧洲最大的可重构推算顶会FPL(现场可编程逻辑) ,连同陆永青缔造的亚洲顶会FPT、其作为创刊主编缔造的ACM TRETS ,在尔后的数十年间 ,成为这个新技术路线的主阵地。

分歧于英特尔、英伟达所主导的固定硬件架构 ,扭转软件适配分歧利用 ,新诞生的技术专一于齐全相反的方向:扭转硬件适配分歧利用。类比到汽车造作行业 ,就相当于工厂可能扭转流水线配置 ,从而针对分歧车型打造专门的流水线 ,并通过传送带代替人为搬运来解决数据搬运的功夫亏损 ,这种架构思路通常能带来10倍甚至百倍的机能提升。

1991年FPL海报(图源:FPL会议官网)

9月6日 ,会议实现 ,从此开创了一个全新的推算架构 ,就是如今可重构数据流架构的雏形 ,奠定了该技术将来的主题发展方向。作为首创人的陆永青也成为推动这一领域发展的关键先驱人物。

1995年 ,他从牛津大学转职帝国理工学院 ,成立定造推算尝试室。作为可重构数据流技术的源头尝试室 ,Groq、SambaNova、鲲云科技这些国内表驰名创企的成立、演进 ,都与这家尝试室有着千头万绪的联系。

技术的终极命题在于更好的落地利用。定造推算尝试室诞生初期对准的就是可重构数据流架构的两大主题挑战:

?数据流 ,面向特定利用场景实现逼近物理极限的推算机能 ;

?可重构 ,在多样化场景的定造化架构间实现矫捷切换与通用适配。

后来Occam编译技术被分拆 ,成立了Celoxica ,其Handel-C工具链部门被欧洲EDA巨头Mentor Graphics收购 ,而这家巨头就是如今赫赫有名的西门子EDA。

Celoxica的诞生 ,初次将可重构数据流架构从理论构思淬炼为可供产业使用的算力规划。陆永青与德国粹者Markus Weinhardt所奠定的流水线矢量化步骤 ,也借此实现了从学术创想到工业基座的蜕变 ,为即将到来的技术海潮埋下了决定性伏笔。

二、大西洋两岸火种交汇 ,三代学者接力啃下产业化难题(2000-2016)

与此同时 ,大西洋彼岸的斯坦福大学 ,亦点燃了可重构数据流架构的钻研火种。

同为各自技术路线的奠基学者 ,陆永青与Flynn为多年伴侣。Flynn教授固然一向钟情于指令集架构钻研 ,但他在Bell Labs工作的学生Oskar Mencer却对硬件数据流架构情有独钟 ,由他主导推动的StReAm ,正是面向自适应推算设计的典型数据流架构。

在奥地利FPL会议上 ,陆永青与Mencer相识 ,大西洋两岸的钻研星火正式交汇 ,其后Mencer参与帝国理工任教职人员 ,他们合力推动数据流电路的极致优化 ,通过将流水线中所有软件移出 ,让硬件流水线获得逼近物理极限的机能 ,实现每个推算单元每个时钟周期都进行有效推算。

陆永青(左一)、Oskar Mencer(左二)获帝国理工学院卓越钻研奖(图源:帝国理工学院官网)

随着钻研不休深刻 ,可重构数据流架构与产业界的结合日益深厚 ,金融、医疗、石油勘探都成为这一技术蹊径阐扬作用的场景。2003年 ,雪弗龙石油的油田勘探工作受算力瓶颈造约 ,Mencer打造了高机能加快推算平台 ,实现了油田钻井效能的百倍提升。

这之后 ,Mencer主导成立的Maxeler Technologies将上述研发成就产业化 ,后来他慢慢专一于Maxeler的治理 ,逐步淡出定造推算尝试室。

Maxeler的数据流推算系统客户可谓赫赫有名 ,蕴含金融领域的JP Morgan、Citibank ,能源领域的雪弗龙、ENI ,还有英国Daresbury、德国Jülich等国度级超算中心。Maxeler与这些客户的合作证明 ,可重构数据流架构已经成为企业关键业务的刚需算力载体。

Mencer之后 ,海内表学者前仆后继。

陆永青教授创办的帝国理工定造推算尝试室成为北美、欧洲、亚洲学术会商与互换的交汇点。Michael Flynn之后多位指令集技术系统学者到定造推算尝试室互换访学 ,其中就蕴含斯坦福大学的Kunle Olukotun教授。多年后 ,Groq收购了Mencer创办的Maxeler Technologies ,而Groq正是其时Olukotun缔造的SambaNova在美国最大的竞争敌手 ,亦是这种全球技术互换下的必然。

随后 ,协助陆永青治理尝试室的 ,同样是一位香港学者:本硕博均毕业于香港中文大学的蔡权雄。他在定造推算尝试室主导了CUBE与Axel集群两大标志性项目 ,为可重构推算的规 ;橹ご蛳铝酥匾こ袒。

其中 ,CUBE将64颗FPGA在一个超大型印刷电路板上用Torus互联结构组成更大推算节点 ,谷歌TPU团队用2D Torus将TPU互联也选取了类似思路。

Axel集群则是用32台异构推算节点 ,每个推算节点蕴含FPGA加快卡、GPU加快卡、高机能CPU ,节点间用InfiniBand和Gigabit Ethernet互联 ,成为支持尝试室多年科研工作的主题算力平台。

CUBE项目论文主页

啃下这两块硬骨头后 ,对工程实现充斥周到的蔡权雄投身工业界 ,挑战“芯片」剽一大工程 ,后续参与英国芯片企业Imagination Technologies掌管 SoC芯片研发。

毕业于复旦大学的新一代的尝试室掌管人牛昕宇成为推动可重构数据流向ASIC演进的关键人物。

凭借高度可编程性 ,FPGA曾持久作为定造推算尝试室研发与产业化的主力平台。其多粒度可重构个性可美满适配各类可重构数据流架构 ,实现极高的算力利用率 ,但比特级重构依赖大量SRAM ,在芯单方面积、功耗与重构延长上支出数倍甚至十倍价值。

这让可重构数据流架构的优势被现有验证平台自身的巨大开销抵消 ,机能增益被严重抹平 ,尤其在与英伟达新一代旗舰芯片的正面交锋中 ,二者峰值算力差距悬殊 ,在现实利用层面难以展示其机能优势。

从成立鲲云科技后的技术与产品方历来看 ,其时牛昕宇已经意识到必必要找到足够深的利用场景做ASIC芯片 ,能力彻底开释这一架构的全数潜能。

而当不断代抛给他们的命题是:到底哪个战场 ,才占有足够磅礴的算力需要 ,足以支持起这样一颗全新架构ASIC芯片的诞生?

陆永青(左)、牛昕宇(右)(图片来自网络)

时价2011年前后 ,这个问题在尝试室内部无人能解 ,放眼全球业界亦无定论?杀喑搪呒饩龉婊└蘐abula曾以通讯领域为突破口 ,融资逾两亿美元大举推动 ,最终未能买通产业化通路。

面对前路迷雾 ,尝试室在仿真推算、生物推算、金融推算与机械进建场景索求的钻研成就陆续颁发 ,险些覆盖了其时所有具备潜力的高机能推算场景。在实际中 ,牛昕宇与陆永青给出了最求实的答案:既然方向未明 ,便广撒网、逐场试炼。

站在2026年回望 ,答案已不言而喻 ,真正承载起磅礴算力需要的 ,正是彼时刚刚萌芽的全新算法海潮:深度进建。然而在十五年前 ,索求者们只能靠一次次试错与返航 ,慢慢拼凑出齐全的技术疆域。从尝试室同期颁发的成就中不难窥见 ,其钻研重心逐步收敛:从各类通用利用 ,聚焦到卷积与矩阵运算 ,最终锚定深度进建加快。

在这条没有前路可参照的持久主义创新路路上 ,陆永青以600余篇高水平论文 ,构筑起可重构推算领域坚实的理论与技术根基 ,成为国际上少有的三院院士(IEEE Fellow、英国推算机学会会士与英国皇家工程院院士) ,在这一领域占有无可代替的学术职位 ,其钻研成就深刻影响了赛路内一系列关键方向的发展。

从陆永青奠基开创、点燃可重构推算的学术火种 ,到蔡权雄、牛昕宇等人接力传秤注持续添薪 ,三代人逾越二十载深耕不辍 ,让可重构数据流架构与深度进建的交汇之路 ,从吞吐理想走向清澈图景索求。

三、下一代算力平台之争:从群雄并起到三分全国(2017年至今)

2017年 ,AlphaGo的火扰纂谷歌TPU的出世 ,为可重构数据流架构的AI芯片产业化摊平了最后的路路。帝国理工定造推算尝试室主题团队:尝试室首创人与两代尝试室掌管人回国缔造鲲云科技 ,正式启动了中国的产业化征途。

与此同时 ,大洋彼岸的硅谷 ,一场同样聚焦可重构数据流技术的算力角逐同步启幕。SambaNova与Groq相继成立 ,成为搅动全球AI芯片格局的新生力量。

Groq由深度参加谷歌第一代TPU研发的Jonathan Ross携带主题研发堡垒创办。为打造数据流技术壁垒 ,2022年3月 ,Groq收购了定造推算尝试室在鲲云之前的产业化企业Maxeler ,将其主题技术纳入麾下 ,在后续产品迭代中深度融合数据流有关技术 ,构建起自身的技术竞争力。

而与Groq并肩站上赛路的SambaNova ,由斯坦福大学两位教授Kunle Olukotun、Christopher Ré ,以及甲骨文前高管Rodrigo Liang结合缔造。

作为主题技术魂灵人物 ,Kunle Olukotun教授早年深耕多核CPU推算领域 ,后将钻研重心转向可重构推算 ,与帝国理工学院定造推算尝试室成立合作D芄豢吹 ,在缔造SambaNova前后 ,Olukotun教授于2018年出席了鲲云科技在丽江主办的全球人为智能利用创新峰会 ,同场的MIT的Arvind教授 ,曾从事早期动态数据流架构的钻研工作。这是一次技术产业化的早期碰撞。

Kunle Olukotun教授(左三) ,Arvind教授(左七)(图片来自网络)

时期海潮下 ,全球算力赛路技术演进逐步走向深水区。彼时少有人关注的可重构数据流技术互换日深 ,而同期崛起的企业路线慢慢分野 ,最终在可重构数据流推算的疆域上 ,镌刻出三大主题技术方向:数据流架构、可重构架构 ,以及兼具二者优势、融合创新的可重构数据流架构 ,开启了鼎足之势的技术博弈时期。

可重构数据流架构赛路三条技术路线(智器材造表)

数据流路线以谷歌TPU及Groq为代表 ,从谷歌TPU的脉动阵列 ,到Groq LPU ,始终萦绕深度进建构建极致硬件流水线 ,一路向着物理机能的天花板突进。

2016年 ,谷歌颁布第一代TPU ,以片内固定推算阵列为骨架 ,凭借二维数据流执行模式 ,实现确定性、高吞吐的强悍算力输出。时至今日 ,TPU的产业职位已如日中天:AI独角兽Anthropic高达210亿美元的巨额订单、Meta数十亿美元的采购和谈纷纷投向谷歌 ,苹果、SpaceX等科技巨头亦成为其潜在重要客户 ,数据流架构的战术价值尽显无遗。

Groq的诞生 ,是谷歌第一代TPU主题团队对“无指令集”理想的极致贯彻。首创人Jonathan Ross深谙脉动阵列之痛 ,为Groq LPU选择了一条最激进的蹊径:彻底抛弃冯·诺依曼架构的指令调度 ,将硬件打磨为一条刚性的超等流水线。2024年2月 ,Groq凭借运行Llama 2 70B时十倍于同期GPU的天生速杜纂极低延长 ,一战成名 ,让世界看到了架构的机能神话和在大模型推理时期的统治力。

可重构堡垒 ,SambaNova凭借硬件动态重构能力 ,可在电路运行时矫捷扭转结构 ,通用性远超传统数据流架构。在其白皮书设计中 ,推算单元互联选取可重构架构 ,主题推算基于SIMD核 ,终于难以脱节指令集约束 ,无法触及无指令集数据流流水线的极致机能。

鲲云科技则是可重构数据流堡垒的代表企业 ,其架构性质集可重构与数据流优势:数据流以硬件流水线大局提供极限机能 ,可重构以动态可重构调整硬件电路提供通用性。鲲云科技颁布的初代产品CAISA3.0(全球首款可重构数据流量产芯片) ,第三方测试数据显示 ,相较于同期英伟达产品 ,CAISA3.0实现了高达11.6倍的芯片利用率提升与134.93倍的延长降低 ,以量级优势展示了可重构数据流架构的潜力。第二代芯片CAISA430量产和进一步落地 ,其在深度进建和大模型推理等模型支持上一连了一致的机能代际优势。

综上 ,一多前锋企业入局可重构数据流领域 ,开启产业化征途。点点星火就此汇聚 ,器材方顶尖技术力量形成响应 ,终成席卷下一代推算架构的燎原之势。

四、可重构数据流机能神话之后 ,规 ;骋谆镁

正如开篇所言 ,大路至简 ,一代算力平台的崛起 ,终于要回归产品层面的两大主题拷问:其一 ,能否实现机能与延长的十倍跃迁?其二 ,能否构筑可堆集、可演进的算力生态 ,支持规 ;骋茁涞?

Groq、鲲云科技等公开的基准测试数据已足以验证可重构数据流架构对第一个主题问题的回覆:它的确带来了数量级的机能颠覆。

而随着DeepSeek-V4正式颁布 ,数据流架构的天然优势进一步得到证实。这类架构的机能天花板 ,刚好依附于更深、更复杂的推算流水线:流水线层级越长、数据链路依赖越繁复 ,数据流架构在指令级并行调度、细粒度数据部门性挖掘、异步执行暗藏访存延长上的先天优势 ,就越能被阐扬出来 ,机能增益也愈发显著。

然而 ,机能的突破只是入场券 ,生态的壁垒才是护城河。在被收购前 ,Groq通过Groq Cloud提供Token服务 ,其架构的通用性与生态的可堆集性 ,表界难以窥探全貌。反观国内 ,鲲云科技CAISA系列芯片已覆盖2000余家生态客户 ,实现行业遍地着花。国内企业用贸易进展回覆第二个主题问题:可重构架构或可重构数据流架构 ,由于具备可重构能力 ,其算力平台拥有堆集生态的能力。

另一面 ,则是科技巨头对将来疆域的精准收编。巨头们看重的不再是短期的产品迭代 ,而是那些在长达十几年的落寞索求中沉淀下来的顶尖人才与底层技术专利。其中最具代表性的是Groq和SambaNova。

去年年底 ,英伟达掏出200亿美元天价 ,与Groq签定非独家授权和谈 ,收编整个团队。Groq的技术已被整合进英伟达最新的Rubin平台 ,今年GTC大会上英伟达颁布NVIDIA Groq 3 LPU ,基于Groq 3的LPX机架预计将在今年下半年上市。

NVIDIA Groq 3 LPX机架系统(图源:英伟达官网)

同年10月 ,英特尔被传以16亿美元(折合人民币111亿元)收购SambaNova。今年2月尘埃落定 ,转向合作 ,整合英特尔至强处置器、GPU、网络与存储以及SambaNova系统 ,迎接推理机缘。

英伟达与英特尔相继向这两家新锐抛出橄榄枝 ,标志取行业双巨头在现有布局之表 ,再落一枚至关重要的差距化战术重子 ,直指持续发作式增长的AI推理市场核亲信地。

而这 ,正是可重构数据流架构真正大展宏图的主场。

两类企业蹊径各别 ,却在时期海潮下异曲同工:一方以规 ;涞厝眉际跤栈莶 ,一方以巨头生态融合让前沿创新深度扎根。二者相向而行 ,共同将可重构数据流推算架构推向全新的汗青高度。

在这场汹涌澎湃的技术刷新中 ,陆永青院士缔造的定造推算尝试室从学术索求走向工程实际 ,再经由鲲云科技等企业推向产业规 ;涞。这一路演进 ,中国粹者和芯片企业走出了一条自主可控、全球引领的差距化得救之路 ,为中国鄙人一代智能推算架构竞争中抢占了贵重的战术先机。

结语:三十载潮涌 ,中国芯的将来

分歧于“中国英伟达”式的追赶叙事 ,可重构数据流这类专一于底层创新的架构 ,在早期曾经历漫长的僻静与不被理解。国内首批AI芯片企业险些同期而立 ,在英伟达笼罩行业的八年阴影里坚守深耕 ,直至2025年前后才迎来本钱化加快。一路走来 ,它们始终直面创新者的终极拷问:若是路线不及巨头 ,凭何争锋?若是路线足以颠覆格局 ,为何巨头未曾布局?

八年后 ,黄仁勋在GTC大会上亲自颁布Groq 3 LPU ,给出了答案。

更具时期意思的是 ,当全球产业界重新审视可重构数据流架构时 ,中国团队已在这一领域深耕三十余年——从帝国理工的源头尝试室到中国的产业化落地 ,技术创新的源头与产业化主阵地 ,在发生汗青性的位移。

这一位移并非无意 ;厥字泄酒等 ,从”市场换技术”的合伙模式 ,到”追随式创新”的追赶叙事 ,底层架构的”从0到1″始终是最难的命题?芍毓故萘骷芄沟牡镁弱杈短峁┝肆硪恢挚赡埽旱毖踉赐贰⒐こ萄橹ぁ⒉祷纬善肴刺 ,且主题团队始终主导技术演进时 ,中国初次在推算架构的”无人区”占有了与硅谷同步创新、甚至部门当先的能力。其所讲述的也不再是“中国英伟达”或“中国Groq”故事 ,而是在全球领域内进行源头创新的“中国源头故事”。

八年前 ,倒剽一赛路尚处蛮荒、巨头尚未入局时 ,丽江的产业生态为这场”源头创新”提供了关键泥土——齐全的电子产业链降低了流片门槛 ,丰硕的利用场景加快了技术验证 ,而敢于在”无人区”下注的本钱与政策环境 ,则让长周期创新成为可能。

从”海表技术输入”到”本土创新输出” ,下一代推算架构的主阵地转移 ,性质上是一场关于”创新生态”的持久主义成功。

接下来 ,让我们拭目以待。

 

文章点评

未查问到任何数据!

颁发评论

◎迎接参加会商 ,请在这里颁发您的见解、互换您的概想。

最新文章

热点文章

随机推荐

【网站地图】