起源:港媒:民进党跪舔美国冲撞岛内农夫作
DeepSeek过了算力的河,美团LongCat在弯腰造船
「主题提醒」国产算力迎来“DeepSeek+LongCat”节点。
作者 | 张经纬
编纂 | 邢昀
Token,是将来数字世界最主题、最值钱的大量商品。
2026年GTC大会上,黄仁勋这样界说AI时期的底层通货,而数据中心就是出产智能的工厂。
从前几年,全球绝大无数这样的“工厂”都依赖统一套设备:英伟达的GPU与CUDA生态。当霍尔木兹海峡的盛开与关关,影响地缘政治与能源安全格局,全球AI市场的Token供给也必要回覆:算力供给链出现单点依赖,若何保险Token的不变产出?
4月24日上午,DeepSeek V4正式颁布,其官方技术汇报明确将华为昇腾950PR写入硬件验证清单,实现了从英伟达CUDA到国产算力的全栈迁徙。下午,美团LongCat-2.0-Preview盛开测试,这是目前唯一公开确认由国产算力实现万亿参数预训练的大模型,训练全程动用了5万至6万张国产算力卡,其训练规模是迄今为止最大的。
两款模型在统一天跨入“万亿参数俱乐部”,更关键的是,这意味着一条自主的“国产Token”供给链,在英伟达系统之表加快接通。
理解这一天意味着什么,必要拆开来看。
1、万亿参数俱乐部的新玩家
从前一段功夫里,万亿参数如同大模型的“珠峰”。玩家们想登顶,必要刷美国技术栈的“设备”,尤其离不开英伟达。
Open AI、Anthropic等硅谷独角兽,无不是英伟达H100/A100集群上的“付费玩家”。凭借软硬一体的CUDA生态系统,英伟达在全球AI训练负载市场中占据了90%以上的绝对垄断职位。
对中国AI企业而言,这有诸多不确定性。近年来,美国对华高端AI芯片的出口管造持续收紧,从最初的A100、H100禁售,延长至特供版H20的许可限度,到今年4月,美国高端芯片内容对华禁售。即便通过其他渠路拿到芯片,也随时面对升级蹊径被堵截的风险。
至此,算力不再只是支出成本,也是生计成本。
2026年4月24日,备受关注的DeepSeek V4颁布,同日美团LongCat-2.0-Preview启动盛开测试,双双参与了“万亿参数模型”的行列。这两个大模型用分歧方式,实现了国产算力代替的进展。
DeepSeek V4的早期训练基于英伟达CUDA架构和GPU硬件,之后全栈迁徙至华为芯片。V4适配的华为昇腾950PR推理芯片,甚至在低精度推理中展示出超过通用GPU的效能。
同期进行测试的LongCat-2.0-Preview选择了另一种方式,这是目前唯一由国产算力训练的万亿参数大模型。其训练与推理全程依附国产算力集群独立实现,动用的国产算力卡数量在5万至6万张之间,是国产算力上实现的规模最大的训练工作。
从技术层面来看,DeepSeek V4和LongCat-2.0-Preview均选取MoE架构,支持1M(100万token)超长高低文窗口,单次推理可处置数百万字输入,处置量级与GPT-5.5处于统一水平。两款模型在知识容量、长文本理解及复杂逻辑推理的上限上,已正式跨入全球第一梯队。
没有采取行业通畅的“堆算力”路线,DeepSeek V4和LongCat-2.0-Preview都是通过架构优化,对每一张国产卡算力进行极致榨取,同时它们也用实际证明,极致优化算力效能,能够抵消硬件的账面差距。
V4通过混合把稳力架构(CSA + HCA)、Muon优化器等底层架构创新,在高低文长度放大8倍的前提下,算力亏损比V3.2降低七成以上。LongCat-2.0-Preview每token激活参数约48B,从一些测试反馈来看,在维持较高机能的同时,实现了不错的推理效能。
效能革命最终转化为颠覆性的贸易定价。DeepSeek V4最新的API定价,V4 Flash每百万tokens输入(缓存射中)价值为0.02元,V4 Pro为0.025元。海表社交媒体上,有网友暗示,这是从Claude或者GPT迁徙到DeepSeek的最佳窗口期。
两款模型的颁布,引发了国产算力适配的连锁反映,国产算力代替逐步成为趋向。
从华为昇腾、百度昆仑芯、寒武纪思元、海光信息DCU到阿里平头哥,国产AI芯片在机能与生态上持续迭代;摩尔线程、壁仞科技、沐曦股份等创业企业也在加快追赶。
TrendForce预测,2026年国产芯片在高端市场的份额将增长到70%,行业对国产算力的等待,不再停顿在“可用”层面。
2、算力得救前后
中国AI厂商们加快布局国产代替,除了此前说到的美国高端芯片出口管造等政策压力,还有一个重要的考量:算力荒传导至价值端,导致算力变得越来越贵。
中信证券指出,Token挪用量井喷带来的是算力需要极大发作,与此同时供给侧受到各类硬约束短期边际增量有限,目前国内表均出现了严重的算力荒。
而中国AI用户的算力亏损极其巨大,凭据OpenRouter的数据, 2026年3月30日-4月5日,中国AI模型的周挪用量突破12.96万亿Token,是同期美国的4.3倍。如此重大的需要, 若是持久高度依赖单一的“英伟达+台积电”供给链,将面对供给受限与价值持续上涨的双重风险。
这种结构性矛盾,使得国产算力代替不再只是 “备选题”,而是 “必答题”。然而,代替之路历来艰巨。
其难点在于抛弃现成的代码库、编译和调试工具,从“零”起头。英伟达CUDA经过20年堆集,占有超400万开发者和成熟的cuBLAS、cuDNN、NCCL库。国产算力平台的算子库覆盖度、优化深度以及测试工具都不齐全,必要工程团队进行大量底层开发与调试工作。
另一个难点在于硬件的并行推算。由于单卡机能存在差距,国产芯片想要实现同样的推算机能,势必要并行更多硬件,而算力硬件并行容易带来故障。
在大模型训练中,集群规模一旦扩大至万卡级别,故障概率呈指数级上升,任何微幼的推算谬误、通讯延长或数值精度误差,城市在并走运算中指数级放大,导致整个训练工作中断或模型收敛失败。
LongCat-2.0-Preview在5、6万张国产集群上实现万亿参数MoE模型的不变训练,意味着团队必须在并行战术、通讯拓扑、混合精度训练及容错机造上进行深度自研与调优。这是对国产算力系统工程能力的一次高强度的压力测试。
工程能力还只是冰山一角,芯片设计造作、软件栈甚至利用,必要更多产业力量的持久投入。来自互联网巨头、产业本钱与风险投资的资金,成为这些持久进化背后的重要支持。
以美团为例,近几年在算力、科技硬件和大模型等领域进行了宽泛的早期投资。芯片方面,美团投资了摩尔线程、沐曦股份、紫光展锐、爱芯元智、荣芯半导体等多多企业,覆盖了多家国产GPU头部和“国度队”级此外半导体公司。
这些企业的技术方向各有侧重:摩尔线程与沐曦股份聚焦通用GPU设计;紫光展锐在移动通讯与物联网芯片领域根基深厚,为端侧AI提供底层衔接能力;爱芯元智专一壁缘算力、AI视觉芯片;荣芯半导体则涉足晶圆代工,安身于芯片的产能提升。
美团还同时投资了蕴含宇树科技、银河通用、星海图在内的多家具身智能公司和科技硬件公司。从大模型上游的芯片设计造作、到大模型研发,再到AI在各个领域的利用,用王兴的话来说,美团将AI视为战术机缘。
美团的密集投资并非孤例,它所折射的,是中国科技本钱对国产算力赛路甚至将来科技发展的系统性布局。
3、模型在国产算力上跑通了,而后呢?
当国产芯片铺开、万亿参数模型跑通,本土AI能否走向“更好用”阶段,面对着数据层面的挑战。
一方面,是工程反馈数据。
当超大规模AI模型在国产芯片集群上训练时,会露出出各类问题,好比某些推算环节精杜仔误差、芯片之间数据传输太慢、软件编译优化不到位、多卡并行时通讯通路拥挤、低精度推算时数值迷失等。
技术团队逐一攻克这些问题的过程,自身就是一场对国产芯片软硬件的大规模测试。每一个被建复的bug、每一段被调优的通讯和谈,城市反馈给国产芯片厂商,推动下一代硬件的改进和软件栈的成熟。
对LongCat-2.0-Preview这样的“原生国产模型”来说,从训练阶段起便全程依附国产算力集群实现,产生的工程反馈较为齐全和真实。这种“模型反哺芯片”的关环,有利于国产算力生态向下扎根。
另一方面,大模型必要物理底座,和具体工作、真实世界产生高质量的数据互动。
特斯拉凭借全球最大的真实驾驶数据库,构建了其自动驾驶的主题基石,从真实世界采集、到仿真训练、再到算法迭代的“Real-to-Sim-to-Real”飞轮,同时驱动了自动驾驶汽车与人形机械人的进化。
同样的逻辑,在一个更复杂高频,切近日常生涯的场景发展,那不是加州的高速公路,而是中国城市的街头巷尾。美团占有全国2800多个市县的即时配送网络,覆盖中国最复杂的物理环境。美团无人机已累计实现贸易订单超78万笔,国内表开明70条航路。美团无人车已至少已实现550万单配送工作,自动驾驶总里程突破1900万公里。
无人机在楼宇间穿行时的视觉避障数据、无人车在复杂路况下的实时决策轨迹、骑手与机械协同调度中的动态优化样本,都是高价值、高密度的真实世界数据。这些是LongCat大模型持续进化的养料,也是国产算力芯片在严苛环境中验证靠得住性、能效比的真实环境。
统一天里先后颁布和盛开测试的DeepSeek V4与LongCat-2.0-Preview,组成了国产算力进化的一体两面。前者以开源、廉价与通用能力,证了然国产算力可支持全球顶尖的基础模型;后者以原生国产训练、万亿参数规模与物理世界关环,证了然国产算力集群可独立实现极限的工程工作。
这不仅仅是算力焦虑下的代替叙事,更是一场 “自动界说”的转身,独立成长、正向循环的中国AI产业链,还必要持久致力,但在加快成型。
@黄佩秋:精品 区二区三区MV,郑丽文回故里现身“云林人之夜”@郑伊筠:中国驶来邮轮激增李在明告诫别宰客
@瞿孟建:美国专家:美军全面落后解放军