k8凯发天生赢家

新闻中心 新闻中心

DeepSeek V4省73%算力 中国AI走出第二条路

2026年4月,DeepSeek颁

作者:蔡建梅
颁布功夫:2026-06-01 21:27:02
阅读量:5929

DeepSeek V4省73%算力 中国AI走出第二条路

2026年4月,DeepSeek颁布了V4版本 。

总参数1.6T,激活参数49B,初次将百万token高低文做到了"标配" 。Agent Coding交付质量按内部评测,已经靠近Anthropic Claude Opus 4.6的非思虑模式 。技术圈刷屏,伴侣圈刷屏 。

公共媒体的解读集中在三件事上:

一是机能再上一档,对标海表头部模型 。二是开源持续,国产代替再下一城 。三是API限时优惠5月5日截止,缓存射中价值低到一杯咖啡都买不起 。

但这次V4颁布,最值妥贴心的,或许不是上面这些 。

而是DeepSeek官方布告里的一行幼字——"每token算力亏损仅为V3.2的27%" 。

27% ;桓鏊捣,新模型只用旧模型27%的算力,就能跑同样规模的token 。

"这有什么?不就是模型架构升级,效能提升一些吗?从前几代模型都在做这件事 。"

其实,不是的 。

上一代V3.2是2025年9月颁布的,到V4只过了半年 。在仅仅半年里,把每token的算力亏损砍掉73%,幅度远高于行业均匀 。更关键的是,DeepSeek这次没有蹬注伟达B200、H200在国内放量,没有等更高级的进口算力到位,而是选择了一条险些反方向的路:在现有的算力规模上,让模型自己学会"省" 。

这中央,发生了什么?

老端正,我争取用一篇文章,助你读领略 。

01 一个token的算力,到底是怎么花掉的?

要看懂"省了73%"是什么概想,得先看懂一个token的算力是怎么花掉的 。

单一说,大模型推理的成本重要由两部门组成:

第一,参数推算 。模型有几多参数,每天生一个token就要"过"几多次参数 。GPT-4据传是1.8T参数,Claude 4级别相近 。DeepSeek V4总参数1.6T,但用了MoE(混合专家)架构,每次只激活其中49B——也就是说,1.6T参数里有1500B左右"待机",每个token只过49B 。

第二,KV缓存 。模型天生每个token都要"记住"前文,前文越长,必要缓存的数据越多 。这部门缓存通常占用GPU显存最多,也是百万token长高低文的瓶颈地点 。

换一个生涯场景 。

设想你给伴侣讲一个长故事 。讲到第3万字时,你必要回顾前面提过的人名、地址、功夫、伏笔——这些就是"KV缓存" 。若是你能整顿出一个简洁的"故事梗概+人物关系图",把30000字压缩成5000字提要,你的"工作内存"就轻了 。

再换一个工作场景 。

你做一份PPT,每翻一页都要回看前面的逻辑链 。若是你只翻"标题页+关键图表页"就能记住整体节拍,你的效能会高得多 。

DeepSeek V4做的,就是这件事 。1.6T参数+百万高低文,KV缓存占用降到了10%——把"故事梗概+关键页"做到了极致 。

02 DeepSeek为什么必须省,而不是必须快?

全球AI尝试室都在做模型架构优化 。但蹊径有两条 。

第一条是"做更聪明的模型" 。OpenAI、Anthropic走的是这条——参数更大、推理链更长、Agent能力更强 。前提是算力管够,至少能用上H200/B200级此外最新GPU 。

第二条是"在现有算力上做更高效的模型" 。DeepSeek走的是这条——把每token的成本压到极低,让模型在已有的硬件上跑出最大产出 。

这不是一路"哪条路更聪明"的题,而是"哪条路更现实"的题 。

从前两年,英伟达对中国市场的特供版从H800、H20一路降配,到2026岁首才有限度地复原部门供给 。中国AI厂商面对的问题,不是"用最先进的算力做最强的模型",而是"用受限的算力做最有效的模型" 。

回到DeepSeek 。它的训练和推理,绝大无数跑在国产算力(华为昇腾系列)+少量H800/H20混合集群上 。在这种前提下,"每token亏损削减73%"翻译过来就是:同样的国产卡集群,能够跑3倍以上的要求量 。

——这是用算法的进取,去补硬件的代差 。

03 昇腾950PR,能不能接得 ?

5月初,华为给了第二个作为 。

华为昇腾950PR,基于中芯国际7nm工艺,单卡推理算力较英伟达对华特供版H20提升约2.87倍 。采购价为H200的1/3至1/4 。阿里、字节、腾讯已下数十万颗订单 。中国移动2026-2027年AI超节点采购20.6亿元,全线华为CANN生态 。

华为徐直军2025年9月规划的产品序列顺次是:950PR、950DT、960、970 。950PR掌管推理Prefill阶段,950DT针对训练优化 。

这两件事——DeepSeek把每token算力压到27%、华为把单卡算力翻到H20的2.87倍——放在一路,是一路很单一的乘法 。

若是说V3.2时期每张H20卡只能服务X个并发要求,到V4时期+昇腾950PR时期,同样的卡数能服务的并发要求数造成了:X × (1/27%) × 2.87 ≈ 10.6X 。

◆ DeepSeek V4:总参数1.6T,激活49B,每token算力亏损为V3.2的27%(起源:DeepSeek官方,2026年4月)

◆ DeepSeek V4:KV缓存占用降至10%,百万token高低文标配(起源:DeepSeek技术文档)

◆ 华为昇腾950PR:单卡推理算力较H20提升约2.87倍,采购价为H200的1/3至1/4(起源:华为公开资料)

◆ Atlas 950 SuperPoD:8192张950昇腾加快卡,160机柜规模,2026年Q4上市(起源:华为)

◆ 中国移动AI超节点采购:20.6亿元,全线华为CANN生态(起源:中国移动招标布告)

◆ OpenRouter数据:2026年3月30日-4月5日,中国AI模型周挪用量12.96万亿token,是美国的4.3倍

一张卡的能力涨2.87倍,每token的成本降至27% 。叠加之后,正本"3张H200能力服务的要求",此刻"1张昇腾950PR + DeepSeek V4"就能服务 。

代差被偷偷补回了一截 。

04 可带走资产:硬件代差 × 软件优化 = 有效算力

有效算力 = 单卡硬件能力 × 算法效能

这个乘数公式是看懂中国AI产业从前三年和将来三年的钥匙 。当硬件被卡脖子(左侧因子降落),算法的提升(右侧因子放大)能够部门补回;当算法到了极限(右侧因子收敛),硬件的开释(左侧因子放大)就成了下一阶段的关键 。一头被压住,能够靠另一头补;两端同时打开,就是产业拐点 。

这个乘数模型,能够诠释从前三年中国AI产业的险些所有大事务 。

一是2024岁首DeepSeek V2颁布 。其时英伟达对华造裁刚刚收紧,左侧因子(单卡能力)被压低 。DeepSeek用MoE+架构创新拉高右侧因子(算法效能),有效算力得到部门赔偿 。

二是2024年底DeepSeek V3颁布震荡硅谷 。统一规模的训练成本只有同业约1/10,性质上是右侧因子(算法效能)的另一次跳跃 。

三是2026年4月V4颁布+昇腾950PR路线图明确 。双方因子同时打开——算法效能再降73%(V4),单卡能力涨到H20的2.87倍(950PR)——一路乘法把"有效算力"拉到一个新台阶 。

05 这个公式,怎么用在你不太熟的处所?

这个乘数公式不只是讲AI的 。

换一个最通常的家用场景 。

你在租房,月租3000元(硬件预算被卡) 。但你愿意花两个周末把家里收纳系统重做一遍——把杂物分门别类、把垂直空间用满、把不常用的器材归到储物间——了局是同样3000元的屋子,住起来履历有6000元的水平 。这就是"每平米实用面积"的算法优化 。

再换一个工作场景 。

你的团队预算有限,无法增长2个工程师(硬件被卡) 。但你引入了AI辅助代码评审、把反复劳动自动化、让每个工程师从一周写3个feature造成一周写7个feature——同样5幼我的团队,产出是10幼我的 。这就是"每个工位的有效产出"的算法优化 。

回到DeepSeek 。

华为昇腾950PR单卡能力是H20的2.87倍,但依然不及H200 。中国AI尝试室没法等"和H200一样的卡"放进国产服务器,那是2027-2028年的事 。怎么办?把V3.2的算力亏损砍到27%,让同样的卡多干3倍的活 。

这是一路齐全一样的题 。

——硬件被卡,算法补回;算法收敛,硬件铺开 。

06 为什么这是"通关券",不只是"省钱"?

若是只是"省钱",DeepSeek V4也就是一次寻常的产品迭代 。

但"省73%"在2026年这个功夫点,意思远不止省钱 。

OpenRouter公开数据显示,2026年3月30日至4月5日的一周,中国AI模型的总挪用量达到12.96万亿token,是美国同期的4.3倍 。

这个数字第一次出现时,硅谷很多人不相信 。

但只有把"有效算力 = 单卡硬件能力 × 算法效能"这个公式套进去,就能诠释——美国靠左侧因子(最强GPU)跑出大基数,中国靠右侧因子(最优化的算法+开源生态)拉出大乘数 。两条蹊径聚合,就形成了"挪用量上中国是美国4.3倍"的奇观 。

对开发者而言,DeepSeek API限时优惠的价值已经让"做利用"的门槛降到极低——Pro 2.5折,Flash缓存射中0.02元/百万tokens 。这意味着任何一个独立开发者,能够在一个咖啡的钱里,跑出一个齐全的利用Demo 。

对企业而言,"昇腾950PR + V4"组合让"私有化部署一个大模型"从"采购3000万一套"降到"采购1000万一套" 。中型企业第一次有能力把大模型部署在自己的机房里 。

07 你以为的"国产代替",可能是个误会

讲到这里,必要纠正一个常见的理解 。

很多读者把"DeepSeek+昇腾"理解为"国产代替英伟达+OpenAI" 。但这个表白,可能稀释了真正发生的事件 。

真正的事件是:中国AI找到了一条不用随着英伟达走的路 。

从前十年,全球AI产业的算力霸权由英伟达界说 。"想做更大的模型,就要更多的H100/H200"是默认前提 。所有国度、所有公司都在这条路上跑 。

"算法补硬件"不是代替,而是绕开 。

用更高效的算法+开源生态+受限但够用的硬件,跑出和"无限堆卡"路线相近的产业产出 。这条路的价值不在于"我们也有H200",而在于"我们不必要等H200能力往前走" 。

它的价值是中国AI尝试室必须比美国同业做得更聪明、更精密 。它的盈利是中国能够在被卡脖子的环境里,依然做出全球级此外产品 。

引DeepSeek官方在V4颁布注明里引用的那句《荀子·非十二子》——"不诱于誉,不恐于诽,率路而行,端然正己" 。

08 产业链的真实地位:昇腾、CANN、A股

这条蹊径上的产业链,在被重新定价 。

4月27日A股半导体板块发作:覆铜板指数+5.82%、半导体设备+5.68%、GPU+3.91% 。芯源微+17.81%、富创精密+16.03%、长川科技+10.77% 。这一轮上涨的逻辑,正是市场对"国产算力放量+下游模型放量"双向定价的反映 。

华为Atlas 950 SuperPoD(8192张950昇腾加快卡)将于2026年Q4上市 。和英伟达NVL144对照——卡规模56.8倍、总算力6.7倍、内存容量15倍——这是"超节点"级此外算力堆叠 。

中国信通院已启动DeepSeek-V4国产化适配测试 。这个测试的了局,会直接影响到"昇腾+DeepSeek"组合在2026年下半年的政企招标中的渗入率 。

Bernstein预测,2026年华为昇腾为首的国产AI芯片市占率有望初次超过50% 。这是一个"硬件代差被算法部门补回"之后的了局 。

09 最后的话

我做完这次钻研,有这么几条收成,供你参考 。

一,硬件代差不是世界末日 。任何一项硬件被卡的产业,都能够用"算法/工艺/流程"上的进取去部门赔偿 。赔偿的价值是必须做得更聪明,盈利是不依赖表部供给 。

二,AI产业的护城河不是"最强模型",是"硬件×算法的乘数" 。当你看一家AI公司是否有持久价值,不要只看它的模型在某个榜单上是第几名,要看它在"既定硬件前提"下的有效算力是几多 。

三,开源生态在算力受限的环境里,比关源生态更有价值 。DeepSeek之所以能成为这一轮中国AI的代表,不仅是由于它的模型好,更由于它把模型开源出来,让整个生态的"右侧因子"被反复推高 。

当然,现实没有这么单一 。"每token降到27%"是模型在内部测试的数据,现实部署中受工作类型、缓存射中率、并发量影响,差距会很大 。"昇腾950PR的2.87倍"是单卡推理算力,训练侧的差距仍在 。中国AI追赶英伟达和OpenAI的路,不会是一条直线 。

V4比V3.2节俭73%算力——这看起来是技术细节,现实上是中国AI拿到的最重要的一张通关券 。

但有一件事是明显的:当一个产业被奉告"用最差的硬件做最好的产品"时,能做到的国度不多 。中国是其中一个 。

DeepSeek官方布告里的那行幼字,藏着的就是这件事 。

免责申明

本文仅为信息分享与行业分析,不组成任何投资建议、投资分析定见或买卖邀约 。市场有风险,投资需审慎 。任何人凭据本文内容作出的投资决策,风险与盈亏自行承担,作者及颁布平台不承担任何司法责任 。

重要信源

1. DeepSeek官方布告,《DeepSeek V4模型颁布注明》,2026年4月

2. DeepSeek API限时优惠布告,2026年4月-5月,截至2026年5月5日

3. 华为公司公开资料,《昇腾AI芯片产品路线图》,徐直军,2025年9月

4. 华为Atlas 950 SuperPoD技术规格,2026年公开颁布

5. 中国移动招标布告,2026-2027年AI超节点采购,20.6亿元

6. OpenRouter公开数据,2026年3月30日-4月5日全球AI模型挪用量统计

7. A股半导体板块行情数据,2026年4月27日盘面,公开市场数据

8. Bernstein钻研汇报,2026年中国AI芯片市占率预测,2026岁首颁布

9. 中国信通院公开信息,DeepSeek-V4国产化适配测试启动新闻

 

文章点评

未查问到任何数据!

颁发评论

◎迎接参加会商,请在这里颁发您的见解、互换您的概想 。

最新文章

热点文章

随机推荐

【网站地图】