k8凯发天生赢家

Token经济学：AI时期的新钱币战争

在硅谷，有了一种新的炫富方式—

作者：王建福

颁布功夫：2026-06-01 23:47:57

阅读量：5271

Token经济学：AI时期的新钱币战争

在硅谷，有了一种新的炫富方式——每天烧了几多token。

对于这个炫富方式，此刻有一个新词叫：Token-maxxing，意思是“把token用量拉到极限”。它造成了公司内表人们攀比的新方式：你每天亏损几多token、你能同时调度几多个agent运杏注你的token throughput（吞吐量）有多高，这些都在造成衡量一幼我“有多AI原生”的新指标。

不外，对于这种新较量，全球AI圈的巨头们在进行着一场强烈的争吵：公司是否应该不设限度地激励员工们去使用token？

而在这场争吵的背后，是一场萦绕token发展的新军备较量。硅谷大厂们为什么在疯狂卷token用量，这背后到底有没有路理？大模型公司是怎么给token定价的？中国模型若何凭借“物美价廉”杀入全球开发者市场，在OpenRouter上霸榜？“Token套利”的新模式，怎么来赚差价？以及在所有这些背后，一个更大的问题：中国的token出海，会不会成为下一个结构性的产业机遇？若是上一个时期中国出口的是衬衫，这个时期是电动车，下一个时期会是token吗？

（本文为视频改写，迎接各人收看以下视频）

Token-maxxing之辩

用得越多就越好吗？

4月初，Meta被爆内部有一个名为“Claudeonomics”排行榜，这个排行榜汇集了超过85000名Meta员工的AI使用数据，列出了token亏损量最高的前250名“超等用户”。

在最近一个月，排行榜上的总使用量突破了60万亿token，若是依照Anthropic Opus 4.6的定价，约莫每百万token均匀15美元来粗略换算的话，这些token的价值高达约9亿美元。排名第一的那位员工，烧掉的token价值高达数百万美元。

这个新闻曝光之后，立马在硅谷引发了一场大争吵。

AI创业公司Writer的CEO May Habib，直接说这是“生死生死级此外问题”。她自己公司内部也有一个token亏损排行榜，并且她明确通知员工，她自己在盯这个数据。她以为若是不全力拥抱AI，就会被裁减。

Uber也很激进。目前Uber后端系统中，11%的新代码更新已经由agent实现，而三个月前这个比例还不到1%。Uber CTO的原话很直白：“我的愿景是把软件工程转型为agent软件工程。”

但否决Token-maxxing的声音同样敏感。

HubSpot的CEO Yamini Rangan，在LinkedIn上发了一句被宽泛转发的话：“Outcome maxxing>>token maxxing”。意思是，比起疯狂亏损token，不如看看你产出了什么了局。她代表了另一种重要概想：纯正的token使用量，是一个谬误的指标。

AI软件工程公司Jellyfish的CEO Andrew Lau，说得更直白：“你能够一天到晚刷token，但得到的了局可能齐全不是你想要的。”

这两派的吵得不成开交。但更多的中央派似乎还是形成了共识：不充分利用AI的公司，会被竞争敌手超过并变得过期。在这种信想下，哪怕排行榜和激励造度不美满，哪怕一些AI使用最终被证明是浪费的，大厂首创人和高层们也被卷起来了，以为必必要这样做能力让公司转型成为更AI-native（AI原生）的公司。

自OpenClaw爆火以来，agent工作烧掉的token量直线上升？萍季尥访悄芄徊还顺杀镜纳誸oken，但对于创业公司和幼我开发者来说，token的成本带来的是焦虑。

Nathan Wang 资深AI Agent开发者好比像OpenClaw，你可能跑一个工作，稍微复杂一点，几千万的token量都是极度有可能的。

钱宇靖 GMI Cloud工程主管若是你去跑一个最贵的Claude的模型，你可能让它做一个很幼的事件就要花十几二十刀，这是真的有点贵。

Uber的CTO在接受采访时泄漏，公司2026年的AI预算在开年几个月内就已经全数用完了，重要是由于工程师们对Claude Code的使用量暴增。他的原话是：“我得重新回去做预算了，由于我以为够用一年的钱，已经没了。”

硅谷驰名投资人Chamath Palihapitiya最近也公开抱怨，他投资的一家软件公司自从团队起头用AI编程工具后，运营成本在几个月内翻了三倍多，照这个趋向年化AI支出将达到千万美元级别。他半恶作剧地说了一句在社交媒体上广为流传的话：感激VC们掏钱为这场AI盛宴买单。

能够看到，对于企衣反说，出格是软件SaaS行业，AI时期的成本结构跟随前齐全不一样了。以前做一个SaaS产品，研发投入是一次性的，用户越多边际成本越低，这是一门越卖越赚的生意。但此刻，每个用户的每一次操作背后都有一笔token账单在跑，用户用得越深、职能越智能，作为产品方，反而要付更多钱给模型厂商。这个成本不会像传统软件那样摊薄到靠近零，它是随着用量线性增长的。

这也是为什么token在造成AI创业公司最主题的“弹药”，也有风投基金起头尝试直接给被投企业提供token额度，作为投资的一部门。这个逻辑很单一：对好多AI创业项目来说，拿到钱之后第一件事就是去买token，那为什么不直接给token呢？

顺着这个逻辑来讲，是不是token在造成一种新的钱币？那token又到底是若何定价的呢？

拆解Token账单

大模型公司到底怎么算钱？

Token的定价是怎么算的？这个问题的答案，远不是“一个单价乘以数量」剽么单一。我们以一次最单一的对话交互为例，你的账单上至少有三种分歧价值的token在运行：

第一是Input token（输入token），也就是你发给模型的内容。

第二是Cached input token（被缓存的输入 token），意思是若是某些prompt、高低文或文件内容之前已经被模型系统缓存过，再次挪用时，这部门token的价值会更便宜。

第三是Output token（输出token），也就是模型天生回覆时产生的token。

钻研芯片与token efficiency（词元效能）方向的肖志斌在接受硅谷101采访时就说，均匀来说，在对话工作上，这三者的价值或许是：1:0.1:6的水平。

肖志斌 ZFLOW AI首创人&CEO、华丽半导体协会前主席与董事会照拂若是是对话类利用，挪用就比力单一。你喂给它的input context（输入高低文）、你提供的高低文和文件，这一部门都作为input。若是你提供的prompt已经在缓存里被缓存过，那这个成本根基上就是input token成本的1/10。而后最后输出的成本，就是output token的成本，根基上是input token成本的6倍，这是OpenAI目前的情况。

分歧公司凭据模型的能力给出的定价是分歧的。举个例子，GPT-5的API价值上，Input是每百万token 1.25美元，Cached input是每百万token 0.125美元，Output token是每百万token 10美元。

而OpenAI颁布的最新模型GPT-5.5，分了长短高低文两档，长高低文的价值是2倍。短高低文Input是每百万token 5美元，Cached input是每百万token 0.5美元，Output token是每百万token 30美元。

若是直接对比价值的话，是不是感触涨价了好几倍，其实不能这么算。

这里面有一个出格反直觉的悖论：越贵的模型，可能反而总成本更低。由于强模型一次就做对了，弱模型可能要反复重试，中央若是犯错就还必要人为染指，这也是综合成本。也就是说，固然token价值在涨，但“每个有效结论的成本”反而鄙人降。

所以，最贵的GPT-5.5-pro和GPT-5.4-pro，短高低文Input是每百万token 30美元，Output token是每百万token 180美元，长高低文还要再贵一倍。但若是能力足够强，实现工作足够正确，在一些复杂工作和场景上，反而是能把开发者的成本价值给打下来的。

出格是在agent场景，由于agent不是一问一答，它会来回挪用模型，每一步可能挪用分歧的工具，工具又会产生新的日志和高低文，返回给agent持续循环挪用。

肖志斌 ZFLOW AI首创人&CEO、华丽半导体协会前主席与董事会照拂 agent loop（循环）会重新、持续挪用，所以对于agent来说，整体是比力复杂的，除了单次模型挪用的input和output token亏损，还有持续产生的日志，以及挪用工具成本，现实上相当复杂。最终实现工作用的token数，取决于工作挪用了几多次agent loop（循环）。若是是质量高的模型，可能一次就天生了你想要的答案，挪用的工具也相宜，返回的output也是你想要的。但若是用了便宜模型，可能必要花更多功夫做iteration（迭代），来来回回挪用，甚至中央犯错。所以此刻有个悖论：越贵的模型，实现工作的成本反而可能越低。

所以，分歧的模型公司若何定价，一方面是由模型的推理成本以及大模型研发用度来决定的，但更关键的是按模型质量和工作实现度。

肖志斌 ZFLOW AI首创人&CEO、华丽半导体协会前主席与董事会照拂首先是推理成本，这是最根基的成本，就是单次推理的成本，好比你挪用一次模型。第二是要在模型里摊平大模型的研发用度，这也是一部门。但最重要的，其实是依照模型质量去定价，分歧的模型类型，有没有推理能力？高低文窗口的大？实现工作的次数，能不能急剧找到正确的output？好多公司是按推理成本定价的，但这样其实不成取，应该按模型质量或对工作的实现度去定价，这里面的价值空间是比力大的。

这里还有一派玩家，就是像微软Azure、亚马逊AWS或者国内的阿里和火山引擎这样的云厂商。有的企业是通过这些云厂商去挪用模型，他们收到的token账单就是从云厂商这边给出的。

云厂商对token的收费与大模型公司的API官方收费不会相差太多，但有时辰云厂商会由于提供了更多的服务和能力，好比说区域部署、特定数据驻留、企业合规、优先推理、托管能力，以及私有化或专用吞吐的这些服务，使得价值更贵。

这时辰，token账单就是：模型token费+云服务封装+企业级基础设施溢价。

钱宇靖 GMI Cloud工程主管大部门云服务商的计价方式，是凭据当下模型在这台机械上能跑出几多token每秒，再凭据这个机能反向推算GPU正本的成本是几多，再加上一个premium（溢价），就造成最终的价值。

但有的时辰，云厂商也会由于企业折扣，或者必要激进抢占市场，来让价值更便宜，这种情况也是有的。

而就在后OpenClaw时期，当硅谷起头卷我们开头说到的Token-maxxing这件事件的时辰，各人发现，这个账单还是很可怕的。因而出现了一个景象：来自中国的开源模型，由于性价比，起头在国际开发者社区中，大受迎接。

Nathan Wang 资深AI Agent开发者 Kimi的价值，我记得爆出来的input或许是不到55美分，output或许是2.6美元。

知县北京大学推算机系本硕，AI爱好者和社区项目OwliaBot builder 好比MiniMax，我记得是受到了OpenClaw官方推荐的。在做设置、选模型的时辰，OpenClaw软件里，MiniMax后面会有一个推荐的标识，这也相当于给中国模型做了不少宣传。宣传之后，各人可能就试了一下，发现的确还能够，固然顶级能力差一些，但好多工作也不长短要那么高的推理能力。好多时辰，执行反而必要你不要想太多，instruction following（指令遵循）比力好，做得快，最重要的还是便宜。

在一些工作上，中美模型的价差能够高达50-70倍。这就诠氏缢为什么，当OpenClaw这类agent工具，让token亏损从万级跳到百万级的时辰，全球开发者险些本能地转向了中国的便宜模型。

登顶token挪用排行榜

中国模型若何做到超高性价比

OpenClaw爆火之后，由于agent工作对开源模型挪用的需要飙升，已经上市的中国模型厂商，好比说Zhipu AI和MiniMax在股价上迎来了疯狂的涨幅。

与此同时，2026年3月掀起了一波集体涨价潮。从阿里云到百度智能云，从智谱到腾讯云混元系列模型，险些所有重要厂商，都在统一个月内颁发上调AI有关产品价值，涨幅从5%到400%不等。

钱宇靖 GMI Cloud工程主管此刻各人看到开源模型的token亏损量上升，是由于开源模型的能力已经越过了某个门槛，好比智谱或者Kimi，在编程上最近都有比力大的提升。编程这个赛路正本就是大模型token亏损最大的赛路之一，当法式员发现开源模型可能跟几个月前的Anthropic模型一样好用，但价值又极其便宜的时辰，天然就会换到开源模型，这也是为什么开源模型的价值上升了。

对于幼我开发者和创业公司来说，处置不那么复杂工作的时辰，转向开源模型是未可厚非的。

拿MiniMax M2.5和Claude Opus 4.6做个直接对比：在SWE-Bench Verified软件工程基准测试中，两者得分别离是80.2%和80.8%，说真话，这点差距在现实使用中险些感触不到。但打开价值表就齐全分歧了：MiniMax M2.5的输入价值是每百万token 0.3美元，Claude Opus 4.6是5美元。同样的活，前者的价值只有后者的十七分之一。对于一个每天要跑几千万token的OpenClaw用户来说，这不是省一杯咖啡钱的问题，而是账单从几百美元直接降到几十美元的区别。

那中国模型为什么能做到这么便宜？

肖志斌 ZFLOW AI首创人&CEO、华丽半导体协会前主席与董事会照拂第一是技术层面上它用了MoE（混合专家模型），极度深度的MoE，专家的size变得越来越幼，每一次运行的专家数量也不大，通过这种步骤在技术上能够节俭。第二是生态的问题，各人通过补助去抢占生态。第三是有些公司像阿里，它是云厂商，自己的成本定价能够比名义计价更低，它有更高的margin（利润率）去把模型价值打得更低。

分歧的模型其实给了开发者们分歧的选择，好比说复杂的工作就交给更高机能的模型，单逐一些或者反复性高的工作就给便宜一点的模型，这样的混合使用，成为了agent时期的新token模式。

黄仁勋在GTC 2026上给出了一个更宏观的token定价框架。

他把token分成了五个价值区间：免费层（高吞吐、低交互速度，靠告白变现）、中级层（每百万token 3美元）、高级层（每百万token 6美元）、高速层（每百万token 45美元）到超高速层（每百万token 150美元）；迫恃囊馑己苊魅，token不再是一种同质的商品，它的价值应该由交互速度和使用场景决定，就像电力有峰谷电价一样。

当然，这些暴增的需要背后，也有一个不容忽视的问题：到底是不是真的必要亏损这么多token？一些业内人士就品评说，当前全球企业级AI利用中，可能有近一半的token没有产生现实价值。

路理很单一，agent不像人类那样知路“够了就停”，它在执行一个工作的过程中，会反复读取整个对话汗青、重新扫描已经处置过的文件、把早就过期的高低文一遍又一遍地喂进模型。每多跑一轮，这些冗余信息就像滚雪球一样越滚越大，但真正跟当前工作有关的，可能只占其中一幼部门。

怎么让Agent少烧冤枉钱，在成为一个新的技术和贸易赛路。而Token Efficiency（Token效能）成为了下个阶段的关键词。其中值得提的一个例子，就是OpenRouter这家公司。

从NFT到AI的“货架之王”

OpenRouter这个平台已经成了观察全球模型使用趋向的一面镜子。你看到的好多关于中国模型挪用和排名的数据图都出自于这个平台。

OpenRouter背后的人很有意思，首创人Alex Atallah的上一个身份，是全球最大NFT买卖所OpenSea的结合首创人兼CTO。

2023年，他起头做OpenRouter，这门生意的逻辑其实很单一：市面上模型越来越多，开发者不想每家单独注册、单独充值、单独对接API体式，OpenRouter就做了一个统一入口，所有模型一个接口搞定，平台从中抽取约5%的用度。据Information报路，a16z在2025年对OpenRouter领投了4000万美元，其时估值约5亿美元，而最新一轮融资已将估值推至靠近13亿美元。

让这门生意真正腾飞的，是OpenClaw的发作。当全球开发者疯狂挪用各类模型来驱动Agent工作流时，他们必要一个能急剧切换模型的中央层，而OpenRouter刚好就在那里等着，这个机遇险些不要抓得太好。

Atallah曾将OpenRouter与他上一次创业做过类比，两次做的都是把分散的供给，整合到一个平台上。他赌的是：供给越分散，中央商越值钱。

肖志斌 ZFLOW AI首创人&CEO、华丽半导体协会前主席与董事会照拂它加了一层API挪用层，跟OpenAI的API挪用是兼容的。若是你必要做一个工作，能够自动做分歧模型的切换，统一API、统肯定价。这样对大部门用户来说，出格是从0到1的AI草创公司，急剧上线、急剧试错、急剧找到匹配的模型，是最重要的。另表它还有fallback（后备）机造，一个模型出了问题，或者latency（延长）忽然很高，或者下线了，能够急剧切换到另一个模型。

当然，OpenRouter也有它的数据局限性。

肖志斌 ZFLOW AI首创人&CEO、华丽半导体协会前主席与董事会照拂好多token的使用量是统计不到的。从0到1的草创公司可能会用OpenRouter，但从1到10，就会混用OpenRouter和直接API挪用。大厂或者业务极度明确的公司，会直接挪用Anthropic、OpenAI或者Google的API。所以OpenRouter对token使用量有肯定的指向性，也能做一些prediction（预测），但并不蕴含所有的token挪用量。

换句话说，OpenRouter的数据，更像是创业公司和独立开发者群体的风向标，而不是整个AI行业的全景图。但正是这个群体，对价值最敏赣注对新模型最愿意尝鲜、迁徙成本最低，组成了中国模型出海的第一波“自来水”用户。

谁在给Token“装电表”？

若是token是AI时期的“电”，那总得有人给这些电装电表。这件事听上去不够性感，但看一眼客户名单就知路它有多重要：OpenAI、NVIDIA、Anthropic、Databricks，全在用统一家公司的计费系统，这家公司就是Metronome。

Metronome首创团队的布景很注明问题，两位首创人都出自Dropbox，在那里亲自经历过一个让所有SaaS工程师头疼的事件：改定价。表表上只拭浇槁费调几块钱，背后却要动一大堆写死在代码里的计费逻辑。

到了AI时期，这个痛点被放大了几个数量级，收费单元不再是“一幼我头一个月几多钱”，而是造成了token数、API挪用次数、GPU时长这些颗粒度极细的指标，并且每个客户的合同条款、折扣结构、用量阶梯可能都不一样。

知县北京大学推算机系本硕，AI爱好者和社区项目OwliaBot builder SaaS的成本相对不变，就是服务器成本，甚至都是跟云厂商预先约定好的价值。但token公司的确挺tricky（复杂）的，跟卡自身的情况有关，跟电的情况有关，同时还跟要求量有关，峰值的时辰会挤到一路。各人也有体感，就是哪怕买了最顶级的套餐，有时辰也必要列队。并且你做的工作不一样，对token的亏损成本也齐全分歧。

Metronome做的事件，就是“清澈地记住谁在什么功夫挪用了什么器材，花了几多token。”但大部门公司自己做这件事做不好，由于“发生了什么”和“该怎么收费”，是两套齐全分歧的逻辑，把它们耦合在一路就会越改越脆弱。

Metronome的主题设计就是把这两件事彻底拆开，工程团队只管上报用量数据，产品和销售团队自己配置价值和合同条款，中央的换算、出账、对账全数自动化。

知县北京大学推算机系本硕，AI爱好者和社区项目OwliaBot builder 他的做法我感触挺不错的。首先不思考计费，站在技术角度，用户跟API的交互，到底做了哪些事件？是读还是写？模型在做思虑？还是射中了缓存？这些分歧的事务先记下来，由于这些事务代表几多成本，自身可能是动态的。所以先不把它跟钱挂钩，记下事务流之后，再有另表一层：这些事务流别离怎么定价？好比射中缓存的可能只有一分钱，没射中就要一块钱。第三层就是我们能接触到的：订阅造是一种计费方式，直接买API是一种，设定限额再加超额是一种。第四层可能就是为了卖出去而要打折，好比Opus 200刀是100刀的两倍成本但用量是四倍，他们就说在打五折。我看完这四层感触极度合理。

这家公司的发展速度很快。据公开报路，Metronome累计融资约1.28亿美元，今年1月被Stripe收购。一个做计费基础设施的100人团队，估值追上了好多做模型的公司，这自身就注明，在token经济里，“怎么算钱”也变得越来越重要。

而在这样的一个产业中，“套利”的机遇也出现了。

Token套利

当“中央商”起头赚差价

我们在前文中说到，此刻开发者们会分歧的模型混着用：复杂工作用Claude、GPT等昂贵模型，单一工作用MiniMax、kimi等中国的性价比模型。

而对应的，在token经济学里，一种新的贸易模式在浮出水面，业内叫它Token Arbitrage（Token套利）。

知县北京大学推算机系本硕，AI爱好者和社区项目OwliaBot builder 这有点像国内买运营商套餐，1千兆下行带宽只配了40兆上行带宽，但通常用户感触不到。token上也是类似的，很有可能你全用便宜模型，和全用贵模型，用户看来区别不大，那这时辰就有套利空间了。性质上最后买单的是用户，只有效户感触ok，那就是ok的。这在我看来真的有点像税务审计师：你自己报税可能要交1万美金，你花5000美金雇了个审计师，他助你报只报了2000美金的税，他更专业、懂优化，优化出来的部门双方各拿一半。token arbitrage（套利）好好做就是这样的生意。肖志斌 ZFLOW AI首创人&CEO、华丽半导体协会前主席与董事会照拂像我们自己搭建OpenClaw这种agent，注定会有一个便宜模型，可能是国内的大模型，高端的可能用Anthropic的Sonnet或者更好的OpenAI模型。我们公司也做了一个OpenClaw的token auto tuner（自动调优器），针对分歧的工作能够进一步细分，甚至用一个模型去判断这个工作的复杂度，看能不能用便宜模型来做。

更进阶的套利方式不只是“批发转零售”，而是去搭建一个“智能路由器”，用户需要进来后，吓酌一个模型去判断工作的复杂水平，单一工作分配给便宜模型，只有真正复杂的工作才给Claude或GPT。对用户来说是黑盒，但中央商在不休优化成本结构。

钱宇靖 GMI Cloud工程主管作为模型提供商，各人可能城市有自己的路由模型。它就是一个幼模型，来判断当下这个工作的难易水平，而后assign（分配）给相宜的模型来最幼化成本；褂幸恢址绞绞峭ü桓鯽gent产品，好比Genspark或者Manus，他们内部对分歧模型的能力有认知，会针对分歧工作做模型分发。

Nathan Wang 资深AI Agent开发者我感触省token是正常的。你吓仔个用户定价，设好一个margin（利润率），好比按复杂模型的使用量定价，设定了30%的margin（利润率）。之后，一旦用户接受了这个价值，你其实是拿便宜的token换掉高价token给到用户。若是用户感知不出来，感触体感上、阐发上没有变动，那用户其实还是在付原来高价值token的钱。

知县也是一个典型的“混合调度”用户。他每天跟AI互动几百次，同时使用Claude、GPT和中国模型，但给它们分配了齐全分歧的角色。

知县北京大学推算机系本硕，AI爱好者和社区项目OwliaBot builder Opus最强的是脑洞，我更愿意把Opus当产品经理来对待，它想问题比力发散。我跟它聊的时辰发现，我有些设法跟它一点就透，我说想做一个这样的事件，它根基上就能顺着我没说的话，把我脑子里没说出来的器材都列出来。GPT就稍微nerd（书白痴）一点，有点像在跟技术掌管人讲产品，收到的都是挑战。所以Opus适合做设计，天马行空；Codex适合做把关、做复盘。中央的执行，只有规划写好了、分得足够精密，重要必要的是有肯定的智能，并且快、便宜，由于这是最耗token的时辰，真正往表写代码是极度极度耗的，输出是最贵的。这个场景里，就用国产模型去做执行，把代码写好、写出来。

Agent开发者Nathan从工程化实现上，助我们诠氏缢一下怎么做：

Nathan Wang 资深AI Agent开发者从最单一的方式动手，能够拿一个模型来分辨用户的问题，用户根基上都在问问题，就拿个单一模型去detect（检测）用户意图，通知它肯定的metrics（指标）怎么分辨，再加上分歧的threshold（阈值），这是最单一的工程化方式，就能够把工作做根基的分辨。到后期抓到一些用户数据，能够通过单一的RL（强化进建）或者训练的方式去优化这个幼模型。前期吓酌prompt方式抓数据，数据够了再fine-tune（微调），一步步下来，它就会更高效地域分复杂场景和单一场景。最终让用户无法分辨，让他付高价值token的钱，用廉价值的token来服务。

那问题来了：这种套利可持续吗？

肖志斌 ZFLOW AI首创人&CEO、华丽半导体协会前主席与董事会照拂我感触短期内是有机遇的。但对于单个模型，好比Anthropic，其实已经把这个能力build（内置）到它的coding agent（编程智能体）里面了，它最近加了一个Advisor模式，吓酌贵的模型判断哪些工作能够用便宜模型做、哪些用贵的模型做，大模型厂商自己会把这个器材build in（内置）到自己的生态里。

但跨模型的调度空间约有被穷尽。由于每家大模型公司只优化自己的模型。然而，市场上的模型太多了，跨模型的智能调度不会只是短期机遇。

肖志斌 ZFLOW AI首创人&CEO、华丽半导体协会前主席与董事会照拂这个是有创业空间的，不仅仅是针对模型定价去做这件事，这里要做好多工作和模型匹配的工作：除了工作精准度，还有模型延长的判断、模型质量的判断，以及工作实现度的判断。并且此刻还只是做了比力初步的API聚合，加了一些pricing（定价战术），还没有做到模型质量和工作的匹配，甚至是模型和硬件的匹配，也就是延长和吞吐量的匹配。到底谁会赢？我的判断是，最会调度token的系统会赢。但这种系统不会止步于OpenRouter这个水平，由于还有好比prompt压缩这类职能，大模型厂商会把这些做进自己的ecosystem（生态系统）。若是你做通用的token调度系统，肯定要做得更深。

中国Token出海

结构性的产业机遇？

讲到这里，我们能够把视角再拉大一点。想一想，当一个伦敦的法式员，用MiniMax的API跑OpenClaw的时辰，物理层面发生了什么？

他的要求从英国启程，穿过海底光缆，落在贵州的数据中内心。GPU起头工作，电扇起头转，电表起头跳。几秒钟后，了局原路返回。整个过程中，没有一度电脱离过中国的电网，但这度电的价值，已经通过API账单，以token的大局实现了跨境结算。

某种意思上，这是一种全新状态的“出口”对不合？

中国从前出口日用品、衬衫、家电，后来是电动车，但这些都是实物要过海关。Token出海不必要集装箱，甚至不必要任何实体商品离建国境。电力在本地亏损，算力在本地运行，但创造的价值通过互联网，瞬间交付到全球任何一个开发者手上。有人把这叫做“电力出海”，固然电没出去，但电的价值出去了。

那么一个天然的问题是：中国token能卖这么便宜，好多人的第一反映是电价，这种状态会一向持续下去吗？现实情况还挺复杂。GMI Cloud首创人Alex在GTC现场给了我们一个很直率的判断：美国其实不缺电，缺的是输送能力。

Alex Yeh GMI Cloud首创人瓶颈还是在能源供给端，现实上美国不缺电，缺的是distribution power（配电能力）。高压电上有好多电，天然气一烧就能发电，但问题是distribution（分配），你要把电传输到一个点，这必要大量审批，要建变电站，从330kV一路降到400V或800V，这个过程极度冗长，光是拿审批就烦到爆炸。

现实上，中美电力成本的绝对值差距并不大，中国工业用电0.4-0.6元/度，美国0.8-1.2元/度，中美双方的工业电价差距其实没有设想中那么大，真正拉开差距的是基础设施的响应速度：中国能够在西部戈壁里铺满光伏板，再通过特高压电网把电送到东部的算力集群。

所以从电力角度看，美国的token价值一时半会很难降好多。同时，Alex以为，从存储等供给链角度看，token价值短期内更难降落。

Alex Yeh GMI Cloud首创人 DDR4的DRAM价值，是一年前的10倍。此刻CX7也在缺货、电源供给和CPU也起头在缺货，各个供给链都起头缺货。我看到OpenClaw的起来、agent起来、多模态的起来以及编程的起来，刚好这三个是一个美满的风暴，所有的供给链就跟不上这个节拍。钱宇靖 GMI Cloud工程主管最大的挑战还是建足够多的数据中心，这是物理上的限度，提效当然也极度重要。每一个云服务商城市紧跟技术迭代的措施去提升token效能、降低延长，但最终我们都被限度在一件事上：我们一共有几多数据中心、有几多卡、通了几多电。

这波出海盈利，已经实切其实地反映在了收入上。如今MiniMax海表收入占比超过七成，月之暗面在Kimi K2.5颁布后，短短数周内收入就超过了2025年整年，智谱的模型API收入也在今年出现了发作式增长。而token需要的天花板目前底子还看不到。

钱宇靖 GMI Cloud工程主管每一个event（事务）都触发了token亏损的指数级增长，目前还没有看到显著的天花板。由于此刻并不是每幼我都在用OpenClaw，也没有把生涯中每一个vertical（垂直方向）都AI化，所以整体token consumption（消费）还会持续增长，就像老黄说的，将来的潜力还是极度大，目前看不到天花板。

各人想想看，此刻大部门人还只是偶然用用OpenClaw，大部门行业还远约有被Agent渗入。但趋向已经很分了然：token的亏损在从“人类自动提议”造成“机械自动运行”。一个法式员手动用AI编程副手，一天可能烧几十万token。但一旦他配了一个Agent全天候在后盾跑：写代码、查资料、跑测试、发部署，亏损量能够直接跳到千万级。倒剽种使用方式从少数极客扩散到通常开发者，再扩散到每一个知识工作者，token的需要增长就是指数级此外增长了。

若是用一句话来概括这个趋向：若是上一个时期中国出口的是衬衫和家电，这个时期是电动车，那下一个时期可能就是token。

回到开头的问题：token到底意味着什么？

对Meta员工来说，它是排行榜上的勋章。对创业公司来说，它是每个月最大的一笔开支。对OpenRouter来说，它是抽5%佣金的流水。对中国的云厂商来说，它是把电力造成美元的管路。对于黄仁勋来说，Token会造成大量商品，每一个输入和输出都与芯片挂钩。

钱宇靖 GMI Cloud工程主管我感触这是一个正常的发展方向。就像我说的，token是一种commodity（大量商品），那人类汗青上对于销售commodity（大量商品）出现过的所有销售方式，都能够预计会在token上重现。所以最后就是看谁更有创意、谁的市场打得更好，由于只有底层模型技术过硬，它们的accuracy（正确性）现实上不会有太大区别。

将来，Token就会是一种大量商品。而萦绕大量商品，人类几千年来发现过的所有贸易模式：期货、套利、批发零售、聚合平台、计量计费，城市在token身上重演一遍。同时，token定价的方式也可能会发生巨大的变动，好比说业界也在起头尝试按“复杂度计费”的effort-based pricing模式，或者是按工作实现度计费的task-based pricing模式，这都使得token economy的定价方式在将来有着巨大的进化空间。这就像原油到汽油再到续航里程，这中央定价的逻辑，也会在token到工作到业务了局，这条进化蹊径上再复现一遍。

我们在这篇文章里看到的每一个概想和公司，从Token-maxxing到token套利，从OpenRouter到Metronome，性质上都是这个古老逻辑的AI升级版本。

唯一分歧的是速度。这所有不是在几十年里慢慢发展的，而是在几个月内迅速发生的。当你读完这篇文章的时辰，OpenRouter上可能又多了一个新模型冲上了榜单，某家云厂商可能又调了一次价，某个开发者可能又发现了一种新的省token的步骤，而这场游戏才刚刚起头。

注：部门图片起源于网络

【本期节目不组成任何投资建议】

【视频播放渠路】

国内：B站｜腾讯｜视频号｜西瓜｜头条｜36kr｜微博｜虎嗅

海表：Youtube

联系k8凯发天生赢家：video@sv101.net

【创作团队】

监造｜泓君陈茜

撰稿｜Edward

编纂/主持｜陈茜

剪辑｜Jacob

运营｜孙泽平

　

【编纂者：洪文君】

有关标签

己所不欲勿施于人，这条东方智慧我们免费送给欧洲伴侣广西财政加力推动金昌地震巨灾保险理赔工作全面提速汇报：中企出海从“机遇驱动”向“能力驱动”转变强调能力建设河北曹妃甸港区实现40万吨船舶常态化满载靠泊

文章点评

未查问到任何数据！

颁发评论

◎迎接参加会商，请在这里颁发您的见解、互换您的概想。

【网站地图】