k8凯发天生赢家

新闻中心 新闻中心

Token经济学:AI时期的新钱币战争

在硅谷 ,有了一种新的炫富方式—

作者:王建福
颁布功夫:2026-06-01 23:47:57
阅读量:5271

Token经济学:AI时期的新钱币战争

在硅谷 ,有了一种新的炫富方式——每天烧了几多token 。

对于这个炫富方式 ,此刻有一个新词叫:Token-maxxing ,意思是“把token用量拉到极限” 。它造成了公司内表人们攀比的新方式:你每天亏损几多token、你能同时调度几多个agent运杏注你的token throughput(吞吐量)有多高 ,这些都在造成衡量一幼我“有多AI原生”的新指标 。

不外 ,对于这种新较量 ,全球AI圈的巨头们在进行着一场强烈的争吵:公司是否应该不设限度地激励员工们去使用token  ?

而在这场争吵的背后 ,是一场萦绕token发展的新军备较量 。硅谷大厂们为什么在疯狂卷token用量 ,这背后到底有没有路理  ?大模型公司是怎么给token定价的  ?中国模型若何凭借“物美价廉”杀入全球开发者市场 ,在OpenRouter上霸榜  ?“Token套利”的新模式 ,怎么来赚差价  ?以及在所有这些背后 ,一个更大的问题:中国的token出海 ,会不会成为下一个结构性的产业机遇  ?若是上一个时期中国出口的是衬衫 ,这个时期是电动车 ,下一个时期会是token吗  ?

(本文为视频改写 ,迎接各人收看以下视频)

Token-maxxing之辩

用得越多就越好吗  ?

4月初 ,Meta被爆内部有一个名为“Claudeonomics”排行榜 ,这个排行榜汇集了超过85000名Meta员工的AI使用数据 ,列出了token亏损量最高的前250名“超等用户” 。

在最近一个月 ,排行榜上的总使用量突破了60万亿token ,若是依照Anthropic Opus 4.6的定价 ,约莫每百万token均匀15美元来粗略换算的话 ,这些token的价值高达约9亿美元 。排名第一的那位员工 ,烧掉的token价值高达数百万美元 。

这个新闻曝光之后 ,立马在硅谷引发了一场大争吵 。

AI创业公司Writer的CEO May Habib ,直接说这是“生死生死级此外问题” 。她自己公司内部也有一个token亏损排行榜 ,并且她明确通知员工 ,她自己在盯这个数据 。她以为若是不全力拥抱AI ,就会被裁减 。

Uber也很激进 。目前Uber后端系统中 ,11%的新代码更新已经由agent实现 ,而三个月前这个比例还不到1% 。Uber CTO的原话很直白:“我的愿景是把软件工程转型为agent软件工程 。”

但否决Token-maxxing的声音同样敏感 。

HubSpot的CEO Yamini Rangan ,在LinkedIn上发了一句被宽泛转发的话:“Outcome maxxing>>token maxxing” 。意思是 ,比起疯狂亏损token ,不如看看你产出了什么了局 。她代表了另一种重要概想:纯正的token使用量 ,是一个谬误的指标 。

AI软件工程公司Jellyfish的CEO Andrew Lau ,说得更直白:“你能够一天到晚刷token ,但得到的了局可能齐全不是你想要的 。”

这两派的吵得不成开交 。但更多的中央派似乎还是形成了共识:不充分利用AI的公司 ,会被竞争敌手超过并变得过期 。在这种信想下 ,哪怕排行榜和激励造度不美满 ,哪怕一些AI使用最终被证明是浪费的 ,大厂首创人和高层们也被卷起来了 ,以为必必要这样做能力让公司转型成为更AI-native(AI原生)的公司 。

自OpenClaw爆火以来 ,agent工作烧掉的token量直线上升   ?萍季尥访悄芄徊还顺杀镜纳誸oken ,但对于创业公司和幼我开发者来说 ,token的成本带来的是焦虑 。

Nathan Wang 资深AI Agent开发者 好比像OpenClaw ,你可能跑一个工作 ,稍微复杂一点 ,几千万的token量都是极度有可能的 。

钱宇靖 GMI Cloud工程主管 若是你去跑一个最贵的Claude的模型 ,你可能让它做一个很幼的事件就要花十几二十刀 ,这是真的有点贵 。

Uber的CTO在接受采访时泄漏 ,公司2026年的AI预算在开年几个月内就已经全数用完了 ,重要是由于工程师们对Claude Code的使用量暴增 。他的原话是:“我得重新回去做预算了 ,由于我以为够用一年的钱 ,已经没了 。”

硅谷驰名投资人Chamath Palihapitiya最近也公开抱怨 ,他投资的一家软件公司自从团队起头用AI编程工具后 ,运营成本在几个月内翻了三倍多 ,照这个趋向年化AI支出将达到千万美元级别 。他半恶作剧地说了一句在社交媒体上广为流传的话:感激VC们掏钱为这场AI盛宴买单 。

能够看到 ,对于企衣反说 ,出格是软件SaaS行业 ,AI时期的成本结构跟随前齐全不一样了 。以前做一个SaaS产品 ,研发投入是一次性的 ,用户越多边际成本越低 ,这是一门越卖越赚的生意 。但此刻 ,每个用户的每一次操作背后都有一笔token账单在跑 ,用户用得越深、职能越智能 , 作为产品方 ,反而要付更多钱给模型厂商 。这个成本不会像传统软件那样摊薄到靠近零 ,它是随着用量线性增长的 。

这也是为什么token在造成AI创业公司最主题的“弹药” ,也有风投基金起头尝试直接给被投企业提供token额度 ,作为投资的一部门 。这个逻辑很单一:对好多AI创业项目来说 ,拿到钱之后第一件事就是去买token ,那为什么不直接给token呢  ?

顺着这个逻辑来讲 ,是不是token在造成一种新的钱币  ?那token又到底是若何定价的呢  ?

拆解Token账单

大模型公司到底怎么算钱  ?

Token的定价是怎么算的  ?这个问题的答案 ,远不是“一个单价乘以数量」剽么单一 。我们以一次最单一的对话交互为例 ,你的账单上至少有三种分歧价值的token在运行:

第一是Input token(输入token) ,也就是你发给模型的内容 。

第二是Cached input token(被缓存的输入 token) ,意思是若是某些prompt、高低文或文件内容之前已经被模型系统缓存过 ,再次挪用时 ,这部门token的价值会更便宜 。

第三是Output token(输出token) ,也就是模型天生回覆时产生的token 。

钻研芯片与token efficiency(词元效能)方向的肖志斌在接受硅谷101采访时就说 ,均匀来说 ,在对话工作上 ,这三者的价值或许是:1:0.1:6的水平 。

肖志斌 ZFLOW AI首创人&CEO、华丽半导体协会前主席与董事会照拂 若是是对话类利用 ,挪用就比力单一 。你喂给它的input context(输入高低文)、你提供的高低文和文件 ,这一部门都作为input 。若是你提供的prompt已经在缓存里被缓存过 ,那这个成本根基上就是input token成本的1/10 。而后最后输出的成本 ,就是output token的成本 ,根基上是input token成本的6倍 ,这是OpenAI目前的情况 。

分歧公司凭据模型的能力给出的定价是分歧的 。举个例子 ,GPT-5的API价值上 ,Input是每百万token 1.25美元 ,Cached input是每百万token 0.125美元 ,Output token是每百万token 10美元 。

而OpenAI颁布的最新模型GPT-5.5 ,分了长短高低文两档 ,长高低文的价值是2倍 。短高低文Input是每百万token 5美元 ,Cached input是每百万token 0.5美元 ,Output token是每百万token 30美元 。

若是直接对比价值的话 ,是不是感触涨价了好几倍 ,其实不能这么算 。

这里面有一个出格反直觉的悖论:越贵的模型 ,可能反而总成本更低 。由于强模型一次就做对了 ,弱模型可能要反复重试 ,中央若是犯错就还必要人为染指 ,这也是综合成本 。也就是说 ,固然token价值在涨 ,但“每个有效结论的成本”反而鄙人降 。

所以 ,最贵的GPT-5.5-pro和GPT-5.4-pro ,短高低文Input是每百万token 30美元 ,Output token是每百万token 180美元 ,长高低文还要再贵一倍 。但若是能力足够强 ,实现工作足够正确 ,在一些复杂工作和场景上 ,反而是能把开发者的成本价值给打下来的 。

出格是在agent场景 ,由于agent不是一问一答 ,它会来回挪用模型 ,每一步可能挪用分歧的工具 ,工具又会产生新的日志和高低文 ,返回给agent持续循环挪用 。

肖志斌 ZFLOW AI首创人&CEO、华丽半导体协会前主席与董事会照拂 agent loop(循环)会重新、持续挪用 ,所以对于agent来说 ,整体是比力复杂的 ,除了单次模型挪用的input和output token亏损 ,还有持续产生的日志 ,以及挪用工具成本 ,现实上相当复杂 。 最终实现工作用的token数 ,取决于工作挪用了几多次agent loop(循环) 。若是是质量高的模型 ,可能一次就天生了你想要的答案 ,挪用的工具也相宜 ,返回的output也是你想要的 。但若是用了便宜模型 ,可能必要花更多功夫做iteration(迭代) ,来来回回挪用 ,甚至中央犯错 。所以此刻有个悖论:越贵的模型 ,实现工作的成本反而可能越低 。

所以 ,分歧的模型公司若何定价 ,一方面是由模型的推理成本以及大模型研发用度来决定的 ,但更关键的是按模型质量和工作实现度 。

肖志斌 ZFLOW AI首创人&CEO、华丽半导体协会前主席与董事会照拂 首先是推理成本 ,这是最根基的成本 ,就是单次推理的成本 ,好比你挪用一次模型 。第二是要在模型里摊平大模型的研发用度 ,这也是一部门 。但最重要的 ,其实是依照模型质量去定价 ,分歧的模型类型 ,有没有推理能力  ?高低文窗口的大   ?实现工作的次数 ,能不能急剧找到正确的output  ?好多公司是按推理成本定价的 ,但这样其实不成取 ,应该按模型质量或对工作的实现度去定价 ,这里面的价值空间是比力大的 。

这里还有一派玩家 ,就是像微软Azure、亚马逊AWS或者国内的阿里和火山引擎这样的云厂商 。有的企业是通过这些云厂商去挪用模型 ,他们收到的token账单就是从云厂商这边给出的 。

云厂商对token的收费与大模型公司的API官方收费不会相差太多 ,但有时辰云厂商会由于提供了更多的服务和能力 ,好比说区域部署、特定数据驻留、企业合规、优先推理、托管能力 ,以及私有化或专用吞吐的这些服务 ,使得价值更贵 。

这时辰 ,token账单就是:模型token费+云服务封装+企业级基础设施溢价 。

钱宇靖 GMI Cloud工程主管 大部门云服务商的计价方式 ,是凭据当下模型在这台机械上能跑出几多token每秒 ,再凭据这个机能反向推算GPU正本的成本是几多 ,再加上一个premium(溢价) ,就造成最终的价值 。

但有的时辰 ,云厂商也会由于企业折扣 ,或者必要激进抢占市场 ,来让价值更便宜 ,这种情况也是有的 。

而就在后OpenClaw时期 ,当硅谷起头卷我们开头说到的Token-maxxing这件事件的时辰 ,各人发现 ,这个账单还是很可怕的 。因而出现了一个景象:来自中国的开源模型 ,由于性价比 ,起头在国际开发者社区中 ,大受迎接 。

Nathan Wang 资深AI Agent开发者 Kimi的价值 ,我记得爆出来的input或许是不到55美分 ,output或许是2.6美元 。

知县 北京大学推算机系本硕 ,AI爱好者和社区项目OwliaBot builder 好比MiniMax ,我记得是受到了OpenClaw官方推荐的 。在做设置、选模型的时辰 ,OpenClaw软件里 ,MiniMax后面会有一个推荐的标识 ,这也相当于给中国模型做了不少宣传 。宣传之后 ,各人可能就试了一下 ,发现的确还能够 ,固然顶级能力差一些 ,但好多工作也不长短要那么高的推理能力 。好多时辰 ,执行反而必要你不要想太多 ,instruction following(指令遵循)比力好 ,做得快 ,最重要的还是便宜 。

在一些工作上 ,中美模型的价差能够高达50-70倍 。这就诠氏缢为什么 ,当OpenClaw这类agent工具 ,让token亏损从万级跳到百万级的时辰 ,全球开发者险些本能地转向了中国的便宜模型 。

登顶token挪用排行榜

中国模型若何做到超高性价比

OpenClaw爆火之后 ,由于agent工作对开源模型挪用的需要飙升 ,已经上市的中国模型厂商 ,好比说Zhipu AI和MiniMax在股价上迎来了疯狂的涨幅 。

与此同时 ,2026年3月掀起了一波集体涨价潮 。从阿里云到百度智能云 ,从智谱到腾讯云混元系列模型 ,险些所有重要厂商 ,都在统一个月内颁发上调AI有关产品价值 ,涨幅从5%到400%不等 。

钱宇靖 GMI Cloud工程主管 此刻各人看到开源模型的token亏损量上升 ,是由于开源模型的能力已经越过了某个门槛 ,好比智谱或者Kimi ,在编程上最近都有比力大的提升 。编程这个赛路正本就是大模型token亏损最大的赛路之一 ,当法式员发现开源模型可能跟几个月前的Anthropic模型一样好用 ,但价值又极其便宜的时辰 ,天然就会换到开源模型 ,这也是为什么开源模型的价值上升了 。

对于幼我开发者和创业公司来说 ,处置不那么复杂工作的时辰 ,转向开源模型是未可厚非的 。

拿MiniMax M2.5和Claude Opus 4.6做个直接对比:在SWE-Bench Verified软件工程基准测试中 ,两者得分别离是80.2%和80.8% ,说真话 ,这点差距在现实使用中险些感触不到 。但打开价值表就齐全分歧了:MiniMax M2.5的输入价值是每百万token 0.3美元 ,Claude Opus 4.6是5美元 。同样的活 ,前者的价值只有后者的十七分之一 。对于一个每天要跑几千万token的OpenClaw用户来说 ,这不是省一杯咖啡钱的问题 ,而是账单从几百美元直接降到几十美元的区别 。

那中国模型为什么能做到这么便宜  ?

肖志斌 ZFLOW AI首创人&CEO、华丽半导体协会前主席与董事会照拂 第一是技术层面上它用了MoE(混合专家模型) ,极度深度的MoE ,专家的size变得越来越幼 ,每一次运行的专家数量也不大 ,通过这种步骤在技术上能够节俭 。第二是生态的问题 ,各人通过补助去抢占生态 。第三是有些公司像阿里 ,它是云厂商 ,自己的成本定价能够比名义计价更低 ,它有更高的margin(利润率)去把模型价值打得更低 。

分歧的模型其实给了开发者们分歧的选择 ,好比说复杂的工作就交给更高机能的模型 ,单逐一些或者反复性高的工作就给便宜一点的模型 ,这样的混合使用 ,成为了agent时期的新token模式 。

黄仁勋在GTC 2026上给出了一个更宏观的token定价框架 。

他把token分成了五个价值区间:免费层(高吞吐、低交互速度 ,靠告白变现)、中级层(每百万token 3美元)、高级层(每百万token 6美元)、高速层(每百万token 45美元)到超高速层(每百万token 150美元)  ;迫恃囊馑己苊魅 ,token不再是一种同质的商品 ,它的价值应该由交互速度和使用场景决定 ,就像电力有峰谷电价一样 。

当然 ,这些暴增的需要背后 ,也有一个不容忽视的问题:到底是不是真的必要亏损这么多token  ?一些业内人士就品评说 ,当前全球企业级AI利用中 ,可能有近一半的token没有产生现实价值 。

路理很单一 ,agent不像人类那样知路“够了就停” ,它在执行一个工作的过程中 ,会反复读取整个对话汗青、重新扫描已经处置过的文件、把早就过期的高低文一遍又一遍地喂进模型 。每多跑一轮 ,这些冗余信息就像滚雪球一样越滚越大 ,但真正跟当前工作有关的 ,可能只占其中一幼部门 。

怎么让Agent少烧冤枉钱 ,在成为一个新的技术和贸易赛路 。而Token Efficiency(Token效能)成为了下个阶段的关键词 。其中值得提的一个例子 ,就是OpenRouter这家公司 。

从NFT到AI的“货架之王”

OpenRouter这个平台已经成了观察全球模型使用趋向的一面镜子 。你看到的好多关于中国模型挪用和排名的数据图都出自于这个平台 。

OpenRouter背后的人很有意思 ,首创人Alex Atallah的上一个身份 ,是全球最大NFT买卖所OpenSea的结合首创人兼CTO 。

2023年 ,他起头做OpenRouter ,这门生意的逻辑其实很单一:市面上模型越来越多 ,开发者不想每家单独注册、单独充值、单独对接API体式 ,OpenRouter就做了一个统一入口 ,所有模型一个接口搞定 ,平台从中抽取约5%的用度 。据Information报路 ,a16z在2025年对OpenRouter领投了4000万美元 ,其时估值约5亿美元 ,而最新一轮融资已将估值推至靠近13亿美元 。

让这门生意真正腾飞的 ,是OpenClaw的发作 。当全球开发者疯狂挪用各类模型来驱动Agent工作流时 ,他们必要一个能急剧切换模型的中央层 ,而OpenRouter刚好就在那里等着 ,这个机遇险些不要抓得太好 。

Atallah曾将OpenRouter与他上一次创业做过类比 ,两次做的都是把分散的供给 ,整合到一个平台上 。他赌的是:供给越分散 ,中央商越值钱 。

肖志斌 ZFLOW AI首创人&CEO、华丽半导体协会前主席与董事会照拂 它加了一层API挪用层 ,跟OpenAI的API挪用是兼容的 。若是你必要做一个工作 ,能够自动做分歧模型的切换 ,统一API、统肯定价 。这样对大部门用户来说 ,出格是从0到1的AI草创公司 ,急剧上线、急剧试错、急剧找到匹配的模型 ,是最重要的 。另表它还有fallback(后备)机造 ,一个模型出了问题 ,或者latency(延长)忽然很高 ,或者下线了 ,能够急剧切换到另一个模型 。

当然 ,OpenRouter也有它的数据局限性 。

肖志斌 ZFLOW AI首创人&CEO、华丽半导体协会前主席与董事会照拂 好多token的使用量是统计不到的 。从0到1的草创公司可能会用OpenRouter ,但从1到10 ,就会混用OpenRouter和直接API挪用 。大厂或者业务极度明确的公司 ,会直接挪用Anthropic、OpenAI或者Google的API 。所以OpenRouter对token使用量有肯定的指向性 ,也能做一些prediction(预测) ,但并不蕴含所有的token挪用量 。

换句话说 ,OpenRouter的数据 ,更像是创业公司和独立开发者群体的风向标 ,而不是整个AI行业的全景图 。但正是这个群体 ,对价值最敏赣注对新模型最愿意尝鲜、迁徙成本最低 ,组成了中国模型出海的第一波“自来水”用户 。

谁在给Token“装电表”  ?

若是token是AI时期的“电” ,那总得有人给这些电装电表 。这件事听上去不够性感 ,但看一眼客户名单就知路它有多重要:OpenAI、NVIDIA、Anthropic、Databricks ,全在用统一家公司的计费系统 ,这家公司就是Metronome 。

Metronome首创团队的布景很注明问题 ,两位首创人都出自Dropbox ,在那里亲自经历过一个让所有SaaS工程师头疼的事件:改定价 。表表上只拭浇槁费调几块钱 ,背后却要动一大堆写死在代码里的计费逻辑 。

到了AI时期 ,这个痛点被放大了几个数量级 ,收费单元不再是“一幼我头一个月几多钱” ,而是造成了token数、API挪用次数、GPU时长这些颗粒度极细的指标 ,并且每个客户的合同条款、折扣结构、用量阶梯可能都不一样 。

知县 北京大学推算机系本硕 ,AI爱好者和社区项目OwliaBot builder SaaS的成本相对不变 ,就是服务器成本 ,甚至都是跟云厂商预先约定好的价值 。但token公司的确挺tricky(复杂)的 ,跟卡自身的情况有关 ,跟电的情况有关 ,同时还跟要求量有关 ,峰值的时辰会挤到一路 。各人也有体感 ,就是哪怕买了最顶级的套餐 ,有时辰也必要列队 。并且你做的工作不一样 ,对token的亏损成本也齐全分歧 。

Metronome做的事件 ,就是“清澈地记住谁在什么功夫挪用了什么器材 ,花了几多token 。”但大部门公司自己做这件事做不好 ,由于“发生了什么”和“该怎么收费” ,是两套齐全分歧的逻辑 ,把它们耦合在一路就会越改越脆弱 。

Metronome的主题设计就是把这两件事彻底拆开 ,工程团队只管上报用量数据 ,产品和销售团队自己配置价值和合同条款 ,中央的换算、出账、对账全数自动化 。

知县 北京大学推算机系本硕 ,AI爱好者和社区项目OwliaBot builder 他的做法我感触挺不错的 。首先不思考计费 ,站在技术角度 ,用户跟API的交互 ,到底做了哪些事件  ?是读还是写  ?模型在做思虑  ?还是射中了缓存  ?这些分歧的事务先记下来 ,由于这些事务代表几多成本 ,自身可能是动态的 。所以先不把它跟钱挂钩 ,记下事务流之后 ,再有另表一层:这些事务流别离怎么定价  ?好比射中缓存的可能只有一分钱 ,没射中就要一块钱 。第三层就是我们能接触到的:订阅造是一种计费方式 ,直接买API是一种 ,设定限额再加超额是一种 。第四层可能就是为了卖出去而要打折 ,好比Opus 200刀是100刀的两倍成本但用量是四倍 ,他们就说在打五折 。我看完这四层感触极度合理 。

这家公司的发展速度很快 。据公开报路 ,Metronome累计融资约1.28亿美元 ,今年1月被Stripe收购 。一个做计费基础设施的100人团队 ,估值追上了好多做模型的公司 ,这自身就注明 ,在token经济里 ,“怎么算钱”也变得越来越重要 。

而在这样的一个产业中 ,“套利”的机遇也出现了 。

Token套利

当“中央商”起头赚差价

我们在前文中说到 ,此刻开发者们会分歧的模型混着用:复杂工作用Claude、GPT等昂贵模型 ,单一工作用MiniMax、kimi等中国的性价比模型 。

而对应的 ,在token经济学里 ,一种新的贸易模式在浮出水面 ,业内叫它Token Arbitrage(Token套利) 。

知县 北京大学推算机系本硕 ,AI爱好者和社区项目OwliaBot builder 这有点像国内买运营商套餐 ,1千兆下行带宽只配了40兆上行带宽 ,但通常用户感触不到 。token上也是类似的 ,很有可能你全用便宜模型 ,和全用贵模型 ,用户看来区别不大 ,那这时辰就有套利空间了 。性质上最后买单的是用户 ,只有效户感触ok ,那就是ok的 。这在我看来真的有点像税务审计师:你自己报税可能要交1万美金 ,你花5000美金雇了个审计师 ,他助你报只报了2000美金的税 ,他更专业、懂优化 ,优化出来的部门双方各拿一半 。token arbitrage(套利)好好做就是这样的生意 。肖志斌 ZFLOW AI首创人&CEO、华丽半导体协会前主席与董事会照拂 像我们自己搭建OpenClaw这种agent ,注定会有一个便宜模型 ,可能是国内的大模型 ,高端的可能用Anthropic的Sonnet或者更好的OpenAI模型 。我们公司也做了一个OpenClaw的token auto tuner(自动调优器) ,针对分歧的工作能够进一步细分 ,甚至用一个模型去判断这个工作的复杂度 ,看能不能用便宜模型来做 。

更进阶的套利方式不只是“批发转零售” ,而是去搭建一个“智能路由器” ,用户需要进来后 ,吓酌一个模型去判断工作的复杂水平 ,单一工作分配给便宜模型 ,只有真正复杂的工作才给Claude或GPT 。对用户来说是黑盒 ,但中央商在不休优化成本结构 。

钱宇靖 GMI Cloud工程主管 作为模型提供商 ,各人可能城市有自己的路由模型 。它就是一个幼模型 ,来判断当下这个工作的难易水平 ,而后assign(分配)给相宜的模型来最幼化成本  ;褂幸恢址绞绞峭ü桓鯽gent产品 ,好比Genspark或者Manus ,他们内部对分歧模型的能力有认知 ,会针对分歧工作做模型分发 。

Nathan Wang 资深AI Agent开发者 我感触省token是正常的 。你吓仔个用户定价 ,设好一个margin(利润率) ,好比按复杂模型的使用量定价 ,设定了30%的margin(利润率) 。之后 ,一旦用户接受了这个价值 ,你其实是拿便宜的token换掉高价token给到用户 。若是用户感知不出来 ,感触体感上、阐发上没有变动 ,那用户其实还是在付原来高价值token的钱 。

知县也是一个典型的“混合调度”用户 。他每天跟AI互动几百次 ,同时使用Claude、GPT和中国模型 ,但给它们分配了齐全分歧的角色 。

知县 北京大学推算机系本硕 ,AI爱好者和社区项目OwliaBot builder Opus最强的是脑洞 ,我更愿意把Opus当产品经理来对待 ,它想问题比力发散 。我跟它聊的时辰发现 ,我有些设法跟它一点就透 ,我说想做一个这样的事件 ,它根基上就能顺着我没说的话 ,把我脑子里没说出来的器材都列出来 。GPT就稍微nerd(书白痴)一点 ,有点像在跟技术掌管人讲产品 ,收到的都是挑战 。所以Opus适合做设计 ,天马行空 ;Codex适合做把关、做复盘 。中央的执行 ,只有规划写好了、分得足够精密 ,重要必要的是有肯定的智能 ,并且快、便宜 ,由于这是最耗token的时辰 ,真正往表写代码是极度极度耗的 ,输出是最贵的 。这个场景里 ,就用国产模型去做执行 ,把代码写好、写出来 。

Agent开发者Nathan从工程化实现上 ,助我们诠氏缢一下怎么做:

Nathan Wang 资深AI Agent开发者 从最单一的方式动手 ,能够拿一个模型来分辨用户的问题 ,用户根基上都在问问题 ,就拿个单一模型去detect(检测)用户意图 ,通知它肯定的metrics(指标)怎么分辨 ,再加上分歧的threshold(阈值) ,这是最单一的工程化方式 ,就能够把工作做根基的分辨 。到后期抓到一些用户数据 ,能够通过单一的RL(强化进建)或者训练的方式去优化这个幼模型 。前期吓酌prompt方式抓数据 ,数据够了再fine-tune(微调) ,一步步下来 ,它就会更高效地域分复杂场景和单一场景 。最终让用户无法分辨 ,让他付高价值token的钱 ,用廉价值的token来服务 。

那问题来了:这种套利可持续吗  ?

肖志斌 ZFLOW AI首创人&CEO、华丽半导体协会前主席与董事会照拂 我感触短期内是有机遇的 。但对于单个模型 ,好比Anthropic ,其实已经把这个能力build(内置)到它的coding agent(编程智能体)里面了 ,它最近加了一个Advisor模式 ,吓酌贵的模型判断哪些工作能够用便宜模型做、哪些用贵的模型做 ,大模型厂商自己会把这个器材build in(内置)到自己的生态里 。

但跨模型的调度空间约有被穷尽 。由于每家大模型公司只优化自己的模型 。然而 ,市场上的模型太多了 ,跨模型的智能调度不会只是短期机遇 。

肖志斌 ZFLOW AI首创人&CEO、华丽半导体协会前主席与董事会照拂 这个是有创业空间的 ,不仅仅是针对模型定价去做这件事 ,这里要做好多工作和模型匹配的工作:除了工作精准度 ,还有模型延长的判断、模型质量的判断 ,以及工作实现度的判断 。并且此刻还只是做了比力初步的API聚合 ,加了一些pricing(定价战术) ,还没有做到模型质量和工作的匹配 ,甚至是模型和硬件的匹配 ,也就是延长和吞吐量的匹配 。 到底谁会赢  ?我的判断是 ,最会调度token的系统会赢 。但这种系统不会止步于OpenRouter这个水平 ,由于还有好比prompt压缩这类职能 ,大模型厂商会把这些做进自己的ecosystem(生态系统) 。若是你做通用的token调度系统 ,肯定要做得更深 。

中国Token出海

结构性的产业机遇  ?

讲到这里 ,我们能够把视角再拉大一点 。想一想 ,当一个伦敦的法式员 ,用MiniMax的API跑OpenClaw的时辰 ,物理层面发生了什么  ?

他的要求从英国启程 ,穿过海底光缆 ,落在贵州的数据中内心 。GPU起头工作 ,电扇起头转 ,电表起头跳 。几秒钟后 ,了局原路返回 。整个过程中 ,没有一度电脱离过中国的电网 ,但这度电的价值 ,已经通过API账单 ,以token的大局实现了跨境结算 。

某种意思上 ,这是一种全新状态的“出口”对不合  ?

中国从前出口日用品、衬衫、家电 ,后来是电动车 ,但这些都是实物要过海关 。Token出海不必要集装箱 ,甚至不必要任何实体商品离建国境 。电力在本地亏损 ,算力在本地运行 ,但创造的价值通过互联网 ,瞬间交付到全球任何一个开发者手上 。有人把这叫做“电力出海” ,固然电没出去 ,但电的价值出去了 。

那么一个天然的问题是:中国token能卖这么便宜 ,好多人的第一反映是电价 ,这种状态会一向持续下去吗  ?现实情况还挺复杂 。GMI Cloud首创人Alex在GTC现场给了我们一个很直率的判断:美国其实不缺电 ,缺的是输送能力 。

Alex Yeh GMI Cloud首创人 瓶颈还是在能源供给端 ,现实上美国不缺电 ,缺的是distribution power(配电能力) 。高压电上有好多电 ,天然气一烧就能发电 ,但问题是distribution(分配) ,你要把电传输到一个点 ,这必要大量审批 ,要建变电站 ,从330kV一路降到400V或800V ,这个过程极度冗长 ,光是拿审批就烦到爆炸 。

现实上 ,中美电力成本的绝对值差距并不大 ,中国工业用电0.4-0.6元/度 ,美国0.8-1.2元/度 ,中美双方的工业电价差距其实没有设想中那么大 ,真正拉开差距的是基础设施的响应速度:中国能够在西部戈壁里铺满光伏板 ,再通过特高压电网把电送到东部的算力集群 。

所以从电力角度看 ,美国的token价值一时半会很难降好多 。同时 ,Alex以为 ,从存储等供给链角度看 ,token价值短期内更难降落 。

Alex Yeh GMI Cloud首创人 DDR4的DRAM价值 ,是一年前的10倍 。此刻CX7也在缺货、电源供给和CPU也起头在缺货 ,各个供给链都起头缺货 。我看到OpenClaw的起来、agent起来、多模态的起来以及编程的起来 ,刚好这三个是一个美满的风暴 ,所有的供给链就跟不上这个节拍 。钱宇靖 GMI Cloud工程主管 最大的挑战还是建足够多的数据中心 ,这是物理上的限度 ,提效当然也极度重要 。每一个云服务商城市紧跟技术迭代的措施去提升token效能、降低延长 ,但最终我们都被限度在一件事上:我们一共有几多数据中心、有几多卡、通了几多电 。

这波出海盈利 ,已经实切其实地反映在了收入上 。如今MiniMax海表收入占比超过七成 ,月之暗面在Kimi K2.5颁布后 ,短短数周内收入就超过了2025年整年 ,智谱的模型API收入也在今年出现了发作式增长 。而token需要的天花板目前底子还看不到 。

钱宇靖 GMI Cloud工程主管 每一个event(事务)都触发了token亏损的指数级增长 ,目前还没有看到显著的天花板 。由于此刻并不是每幼我都在用OpenClaw ,也没有把生涯中每一个vertical(垂直方向)都AI化 ,所以整体token consumption(消费)还会持续增长 ,就像老黄说的 ,将来的潜力还是极度大 ,目前看不到天花板 。

各人想想看 ,此刻大部门人还只是偶然用用OpenClaw ,大部门行业还远约有被Agent渗入 。但趋向已经很分了然:token的亏损在从“人类自动提议”造成“机械自动运行” 。一个法式员手动用AI编程副手 ,一天可能烧几十万token 。但一旦他配了一个Agent全天候在后盾跑:写代码、查资料、跑测试、发部署 ,亏损量能够直接跳到千万级 。倒剽种使用方式从少数极客扩散到通常开发者 ,再扩散到每一个知识工作者 ,token的需要增长就是指数级此外增长了 。

若是用一句话来概括这个趋向:若是上一个时期中国出口的是衬衫和家电 ,这个时期是电动车 ,那下一个时期可能就是token 。

回到开头的问题:token到底意味着什么  ?

对Meta员工来说 ,它是排行榜上的勋章 。对创业公司来说 ,它是每个月最大的一笔开支 。对OpenRouter来说 ,它是抽5%佣金的流水 。对中国的云厂商来说 ,它是把电力造成美元的管路 。对于黄仁勋来说 ,Token会造成大量商品 ,每一个输入和输出都与芯片挂钩 。

钱宇靖 GMI Cloud工程主管 我感触这是一个正常的发展方向 。就像我说的 ,token是一种commodity(大量商品) ,那人类汗青上对于销售commodity(大量商品)出现过的所有销售方式 ,都能够预计会在token上重现 。所以最后就是看谁更有创意、谁的市场打得更好 ,由于只有底层模型技术过硬 ,它们的accuracy(正确性)现实上不会有太大区别 。

将来 ,Token就会是一种大量商品 。而萦绕大量商品 ,人类几千年来发现过的所有贸易模式:期货、套利、批发零售、聚合平台、计量计费 ,城市在token身上重演一遍 。同时 ,token定价的方式也可能会发生巨大的变动 ,好比说业界也在起头尝试按“复杂度计费”的effort-based pricing模式 ,或者是按工作实现度计费的task-based pricing模式 ,这都使得token economy的定价方式在将来有着巨大的进化空间 。这就像原油到汽油再到续航里程 ,这中央定价的逻辑 ,也会在token到工作到业务了局 ,这条进化蹊径上再复现一遍 。

我们在这篇文章里看到的每一个概想和公司 ,从Token-maxxing到token套利 ,从OpenRouter到Metronome ,性质上都是这个古老逻辑的AI升级版本 。

唯一分歧的是速度 。这所有不是在几十年里慢慢发展的 ,而是在几个月内迅速发生的 。当你读完这篇文章的时辰 ,OpenRouter上可能又多了一个新模型冲上了榜单 ,某家云厂商可能又调了一次价 ,某个开发者可能又发现了一种新的省token的步骤 ,而这场游戏才刚刚起头 。

注:部门图片起源于网络

【本期节目不组成任何投资建议】

【视频播放渠路】

国内:B站|腾讯|视频号|西瓜|头条|36kr|微博|虎嗅

海表:Youtube

联系k8凯发天生赢家:video@sv101.net

【创作团队】

监造|泓君 陈茜

撰稿 |Edward

编纂/主持 |陈茜

剪辑|Jacob

运营|孙泽平

 

文章点评

未查问到任何数据!

颁发评论

◎迎接参加会商 ,请在这里颁发您的见解、互换您的概想 。

最新文章

热点文章

随机推荐

【网站地图】