k8凯发天生赢家

起源:刘萧旭让山东人的DNA动了作者:

起源:刘萧旭让山东人的DNA动了作者: 简志旺:

握别天价账单:端云协同与影象革命 ,让 Agent 握别「烧钱时期」丨 GAIR Live 029

“当 Agent 不再是昂贵的尝试品 ,而是像水和电一样的基础设施时 ,真正的 AI 时期才算真正来临。”

作者丨岑峰

2026 年 ,大模型行业的叙事中心在经历一场疾苦但必然的位移:从追赶参数规模的“算力较量” ,转向钻营工作落地的“工程得救”。在这场位移中 ,AI Agent无疑是最被寄托厚望的终极状态 ,但它正面对一堵名为“Token 焦虑”的围墙。

为什么 Agent 的遍及如此之难 ?由于我们正处于一种极其低效的出产模式中:为了让 Agent 维持对话的连贯性 ,系统不得不反复加载数万字的高低文;一次单一的工作调度 ,往往陪伴着不成预测的高昂账单;而数据隐衷在端与云的频仍传输中 ,更是变得风雨飘摇。

Agent 的遍及 ,正困在安全、成本与智能的“不成能三角”中。

但这到底是模型推理的硬性支出 ,还是系统基建效能低下的隐形成本 ?为了拆解这一性质命题 ,雷峰网进行了“从 Token 焦虑到影象革命”主题的GAIR Live线上圆桌。论坛由雷峰网岑峰主持 ,特邀:

李志宇 影象张量 MemTensor 结合首创人兼 CTO;

闫宇坤 Qiyuan Lab 副钻研员 清华大学 THUNLP 尝试室客座钻研员

两位专家 ,通过圆桌会商 ,揭示了智能体基建若何通过“空间分流”与“功夫治理” ,重构 AI Agent 的成本价值秩序:闫宇坤辅导的 EdgeClaw 试图通过“端云协同”的物理分级 ,从架构源头堵截无效 Token 的亏损;而李志宇掌舵的 MemTensor 则通过“影象工程” ,在寂仔架构下通过精密化的状态治理榨取极限效能。

从“谈天框”到“工作操作系统”的范式跃迁

会商的主题共识在于:我们正处于从“对话模型”向“工作执行系统”逾越的关键期。

岁首 OpenClaw的爆红 ,性质上是全球开发者对“智能体操作系统”雏形的集体狂欢 ,但狂欢之后是繁重的成本账单。闫宇坤指出 ,目前的 Agent 依然处于“蒸汽机时期” ,虽能拉动出产力磨盘 ,却由于频仍加载布景信息产生了巨大的资源浪费。“有时一句单一的‘你好’ ,可能由于反复加载布景信息而亏损五六万 Token。”

这种低效直接导致了贸易关环的断裂。当 Agent 想要具备真正的“出产力” ,它必须从单一工作执行向跨领域合作跃迁。而这种跃迁的前提 ,是必须解决安全、成本与复杂度这三座大山。

空间破局:端云协同与隐衷物理分级

针对“Token 焦虑” ,闫宇坤代表的 EdgeClaw 给出了空间维度的答案:端云协同 ,从架构源头堵截无效损耗。

EdgeClaw 提出了一套“安全高效并行龙虾养殖技术” ,其主题逻辑是将端侧界说为“幼我秘书” ,掌管隐衷隔离与日常处置;将云侧界说为“行业专家” ,掌管处置高难度、非敏感的复杂逻辑。

EdgeClaw设置了三级隐衷分级路由 ,通过将工作分为“公共级(S1)”、“脱敏级(S2)”和“本地级(S3)” ,Agent 可能自主决定数据的流向。这不仅锁定了安全的下限 ,更重要的是 ,它通过在端侧预处置、脱敏和精简 ,大幅削减了发往云端的“废料 Token”。

闫宇坤算了一笔极具冲击力的财政账:一台高机能端侧显卡的采购成本 ,仅相当于高频挪用三四个月云端顶级 API 的用度。这意味着 ,本地硬件在从“改观用度”变为“固定资产”。一旦工作迁徙至本地 ,边际成本趋近于零。这种财政结构的重构 ,将彻底引发 Agent 在垂直场景下的真实潜能 ,让用户不再由于“不安账单”而对 AI 畏手畏脚。

功夫治理:从“提醒词工程”到“影象工程”

若是说端云协同解决了“在哪里推算”的问题 ,李志宇掌舵的 MemTensor 则解决了“若何有效记住”的问题:将行业视野从空间转向功夫 ,从暴力堆砌高低文转向精密化的影象分层。

李志宇提出了一个直击性质的概想:“在 Agent 的账单里 ,回顾比记住更烧钱。”

从前 ,行业普遍迷信“超长高低文(Long Context)” ,以为 128K 甚至 1M 的窗口能解决所有问题。但暴力堆砌高低文的后果是成本的指数级爆炸。MemTensor 提倡的“影象工程” ,强调对影象进行分层治理:

明文影象(Textual Memory):急剧写入 ,但读取成本高;

参数化影象(Parametric Memory):通过训练将知识内化 ,读取极快但写入价值大;

激活影象(KV Cache 治理):优化推算中央态 ,提升响应速度。

为了匹敌高频、反复加载带来的账单爆炸 ,MemTensor 引入了操作系统治理内存的逻辑。通过“Agentic 抽取”模式 ,系统不再是被动地存储文本片段 ,而是自动鉴别信息的完整性。

例如 ,当用户提到“老处所”时 ,系统会在写入阶段就实现溯源和补全。这种精准调度能力 ,能将正本必要召回的 10K 高低文压缩至 6K 的精准片段 ,从而在不损耗智能的前提下实现成本的极限下探。

价值重构:影象作为将来的“数字资产中心”

圆桌另一个深刻共识是:影象治理不仅是降本增效的伎俩 ,更是Agent时期将来 AI 贸易模式的基石。

李志宇提出了一个颠覆性的愿景:“影象市。∕emory Store)”:在持久交互中 ,一个 Agent 吸收了大量专业领域的思辨逻辑和专家经验 ,这些被参数化、结构化的影象包 ,自身就是极具贸易价值的资产。当影象能够被脱敏、打包并上架 ,用户订阅的将不再是一个冷冰冰的通用模型 ,而是一段被内化的智慧 ,也进一步将影象从成本中心彻底转变为价值中心。

闫宇坤则补充了“智能自演化”的概想。本地模型由于占有私罕见据和持续交互 ,会自觉进杏装蒸馏”和“对齐” ,这种“越用越聪明、越用越便宜”的成长性 ,是云端通用模型无法提供的主题护城河。

迈向“智能体力资源治理”时期

2026 年已近三分之一 ,Token 焦虑的破局点已经爽朗:破局的关键不在于期待大模型单价的降落 ,而在于系统工程的全面优化。

将来的社会将进入“智能体力资源治理”的时期。就像我们要对人力资源进行合理配置一样 ,将来我们也必要凭据工作的难度、隐衷等级和成本敏感度 ,在散布式节点中合理分配智能资源。

当 Agent 不再是昂贵的尝试品 ,而是像水和电一样四处可得、成本可控的基础设施时 ,真正的 AI 时期才算真正来临。

以下是这次圆桌会商的杰出分享 ,AI 科技评论进行了不改原意的编纂整顿:

Token 焦虑的本原:AI Agent落地的生死线

岑峰:各位嘉宾、伴侣 ,晚上好S硬斡胗衫追逋靼斓 GAIR Live 线上圆桌。

今年以来 ,AI Agent 领域经历了一场大起大落。从岁首OpenClaw(俗称“龙虾”)引爆开发者社区 ,到近期监管层面关注智能体的数据安全 ,市场感情在狂扰纂焦虑间反复。固然智能体在挪用工具、处置复杂事务上的效能令人惊叹 ,但随之而来的高昂API 账单却成为其从“尝试室玩具”走向“出产力工具”的最大阻碍。

究其原因 ,智能体为了维持对话的连贯性与个性化 ,往往必要反复加载数以万计的高低文 Token。这种低效的“影象”方式导致了严重的“Token焦虑”。今天我们想深挖一个性质命题:这些烧掉的资源到底是模型推理的硬性支出 ,还是系统基建效能低下的隐形成本 ?在安全、成本与智能这三者组成的“不成能三角”中 ,我们是否只能三选二 ?

为此 ,我们约请了两位拥有代表性的专家 ,从端云协同与影象治理两个视角 ,共同拆解这一难题。

接下来 ,有请两位专家单一介绍自己的有关工作 ,以及对Token焦虑和技术破局的理解。

闫宇坤:感激岑教员。在深刻探求之前 ,我们必要审视大模型状态的演进:我们正从单纯的“对话式模型”转向“专业智能体系统” ,即从单一的互换转向特定的工作执行。

OpenClaw 及类似产品的出现 ,标志取“智能体操作系统”的诞生。它们实现了从单一工作执行向矫捷能力定造的逾越。然而 ,目前的 OpenClaw固然展示了机械人节造、生物尝试等炫酷场景 ,其性质仍依赖于人为定造的Skill。它目前的处境就像汽车刚发现时的样子——虽不豪华且故障频发 ,但它预示着一个新时期的到来。要让智能体真正遍及 ,必须解决三个主题痛点:安全保险、使用成本与工作复杂度。

以 OpenClaw 为例 ,如开发者 API Key 泄露隐衷安全问题频出 ,且运行成本极高。有时一句单一的“你好”可能由于反复加载布景信息而亏损五六万Token ,此表 ,目前无数智能体仅能处置单一工作 ,尚无法实现跨领域的复杂合作。

针对这些问题 , EdgeClaw选取了端云协同范式。我们将这种模式戏称为“安全高效并行龙虾养殖技术”。

在k8凯发天生赢家架构中 ,端侧模型被界说为“幼我助理”的“秘书”角色 ,它不必要极强的逻辑推理能力 ,但必须深度理解用户行为和偏好。端侧是用户的安全下限 ,掌管隐衷隔离;云侧则是“行业专家” ,掌管机能上限。它部署千亿级参数模型和专业工具 ,但与用户隐衷物理隔离。

这就好比家庭医生与专科医生的合作:幼病幼痛由端侧医生直接开药解决;遇到疑难杂症 ,端侧医生掌管整顿病历、剔除敏感信息 ,再一次性提交给云侧专家。这种方式既保障了隐衷 ,又通过削减冗余交互降低了Token 成本。

另表 ,EdgeClaw 引入了主题的“模型路由”机造 ,凭据工作的隐衷敏感度进行分级处置 ,界说数据安全天堑:

S1 级(公共级): 无任何隐衷风险。如进行公开信息调研 ,工作直接由云端模型执行。

S2 级(脱敏级): 涉及部门隐衷。如代码审查工作中蕴含 API Key ,吓咨端侧模型鉴别并隐去敏感字段 ,再将脱敏后的数据发往云端。

S3 级(本地级): 高度敏感工作。隐衷信息自身即是工作主题 ,脱敏后无法执行 ,此类工作强造在端侧本地运行。

除了安全分级 ,我们还引入了“项目影象”机造。分歧于传统的功夫轴影象 ,它按项目聚合信息 ,有效预防多工作并行的影象混合。此表 ,系统内置“性价比路由” ,凭据分歧模型的Token 单价和工作难度 ,自动匹配最优执行蹊径。实测显示 ,在图文内容创作等场景下 ,EdgeClaw 可将综合成本降低约 80%。

李志宇:刚才宇坤谈到了架构上的分流 ,我从“影象治理」剽一系统视角来回应。MemTensor 的主题逻辑是以认知能力驱动第一性道理建模。

回首 AI 交互的发展:2024 岁首 ,用户重要在做 Prompt Engineering ,通过调优提醒词引发模型预训练能力 ,但模型往往“回头就忘” ,新开窗口即迷失所有个性化设定。随后 ,随着模型支持 128K甚至 1M 的超长高低文 ,行业进入了 Context Engineering阶段。然而 ,暴力堆砌高低文会导致成本呈指数级爆炸 ,这就是“龙虾」剽类利用最初被诟病烧钱的原因。

我们提倡并推动 Memory Engineering(影象工程)。它不是单一地增长窗口长度 ,而是对状态进行全链路治理 ,让智能体不仅能“记住” ,还能在交互钟装进建” ,实现越用越聪明。

我们将影象治理拆解为:抽取、组织、检索、更新、共享五个步骤。在现实业务流中 ,影象的抽取和更新最容易产生幻觉 ,例如模型谬误归档用户信息。为相识决这些问题 ,MemOS提出了业界首个三层分层影象模型:

第一层:明文影象(Textual Memory)。 写入速度最快 ,但读取效能低。在跨场景挪用时 ,大规模文本的反复加载成本极高。目前好多 API 厂商提供的“缓存射中优惠”性质上就是在优化这一层。

第二层:参数化影象(Parametric Memory)。 通过模型训练将知识内化进权重。读取极快 ,能随主链路激活 ,但写入(训练)价值高昂 ,无法满足实时更新需要。

第三层:激活影象(Activation Memory)。 介于两者之间。通过对推算过程中的中央态进行治理 ,能够极大提高首字延长和 Token 补全效能。

MemOS 目前在云服务端的月挪用量已突破 3500万次 ,开源社区关注度极高。k8凯发天生赢家贸易逻辑分为四个层级:

按 API 挪用收费: 为云端 Agent 提供影象加强服务。

按设备授权收费: 与手机、硬件厂商合作 ,部署本地化影象模型。

按 Token 优化分成: 通过 KV Cache 治理和浅层优化直接降低客户的 Token 账单 ,从节俭的成本中获利。

云算力协同: 与 GPU 云厂商合作 ,优化底层存储与推算效能。

我们以为 ,影象治理绝非调调 Prompt 那么单一。它是一场涉及存算效能、模型对齐和系统调度的全方位战争。

用“物理分级”与“影象工程”击穿成本黑洞

岑峰:感激两位的分享。针对 Token 焦虑 ,两位出现了分歧的解题蹊径。EdgeClaw 是从架构重构动手 ,通过“端云协同”和“物理分级”从源头上堵截无效 Token的亏损;MemOS 则是从系统优化切入 ,在寂仔架构下通过“影象分层”和“智能调度」廿取极限效能。

接下来回到用户视角 ,Token焦虑最主题的痛点到底是什么 ?是单次对话的昂贵感 ,还是账单的不成预测性 ?

闫宇坤:用户焦虑的本原的确涵盖了这些方面。目前最敏感的问题在于通明度的缺失。大无数用户能够接受为价值付费 ,但无法接受算力成本的无端损耗。好比用户仅仅输入一句单一的问候 ,系统可能由于反复加载布景信息或挪用了不用要的复杂模型 ,瞬间亏损数万Token。因而 ,我们必须从架构层面成立美满的亏损统计与日志系统 ,首先让用户“钱花得领略”。

在成立通明度的基础上 ,我们必要解决“性价比偏好”的对齐问题。性价比自身是一个极具主观色彩的概想:某些工作交给端侧微型模型处置只需几分钱 ,而交给顶级云端模型可能耗资数百倍。我们但愿赋予Agent 遵循用户价值观的能力。若是用户偏差于极致节俭 ,Agent 应该学会若何在保障根基工作实现的前提下 ,优先使用端侧资源。

此表 ,我们还在索求一种动态演化的蹊径。最初 ,Agent 解决复杂工作可能必要频仍向云端专家“求助” ,产生较高的 Token成本。但随着交互的深刻 ,系统会自动纪录云端的执行经验与思想模式 ,并逐步将其蒸馏、迁徙至端侧模型。这意味着随着使用功夫的增长 ,端侧模型的成功率会不休提升 ,整体成本随之出现出持续降落的曲线。这种“越用越便宜”的成长性 ,才是缓解用户长效焦虑的关键。

岑峰:宇坤提到简直定性诉求极度关键。但在工程现实中 ,像“分析五年来的邮件并天生洞察汇报」剽样的复杂的工作往往会逾越分歧敏感等级的数据。这种精密化的分级路由 ,是否会由于判断逻辑过于复杂而增长系统职守 ,反而抬高了整体工程成本 ?EdgeClaw又是若何精准界说本地处置与云端合作的天堑 ?

闫宇坤:频仍的路由判断的确是一把双刃剑。在最初的设计中 ,我们曾尝试在每次模型挪用时都进行一次隐衷和性价比检测 ,但这直接导致了显著的感知延长和推算冗余。更严重的是 ,云端服务通常具备高低文缓存复用机造 ,频仍的路由切换若是打乱了这种陆续性 ,反而会导致 Token 成本上升。

为了平衡这一矛盾 ,我们在工程上采取了“分段判断”的战术。我们不再对整个宏观工作进行一次性判断 ,也不再对每一次原子化的 API 挪用进行过问 ,而是将判断逻辑锚定在Agent 与 Sub-agent的交互节点上。这种中等颗粒度的节造 ,既能保障隐衷和谈不会在复杂链路中失效 ,又将判断频率降到了系统可接受的领域内 ,有效缓解了延长。我们在“幼红书内容创作”场景下的实测数据证明 ,这种战术在维持产出质量的前提下 ,能将正本 10美元以上的工作成本大幅压缩至 2 美元左右。

至于若何界说本地与云端的天堑 ,这是一个典型的个性化命题。EdgeClaw 提供了一套蕴含 Prompt描述和工作标签的默认配置。系统会初步判断一个工作是属于逻辑通俗的“推理型”还是流程单一的“执行型”。同时 ,我们支持用户染指批改这些判断规定。更前沿的一点是 ,我们在引入“路由自演化”机造 ,通过网络用户对工作了局的反馈 ,让路由器自觉进建并对齐用户的性价比偏差。这种逻辑与目前的技术自演化异曲同工 ,最终让模型可能通过进建 ,自主鉴别哪些工作该留在本地 ,哪些必须上云。

岑峰:宇坤给出了空间维度的答案 ,此刻我们将视角转回功夫的维度。志宇 ,您提到影象机造对节俭 Token 至关重要。但我但愿明确一个认知:这些Token 是在影象“存储”环节俭下的 ,还是在影象“检索”环节俭下的 ?换言之 ,在 Agent 的成本账单里 ,到底是“记住”更烧钱 ,还是“回顾”更烧钱 ?

李志宇:这是一个直击性质的问题。若是将 Agent影象的五个关环(抽取、组织、检索、更新、共享)进行成本拆解 ,我的结论极度明确:回顾或者说检索与加载才是真正的高频算力黑洞。

“记住”的过程重要发生在写入阶段 ,涉及影象的抽取、总结与结构化处置。固然这个过程必要模型去判断是否去重、是否进行参数化转化 ,但它相对低频 ,通常是一次性投入。只有没有发生大规模的信息更新 ,一条信息一旦入库 ,其存储成本是恒定的。

相比之下 ,“回顾”是每一次推理行为的必经之路。若是没有高效的影象系统 ,Agent会阐发得极度“暴力”:哪怕用户提出一个“你好」剽样的单一问题 ,系统为了维持个性化 ,可能会从后盾检索出数个重大的Markdown 文档或长达上万字的对话提要 ,一股脑地塞进 Prompt。这种高频、海量的反复加载 ,是导致账单爆炸的主因。

因而 ,MemOS系统的优化主题在于提升“写入质量”以反哺“检索效能”。我们致力于将冗长的汗青对话转化为更紧凑、可复用的影象片段。这好比做菜 ,若是在筹备阶段(写入)能把菜择得干净、切得尺度 ,那么在炒菜(推理)时 ,不仅速度快 ,还能最大限度预防废料产生的无效热量。总结来说 ,固然烧钱的行为发生在后期的回顾阶段 ,但解决问题的源头必须回到写入阶段的精密化建模上。

岑峰:提到“精密化建模” ,MemOS 将长时影象切分为片段并进行选择性加载。但在现实利用中 ,“必要影象”的界限极度吞吐。若是 Agent由于钻营节俭而漏掉了关键信息 ,导致用户不得不进行多轮澄清 ,省下的 Token会不会被增长的对话轮次所抵消 ?这种系统优化的天花板在哪里 ?

李志宇:这的确是所有开发者最不安的问题。在影象系统中 ,我们遵循“Garbage in, Garbage out”的准则。所谓的“必要影象” ,既不是压缩比例越高越好 ,也不是保留原文越多越好。

若是压缩过狠 ,好比将其齐全转化为高度抽象的知识图谱 ,固然节俭了空间 ,但会迷失大量的逻辑高低文 ,对模型的推理能力要求极高。若是采取“懈怠影象”模式 ,仅做单一的文本切片 ,固然处置速度快 ,但片段之间不足语义和版本的关联 ,召回时往往碎片化 ,难以支持复杂的长程决策。

我们界说的“必要影象”是一种“最幼自蕴含状态”。举个例子:用户说“请助我预约星期五在老处所的团圆”。传统的系统可能直接把这句话存下来 ,但当 Agent以来回顾起这条信息时 ,它会对“老处所”感应猜疑。

在 MemOS的逻辑中 ,系统在抽取时若是发现信息不完整 ,会触发“期待”或“溯源”机造:要么从汗青库中找寻“老处所”的界说 ,要么期待下一轮对话补全信息后再进行存储。我们钻营的是在抽取阶段就将检索、推理与工作规划融合在一路。近期我们开源的MemReader模型就在尝试这种“Agentic 抽取”模式:让模型自动鉴别当前信息的完整性 ,确保每一个存入的片段都是最幼且逻辑关环的。

实测显示 ,通过这种“预判式”的存储 ,我们能够用更少的影象片段实现一致甚至更高精度的回覆。原来可能必要召回 10K 的高低文 ,此刻只需 6K左右的“自蕴含片段”就能解决问题。这种精准调度的能力 ,决定了系统优化的天花板 ,它不仅削减了无效的回顾 ,更从底子上躲避了因信息缺失导致的行为反弹。

范式之变:端侧算力的“极限压榨”与跨平台影象资产化

岑峰:总结这一轮的会商 ,我们达成了两个关键共识:Token 焦虑的性质是系统行为的不成预测性 ,端云协同通过物理分级重新构建了这种确定性;而 Token亏损的大头在于高频的回顾环节 ,系统优化通过精准切分 ,削减冗余信息的无效加载。

我们进一步会商技术问题 ,我们把稳到 EdgeClaw的路线图高度强调本地模型的作用。目前端侧算力与模型能力正呈指数级增长 ,那么将来是否会出现一种可能 ,当本地模型足够壮大时 ,云端模型将失去其逻辑中枢的职位 ,退化为仅掌管联网检索的辅助插件 ?

闫宇坤:关于本地模型的天堑问题 ,我们必要从硬件与算法两个维度动态观察。固然我幼我对本地能力的全面发作持乐观态度 ,以为越来越多的复杂工作将回归端侧 ,但在可预感的阶段内 ,云端模型依然维持着机能上限的优势。

本地模型的深远意思在于 ,它正从单纯的隐衷“防火墙”进化为智能体的“个性化演化中心”。当智能体真正作为出产力工具进入专业领域时 ,会产生大量无法上云的极细分、极专业的垂直工作。云端大模型受限于贸易成本与通用性尺度 ,很难为每一个用户提供定造化的微调服务。

而本地硬件的成熟 ,为智能体的“自演化”埋下了伏笔。将来一两年内 ,随着火速微和谐在线进建技术的落地 ,本地模型能够在与用户的持续交互中 ,实时吸收行业 Know-how和幼我偏好。这种基于本地专用硬件、模型与垂直数据的关环 ,将构建出比云端更具深度的专业技术。

此表 ,端云协同只是第一步 ,将来的前进方向是“多节点协同”。分歧的本地模型可能具备分歧的专业能力 ,通过端与端、节点与节点之间的合作 ,能够实现比单一云端中枢更高效的工作分发。总结来说 ,云端将愈发趋向于通用智能的输出 ,而本地侧则掌管专业化与个性化的深度沉淀。

岑峰:宇坤描述的端云分工极具远景 ,但这也引发了另一个疑虑:对于幼我用户或幼微企业而言 ,采办高机能端侧硬件自身就是一笔不菲的“隐性成本”。EdgeClaw若何平衡硬件投入与 Token 节俭之间的财政账本 ?

闫宇坤:硬件门槛的确是一个客观存在的成本。以目前主流的英伟达端侧推算卡(如 如DGX spark)为例 ,初始采购成本约为 3万人民币。对比来看 ,若是高频挪用云端千亿级参数模型的API ,在陆续运行三到四个月后 ,其累计亏损的 Token 用度便足以覆盖这台硬件的成本。

但我们必要转换思虑视角:云端 API是持续流出的“改观成本” ,而本地硬件是可折旧的“固定资产”。更深层的逻辑在于对存量价值的挖掘。目前很多企业内部其实存在大量闲置算力 ,EdgeClaw的初衷并非强婆酌户增购硬件 ,而是通过端云协同框架 ,将这些已有的资源转化为出产力。

这种模式扭转了用户的消费神理。在使用纯云端利用(如 OpenClaw 早期版本)时 ,用户往往由于高昂的 Token用度而阐发得畏手畏脚 ,这现实上抑造了智能体的创新使用。一旦工作迁徙至本地 ,边际成本趋近于零 ,用户会被激励着将硬件机能压榨至极限。

为了进一步降低准入门槛 ,EdgeClaw 在通过自动化调度支持“肆意组合”。用户既能够利用现有笔记本显卡搭配云端便宜的API ,也能够在企业内网部署幼型服务器集群。通过与算力平台的对接 ,我们致力于让本地模型的启动与守护变得像挪用云端接口一样单一 ,让这种“重组成本”在系统演化中被最大水平摊薄。

岑峰:系统重构必要周期 ,而系统优化则提供了即时的价值窗口。志宇 ,MemOS将操作系统治理内存的逻辑引入影象治理。但操作系统面对的是确定性的物理地址空间 ,而AI 影象面对的是高度抽象的语义空间。在 MemOS 中 ,界说影象“冷热”的尺度到底是什么 ?

李志宇:操作系统的寻址逻辑的确无法直接照搬 ,但在设计理想上 ,我们引入了“利用概率与频率”作为语义空间的判定准则。

在 MemOS系统中 ,影象的冷热判断不是单一地按功夫倒序分列。固然“功夫衰减”是一个关键权重 ,但我们更看重三个主题指标:接见频率、工作有关性以及状态一连性。我们会评估某笔影象若是被“忘却”(即未被召回) ,是否会对用户当前的决策产生不成逆的影响。

举个例子 ,用户在三个月前设定了一个持久财政指标 ,随后一向未提及。从功夫轴上看 ,这段影象已经进入了“极冷区”。但当用户今天忽然问起“助我凭据之前的规划做一下报表”时 ,系统会在第一个Query进入时鉴别出该工作与那个旧指标的强语义关联 ,从而瞬间预热并激活三个月前的所有有关片段。这种“冷影象”的瞬时唤醒 ,是基于当前运行的“价值状态”而非单纯的物理周期。

这种设计性质上是在解决存算成本的平衡。鉴于目前GPU显存的昂贵 ,我们不成能将海量汗青信息全数常驻显存。我们必须通过模型预测 ,将或许率不再被必要的影象下放到“冷备存储”。

这里存在的 Trade-off 是:一旦预测失败 ,从冷备区找回影象会带来额表的首字延长和算力开销。因而 ,MemOS主题竞争力的体现 ,就在于若何通过更精准的语义路由 ,降低这种唤醒成本 ,确保系统在激活与冷备之间实现动态平衡 ,而不是僵化地进杏装一刀怯妆。

岑峰:既然影象调度涉及额表的预测与推算 ,那么在工程实战中 ,调度行为自身亏损的算力 ,与它所节俭的 Token 成本之间 ,是否存在一个平衡点 ?MemOS在分歧场景下的优化阐发若何 ?

李志宇:调度的经济学的确是 MemOS框架中最重要的 ?。若是调度的开销过大 ,系统就会陷入“空转”的陷阱。k8凯发天生赢家破局思路是“大幼模型分治”。

我们不再依赖像 GPT-4o这样昂贵的通用大模型来执行影象治理工作。相反 ,我们训练了一系列面向影象领域的“专有微型模型” ,专门掌管影象抽取、价值判定、版本更新和重排(Rerank)。这些模型规模极幼 ,但对影象逻辑的理解极深。通过这种方式 ,我们用极低成本的推算 ,代替了正本必要亏损高价值Token 能力实现的高低文筛选工作 ,从而大幅压低了总成本。

此表 ,我们从系统层到硬件层进行了结合优化。通过预填充(Prefill)与解码(Decode)分离的机造 ,以及对闲时算力的负载平衡 ,我们确保了推理链条的低时延 ,同时保障算力资源没有被浪费。

从现实场景的颠簸来看 ,优化收益与工作的复杂度和长程性呈正有关。

- 低频短会话: 对于仅有几百 Token 的短平快交互 ,由于高低文自身极短 ,单一拼接进 Prompt 的效能最高 ,此时影象调度的收益并不显著。

- 长程复杂工作: 当 Agent 必要运行一幼时甚至更久来解决某个专业问题时 ,影象治理的作用会被显著放大。精准的调度能将正本必要召回的 10K高低文压缩至 6K 的主题自蕴含片段 ,这种 Token 节约的收益是指数级的。

岑峰:MemOS 聚焦于长对话场景下的优化 ,而 EdgeClaw则更激进地提倡将高频工作搬到本地。这种“系统优化”与“架构重构”的关系 ,到底是竞争敌手还是互补同伴 ?

闫宇坤:我极度有信念以为它们是互补关系。从技术性质上讲 ,架构重构与系统优化是相互正交的。EdgeClaw 的路由机造齐全能够与 MemOS的影象调度逻辑无缝结合。

此刻开发模式在发生巨变。以往跨系统的集成可能必要数周的沟通与开发 ,但在如今 Web Coding 与 AI辅助天生的加持下 ,我们能够急剧构建原型并进行试错。将MemOS 的分层影象个性接入 EdgeClaw 的路由节点 ,可能只必要两三天的调优周期。这种低难度的组合 ,让“治标”与“治本”能够并行不悖。

李志宇:我齐全赞成。若是将端云协同视为智能体的物理存在状态 ,那么影象操作系统就是智能体的“状态中枢”。

无论在端侧还是云侧运行 ,Agent都绕不开“状态持续性”的命题。端侧善于实时交互与隐衷处置 ,云侧善于跨工作整合与大规模推算。但在将来 ,用户会占有手机、车机、电脑等多个端。若何保障用户在手机上聊到一半的工作 ,能在车机上无缝一连 ?这必要一套逾越物理节点的“持久状态层”来治理。

端和云解决的是“推算哪里最快、最省”的问题 ,而影象操作系统解决的是“状态若何无缝迁徙、若何持续演化”的问题。即便将来端侧算力无限大 ,我们依然必要一个逻辑层来治理分歧设备间的认知一致性。因而 ,端云是一种算力协同方式 ,而影象治理是状态协同方式 ,二者共同组成了将来智能体可能 7×24幼时无缝存在的底座。

瞻望将来:当“投入产出比”战胜“参数崇拜”

岑峰:感两位教员不仅达成了技术上的共识 ,更揭示了智能体从“工具”向“数字性命”演化的必经之路:算力的归算力 ,状态的归状态 ,最终通过精准的调度实现效能与智能的共振。我们将持续深刻:当安全与成本达成妥协 ,智能的上限又该若何突破 ?

随着架构优先和渐进演化两条路线的日益清澈 ,影象正从单纯的成本中心转向价值中心。在端云协同的愿景中 ,敏感高频工作本地化 ,复杂推理上云端。那么 ,端与云的算力配比将若何演化 ?到 2027年 ,本地模型预期能覆盖多大比例的工作 ?这种预测是基于摩尔定律的惯性 ,还是模型蒸馏等技术的得救 ?

闫宇坤:关于端云算力的配比 ,能够从短期与持久两个维度审视。短期内 ,云端由于基础设施成熟、算力节点密集 ,依然占据主导职位。目前端侧算力的多样化水平极高 ,尚未出现可能广谱适配所有硬件的通用模型。但随着用户回归理性 ,不再盲目钻营全量上云 ,云端算力会趋于鼓和 ,端侧占比将随着模型能力的提升而稳步增长。

从持久来看 ,到 2027 年左右 ,本地模型能覆盖的工作比例可能不再是一个单一的百分比问题。k8凯发天生赢家愿景是实现一种“始终在线”的端侧模式。这意味着端侧算力将不再是被动期待指令的工作执行者 ,而是被“拉满”的自动合作方。

举例来说 ,目前的模式是用户要求 Agent 明天筹备一份汇报素材 ,Agent 网络完资料便处于静默状态 ,直到提醒用户。而在“始终在线”的架构下 ,Agent接管工作后 ,会在截止日期前的所有闲置功夫里 ,自觉地进行深度调延注素材优化和内容润色。即就是一个必要 20 分钟实现的PPT ,它会在后盾持续寻找更精准的论据和更优的表白。这种模式对端侧算力提出了极限挑战 ,它不仅依赖于模型蒸馏等降准技术 ,更依赖于工作流和影象机造的底层重构。我们有信念到 2027年 ,这种自动寻找工作、利用渣滓算力创造价值的架构可能真正落地。

岑峰:宇坤描述了端侧优先的延长 ,而 MemOS则更偏差于成为跨平台的影象中枢。当影象成为智能体的主题资产 ,平台的贸易模式会发生怎么的转变 ?影象的所有权与定价权又该若何界定 ?

李志宇:影象产业的演进与早期云推算极度类似。在第一阶段 ,我们将其视为一种“能力收费”模式(Memory as a Service)。此时重要解决的是让Agent 从“无影象”变为“有影象” ,通过 API 挪用量、存储空间或包月套餐来变现 ,这性质上是一种工具型收费。

到了第二阶段 ,影象将演进为“基础设施层”或“持久状态中枢”。平台不仅提供存储和检索 ,更掌管跨端、跨 Agent的状态治理。在企业组织内部 ,这涉及影象的权限隔离、版本回滚、性命周期治理及安全审计。此时 ,用户订阅的是一套跨系统的协同机造 ,而非单一的API。

第三阶段则是“生态与价值变现”阶段。当平台上堆集了足够多的用户影象 ,它将类似于“数字账号登录”一样的存在。若是一个新利用想要提供极致的个性化服务 ,就必须接入这套影象系统。

在所有权方面 ,我们从设计之初就明确 ,影象的所有权绝对属于用户或企业。平台提供的是治理和加工服务 ,而非占有资产。但我们要为用户启发“影象变现”的渠路。好比一位资深律师 ,其Agent 在持久的交互中吸收了大量的司法思辨逻辑和专家经验 ,这个 Agent 形成的参数化与激活影象包就具备了极高的贸易价值。我们打算打造“Memory Store” ,允许用户将这种高价值影象包上架 ,其他用户能够通过订阅来加载这些特定领域的“智慧” ,实现真正意思上的数字分身贸易化 ,而不仅仅是单一的角色表演。

岑峰:2026 年已近三分之一 ,请两位预测一下 ,到今年年底 ,Token焦虑的破局点会是什么 ?是杀手级利用的出现 ,还是端侧算法的发作 ,亦或是贸易模式的彻底创新 ?

闫宇坤:我更偏差于以为破局点在于“使用模式的突破”。目前国内固然存在“养龙虾”的热潮 ,但整体使用方式依然比力粗放。用户往往不明显 Agent到底能解决什么问题 ,也不知路其性价比天堑在哪里。

我们必要一个“杀手级”的模式来教育市场。这种模式能直观地通知用户 ,Agent 在什么时辰是出产力工具 ,在什么时辰提供的是感情价值。当钱花在哪里、Token亏损产生几多回报被梳理明显后 ,焦虑天然会隐没。焦虑的本原不是亏损多 ,而是产出与支出的不合等。

李志宇:破局的关键在于“了局密度”。Token 焦虑表表看是账单问题 ,性质上是用户对价值感知的缺失。若是你花了几块钱 Token却换来一份让你击节称赏的汇报 ,你下次会绝不犹豫地付费;但若是换来的是一堆毫无意思的幻觉 ,一分钱城市感触贵。

从技术侧看 ,破局点在于“流量分流”的成熟。目前大无数用户和 Agent厂商并不具备精准的成本治理能力 ,导致高价值模型被浪费在廉价值工作上。若是有一套成熟的路由规划 ,能把幼工作导向端侧模型 ,把长程工作导向缓存复用蹊径 ,账单天然会变得优雅。将来的产品状态可能会演变为:用户颁布一条指令 ,多个Agent 竞标给出了局 ,用户只为那个认可的了局付费。这种模式会将 Token压力的焦虑从用户侧转嫁给厂商。厂商若是不能提供更优的效力比 ,就会在市场中失去竞争力。

岑峰:Token 焦虑和影象成本的矛盾不仅存在于智能体领域 ,在自动驾驶、游戏 NPC、金融风控等场景同样存在。你们的解法是否拥有跨领域的通用性 ?

李志宇:所有的焦虑都能够拆解为“投入产出比”。在游戏领域 ,我们通过影象机造能让 NPC具备更持久的脾气连贯性 ,显著提升了用户的在线时长和交互意图。倒剽种业务层面的回报变得可衡量时 ,影象治理的成本就不再是职守。这种逻辑在金融风控对长周期行为的追踪上同样合用。

闫宇坤:我有一个稍微“暴论”的概想:将来社会将进入“智能体力资源治理”的时期。从前我们钻研人力资源的合理分配 ,将来我们必要钻研若何凭据工作难度、隐衷等级和成本敏感度 ,在散布式节点中合理分配智能资源。无论是哪个领域 ,只有涉及到智能的挪用 ,都存在对通解的需要。我们但愿提出的这套架构能成为这种资源分配的底层尺度。

岑峰:感激两位。今天的会商极度深刻。EdgeClaw 的端云协同试图从源头堵截 Token 损耗的“血脉”;而 MemOS的影象调度则在现有架构内榨取每一分效能。

短期看 ,系统优化能让用户少烧钱;持久看 ,系统重构将让 Token焦虑成为汗青名词。正如两位嘉宾所言 ,影象在从成本中心演变为价值中心。将来的主题命题将不再是“这项工作要花几多钱” ,而是“这段影象能带来什么”。这或许才是真正意思上的范式转移。感激宇坤 ,感激志宇 ,也感激所有在线听多的参加。本场直播到此实现 ,感激各人。

YouTube:https://youtu.be/aoRUaH_GNqQ

@陈秀娟:黄色视频h ,雷霆记者晒卡斯尔推飞杰伦威视频
@林柏洁:特朗普谈中国行:巨大成功 极度杰出
@陈雅舜:中国驶来邮轮激增李在明告诫别宰客

热点排行

【网站地图】