唐杰的上联,姚顺雨的下联
agent在变得越来越能干,但它还有一个很狼狈的问题,那就是干着干着,就忘了自己要干什么了。
长工作、跨会话、陆续执行,这些简直是agent的发展方向,可前提是它必须有一套靠得住的影象系统。不然,再强的模型也只能在一次次对话里反复“重新意识世界”。
腾讯最近开源的AgentDB,对准的正是这个问题。
这一个是专门用来解决影象问题的独立组件,一共只有几MB的大幼,下载到电脑以来,在OpenClaw或者Hermes Agent里输入一个指令,AgentDB就装置实现了。
就是这么一个“幼玩意”,在颁布的同时,腾讯专门为其开设了独立的X账号( @TencentDBAbxo2),并由团队亲自由社交媒体上与开发者互动。
固然腾讯分歧业务都有X账号,好比混元、腾讯云等等,但这是腾讯第一次为一个开源工具单独开X账号,可见腾讯对这个开源项主张器重水平。
那就别说此外了,直接进入主题吧!
AgentDB解决了什么问题?
对于模型影象这个问题,Codex和OpenClaw曾尝试用压缩的方式解决,把冗长的汗青对话压缩成一幼段提要,但这种做法会不成逆地损失影象的细节。
当Agent必要回溯某个具体决策的凭据时,那些被压缩掉的信息就始终找不回来了。
这就是传统影象系统的近况。要么把所有汗青对话无脑塞进高低文窗口,导致token亏损爆炸,成本直线上升。要么用总结压缩汗青,固然省了token,但细节永约失,Agent在必要考证时只能靠吞吐的印象瞎猜。
这两种规划都不够优雅,也都不够实用。
AgentDB性质上是一个分层渐进式的Agent影象管路系统。它选取“符号化短期影象+分层持久影象”的双轨架构,试图在token效能和信息齐全性之间找到平衡点。
这套系统的设计理想蕴含三个维度。
第一个维度,回绝暴力堆积,也拒绝不成逆压缩。
AgentDB设计了L0到L3四层影象金字塔。L0是原始对话,齐全保留每一轮交互的原始纪录。L1是提取的原子影象,由LLM自动从对话中提取结构化事实、用户偏好、工作约束和中央结论。L2是场景聚合,按工作类型自动综合有关影象,形成场景块。L3是用户画像,持续提炼信息,形成不变的持久用户档案。
这种分层设计的主题价值在于“可压缩、可发展、可追忆”。
平时Agent工作时,只必要加载高层的Persona和场景块,就能把握用户偏好和工作脉络,token亏损极低。当必要考证细节时,再通过索引机造检索底层的原子影象和原始对话,齐全还原证据链。整个过程没有任何信息被不成逆地抛弃,所有压缩都是有损但可复原的。
它就像图书馆一样,把影象放在分歧的区域,好比国表文学、工具书之类。平时为了省功夫,只看目录和提要,必要细节时再去原始纪录里找,以保障不迷失信息。
这套机造的现实成效相当显著。在PersonaMem持久影象测试中,AgentDB的正确率从传统规划的48%跃升至76%。这使得Agent可能在跨会话的场景中不变地记住用户的偏好和汗青决策,而不是每次对话都像第一次碰头一样从零起头。
第二个维度,符号化影象解决长工作中的信息过载。
在复杂工作中,最亏损token的往往不是对话自身,而是那些冗长的中央日志。
搜索了局可能有几千字,代码片段可能有上百行,谬误仓库可能占满整个屏幕。若是把这些内容全数塞进高低文,token很快就会爆表。
AgentDB的做法是将这些冗长内容offload到表部文件系统,同时用Mermaid图谱提取其中的关系结构。注入到Agent高低文中的只是轻量级的符号化暗示,好比一个工作节点的ID、一段代码的提要、一个搜索了局的关键词。
当Agent必要回溯细节时,通过node_id精准召回原始文本。这种设计让高低文从“数十万token的日志堆”压缩为“几百token的关系图谱”。
也就是说,AgentDB把大段大段的日志、代码、搜索了局存到名义,只在AI的“工作台”上放一个索引编号和关键词提要。必要时再凭据编号去调取原文。
在WideSearch工作中,这套机造的成效尤其显著。token使用量降低了61.38%,而工作成功率反而提升了51.52%。
这个反直觉的了局揭示了一个重要事实,更多的高低文并不总是意味着更好的阐发。当无关信息稀释了把稳力时,Agent反而会迷失在信息的海洋中,做出谬误的决策。
符号化影象通过结构化的方式出现信息,让Agent可能清澈地看到工作的全貌和执行蹊径,从而做出更正确的判断。
第三个维度,全本地化、零表部依赖。
AgentDB默认使用SQLite加sqlite-vec作为后端,无需衔接任何表部API或云服务。这对企业场景至关重要。影象数据往往蕴含敏感的业务逻辑、用户偏好和项目细节,全本地化意味着数据主权齐全把握在用户手中。
大无数影象系统都依赖云端向量数据库或第三方embedding服务,数据必须上传到表部服务器能力使用。
尤其是对于金融、医疗、政务这些行衣反说,这种依赖是有问题的,所以这类公司往往都是私有云,把数据存在本地里,但本地的服务器又跑不动大模型。
AgentDB的全本地化规划解决的正是这个问题。
从技术实现来看,AgentDB的四层影象管线是齐全自动化的。
对话起头时,系统自动通过向量检索或混合搜索召回有关影象,加载用户画像,注入到系统高低文中。对话实现后,系统自动录造对话新闻,双写到IMemoryStore和JSONL文件。
当累积到肯定轮次后,Pipeline调度器按序触发L1、L2、L3的提取和综合流程。整个过程对用户和Agent都是通明的,不必要手动过问。
你只必要在OpenClaw或Hermes Agent中装置插件,配置好LLM接口,AgentDB就能起头工作。
所有字段都有合理的默认值,零配置即可使用。对于有特殊需要的用户,AgentDB也提供了丰硕的配置选项,能够调整每一层的触发阈值、距离功夫、提取战术等参数。
AgentDB的另一个亮点是可追忆性。压缩或抽象最大的风险是“迷失证据”,倒刭回的影象犯错时,用户只能看到一堆向量分数,无法判断问题出在哪里。
AgentDB保留了关键的中央产品作为可读文件。
每一条信息都100%可找回、可复原,无论是短期影象中被卸载的一段报错日志,还是持久影象里总结出的一条用户偏好,Agent或开发者都能够沿着“高层符号→中层索引→底层原文”的链路进行美满溯源与复原。
姚顺雨的“高低文理论」匾到了最佳实际
AgentDB这个产品,某种水平上来说,就是腾讯对姚顺雨“高低文理论”的一个落处所案。
姚顺雨此前屡次强调,AI的主题能力不在于参数规模,而在于对高低文的理解、治理和利用。
这个概想在他参与腾讯后颁布的第一个模型Hy3 preview中,得到了充分体现。
Hy3 preview这个模型最出格的处地点于,它把“杰出的高低文进建和指令遵循能力”单独拎出来,写进了主题能力清单的第一条。
当其他厂商都在卷agent能力、代码天生、多模态的时辰,Hy3把高低文能力放在了最显眼的地位。
姚顺雨参与腾讯后颁布的第一个钻研成就是CL-bench,这是一个专门用来测试模型能否从高低文中进建新知识并正确利用的基准。
在Hy3 preview的机能展示中,第一张图放的不是SWE-Bench Pro或者Terminal-Bench 2.0这种agent和代码榜单,而是AdvancedIF、AA-LCR,以及CL-bench这些看高低文推理、检索和指令遵循的榜单。
腾讯以为高低文治理能力,才是AI下一阶段赛路。
其实市面上有不少模型厂商城市在宣传时城市强调自己支持多长的高低文,蕴含OpenAI和Anthropic,从一路头的32K到128K,再到1M甚至微软已经提到过的10M高低文。
但你真正用的时辰就会发现,高低文越长,模型的阐发往往越差。
信息密度被稀释,把稳力被分散,模型在海量的无关信息中迷失方向,反而做出更多谬误的决策。
姚顺雨团队的消融尝试验证了这个概想,无关信息会稀释了把稳力。这也是AgentDB的分层设计想要去解决的问题。
腾讯为AgentDB专门开设X账号,并由团队成员自动提议AMA,这在腾讯的开源项目中并不常见。这种高调姿势背后,是腾讯但愿将AgentDB打造成“高低文治理”领域标杆的野心。
然而AgentDB目前在实战这块并没有很抢眼的阐发,腾讯必要给AgentDB“带货”。
AgentDB的价值必要通过具体场景能力被感知。
好比,腾讯能够拿出混元模型,结合AgentDB构建一个“陆续工作30天不迷失高低文的代码审查Agent”,或者“记住用户所有偏好的个性化内容推荐Agent”。
只有当开发者看到“某个模型+AgentDB”产生的化学反映,各人才会去用它。
唐杰的“上联”,姚顺雨的“下联”
就在AgentDB颁布前夕,智谱首创人唐杰深夜颁布了一条长文反思,主题概想直指,长周期工作将是今年AI最可能的突破点。
唐杰以为,AI的真正价值不在于单轮对话的智能,而在于通过与环境持续交互,实现复杂、延展的工作。
他举了一个黑客的例子,一个能24/7不间断搜索软件缝隙的AI,性质上是在进建黑客的高阶直觉和步骤论,而非单一的搜索。
这种“长周期进建+持续执杏妆的能力,才是下一阶段AI所必要的。
而要实现长周期工作,唐杰指出了三大技术支柱,影象、持续进建、自我判断。
其中,影象被他列为“通过奇妙工程伎俩最先被解决”的能力。
这个判断和AgentDB的产品逻辑险些是重合的。
若是说唐卓越了一个“上联”,“长周期工作必要影象作为前提”,那么腾讯用AgentDB对了一个“下联”,“分层影象让长周期工作成为可能”。
Agent必要记住自己做了什么,为什么这么做,接下来该做什么。若是每执行几步就健忘之前的决策,那么长周期工作底子无法实现。
更有意思的是,唐杰还在文中提到了“自我判断”能力,固然AgentDB体积很幼,但它的架构中也允许AI进杏装自我判断”。
当Agent可能通过Mermaid图谱清澈地看到自己的工作进展、通过度层影象回溯汗青决策,它就具备了“元认知”的基础。
知路自己做了什么、为什么这么做、接下来该做什么。
这种结构化的自我认知,正是自我判断的前提。
从这个角度看,AgentDB不仅是一个影象系统,更是腾讯对“长周期工作时期”的一次技术押注。
唐杰描述了愿景,腾讯拿出了工具。
而在这场“长周期较量”中,影象系统就是Agent的燃料箱。容量决定续航,结构决定效能。
AgentDB的开源,意味着腾讯把这个燃料箱的设计图纸公开了,并且还是免费的。
智谱在长周期工作上已经有了一些初步的成就。在GLM-5.1的白皮书中提到,GLM-5.1在不必要任何人为过问的前提下,可能持续作业8幼时。
但这只是一张成就单,要真正让企业安心,还得看它在更多场景里会不会掉链子,遇到没见过的问题时能不能靠自己的伎俩解决。
长周期工作不是一个通用产品,它必要针对分歧业业、分歧场景做深度定造。
这也是AgentDB的机遇地点。
作为一个独立的影象组件,AgentDB能够和任何模型、任何Agent框架集成。智谱能够用,字节能够用,阿里也能够用。
这种盛开性让AgentDB有机遇成为长周期工作的基础设施。
而长周期工作也不是某一家公司的专利,是整个行业的共同方向。谁能率先在这个方向上获得突破,谁就能鄙人一轮竞争中占据先机。
而在这场较量中,影象治理能力将是决定性的成分之一。
腾讯把这套规划开源出来,既是一种技术自负的展示,也是一种对生态建设的投资。
若是AgentDB可能成为长周期工作的尺度影象组件,那么腾讯在这个领域的影响力就会远远超出一个开源项目自身。
文章点评
未查问到任何数据!
颁发评论
◎迎接参加会商,请在这里颁发您的见解、互换您的概想。