k8凯发天生赢家

新闻中心 新闻中心

独家|ChatGPT主题贡献者归国创业:把LLM的Scaling带到具身智能

姜旭(Roger Jiang)此前很少正

作者:李伦圣
颁布功夫:2026-06-02 16:29:12
阅读量:2

独家|ChatGPT主题贡献者归国创业:把LLM的Scaling带到具身智能

姜旭(Roger Jiang)此前很少正式对表发声。

姜旭是少数齐全参加过 OpenAI 大模型主题技术演进的华人创业者之一。2019 至 2023 年间 ,他经历了 GPT 系列能力发作最关键的阶段 ,工作横跨底层训练 infra、大规模预训练、RLHF 对齐算法与数据构建等主题链路。

他不仅是 GPT-4 技术汇报的主题贡献者之一 ,也是 InstructGPT 的重要作者之一。后者奠定了 ChatGPT 指令遵循与人类偏好对齐能力的重要基础。如今 ,他选择回到中国创业 ,并把下一次 AI Scaling 的赌注押在了物理世界。

2024 年他在丽江成立了亮源新创 (Light Origins ,lightorigins.com) ,投身具身基础模型。但公司成立至今一向维持低调 ,表界对它的相识并不多。

此刻他决定第一次齐全地把自己的思虑讲出来。

姜旭对具身智能的主题判断 ,能够概括为一句话:具身智能首先必要自己的预训练。

在他看来 ,当前行业对遥操数据和真机强化进建的器重是必要的 ,但这并不及以支持具身基础模型真正走向 scaling。真机数据更像是高价值的对齐、验证和关环迭代数据 ,而不是预训练阶段最重要的规模起源。受限于采集成本、场景覆盖和数据多样性 ,仅仅依附机械人在真实环境中的遥操和试错 ,很难获得类似大说话模型预训练所必要的数据密度和散布广度。

姜旭以为 ,具身智能真正尚未被充分解锁的 ,是互联网尺度的人类活动、空间移动和物理交互数据。就像说话模型从海量文本中进建世界知识和推理结构 ,具身模型也必要从大规模物理世界数据中进建活动先验、空间理解、物体 affordance 和交互法规;痪浠八 ,具身智能的关键问题不是“能不能再多采一些真机数据” ,而是能不能找到一套可规;木呱碓ぱ盗凡街 ,把物理世界中的行动经验转化为模型能力。

沿着这套逻辑 ,他做出了几个与主流蹊径不齐全一样的判断。

亲历过 GPT 系列从无人看好到引爆全球的全过程 ,他对这套步骤论有一种近乎笃定的信念 ,并相信具身智能会沿着大模型走过的蹊径再走一遍。他说 ,他出格享受被质疑、并最终被证明正确的那个过程。

以下是 DeepTech 和姜旭的对话。

我们已经进入了 Scaling 的阶段

DeepTech:你此刻在哪个城市?最近重要在忙什么?

姜旭:我此刻重要在丽江 ,这里算是k8凯发天生赢家大本营。同时我们在北京和新加坡也有研发团队 ,但愿可能尽量吸引分歧区域的人才。

图丨亮源新创的丽江办公室位于丽江湾后海(起源:受访者)

创业其实始终都绕不开三件事:人、钱、事。只是分歧阶段 ,重心会不一样。最起头差不多一年功夫 ,我们重要还是在解决“事”和“人”。一方面是搭团队 ,另一方面是验证整个模型训练和算法研发的蹊径 ,蕴含产品落地和模型利用的方向。

从前一年 ,我们聚焦在验证整个技术蹊径。由于对于具身智能来说 ,真正难题的是找到一条可能像大说话模型一样持续 scaling 的蹊径。从前几个月 ,我们在这件事上已经索求出了清澈的方向 ,同时主题?榇丝桃捕加辛吮攘Τ墒斓恼乒苋撕拖低。所以今年对我们来说 ,会是一个从“索求”起头进入“scaling”的阶段。

DeepTech:这是你第一次正式接受媒体采访吗?之前有媒体发过你创业的新闻 ,但你没有回应 ,我还以为你是不太喜欢和媒体打交路的人。

姜旭:算是第一次正式接受采访。之前的确有过一篇关于k8凯发天生赢家的报路 ,但那篇并不是我们自动对表讲的 ,所以严格说 ,这是第一次齐全地把k8凯发天生赢家事件讲出来。

DeepTech:那为什么决定此刻出来做一些曝光?

姜旭:每幼我、每家公司的精力、带宽、功夫都是有限的。我做事件有一个强烈的偏差 ,就是在职何一段功夫 ,我自己和整个公司会把大部门精力 ,聚焦在少数几个 ROI 最高的?楹土煊蛏。

在此之前我们首先要搞明显的是要做什么 ,搭一个足够强的团队。我们此刻已经到了筹备好要去 scale 的阶段 ,接下来要做的事件 ,就是去 scale。并且要进一步引入持久本钱和产业资源 ,把这件事件急剧往下一阶段推动。

GPT-3 能说出几句齐全的话 ,我们就很激昂

DeepTech:你在 OpenAI 四年 ,从 GPT-3 到 GPT-4 ,从 InstructGPT 到 ChatGPT。你刚参与的时辰 ,团队多大?你被分到哪个组、做什么?

姜旭:我刚参与 OpenAI 的时辰规;购苡 ,或许一百人左右。那个时辰 OpenAI 还跟其他的 research lab 差不多 ,分成一个一个幼的 team ,team 之间没有出格缜密的耦合和深度合作 ,每个 team 都在做前沿学术和颁发文章。但 OpenAI 的文化 ,在我在的整个期间 ,内部始终长短J⒖⒆杂傻。

所以我很有幸 ,在 OpenAI 期间换过或许四五个 team ,在大说话模型这块有一个全栈的经历。我根基上是从大说话模型最底层的 infra 做起 ,而后到中央的预训练差不多做了一到两年 ,最后又花了一两年功夫做对齐。

我刚参与解决的第一个问题 ,是 FP8 ,也就是 8 比特浮点数训练模型 ,这项技术今天已经在所有前沿的大模型训练推理过程中被大领域使用了。我差不多花了一年功夫把它索求明显。OpenAI 自己不做硬件 ,所以我们只是在算法层面把它索求明显 ,会有一些推理上的效能提升 ,但对训练没有性质变动。训练若是想加快 ,还要从硬件层面原生去支持。我们其时就把了局给了 NVIDIA ,说服了 NVIDIA 从 H100 系列起头 ,原生支持 FP8。

DeepTech:那个时辰 GPT-3 是什么水平?

姜旭:我参与的时辰 ,GPT-3 刚刚启动训练。那时辰每两周开一次全员会 ,掌管 GPT-3 训练的团队 ,重要是 Dario 他们 ,会在会上分享训练进展。其时说话模型的水平 ,是 GPT-3 偶然能说出那么几句齐全的话 ,语法上没有出格显著的谬误 ,那个时辰我们全员所有人城市极度激昂。

此刻回首一下 ,从我 2019 年参与到此刻六七年功夫 ,AI 技术真的是突飞猛进 ,发生了天翻地覆的变动。

DeepTech:这些经历里 ,你印象最深的是哪一段?

姜旭:整个 OpenAI 四年是一段极端压缩的功夫线 ,发生了太多的事件 ,做过的好多项目印象都极度深刻。

第一段就是 21 岁首 ,Dario 他们走了之后 ,我参与新组的团队去做预训练。其时的布景是 ,正本掌管预训练的团队就是 Dario 他们 ,20 年底到 21 岁首 ,他们陆续脱离缔造了 Anthropic。那是一个疾苦的拜别过程 ,每周都有几个熟悉的同事去职 ,剩下的人釉煺遍没有预训练的经验 ,各人内心还是有点慌的。 而后 Greg Brockman 带队组建了一个不到 10 人的团队去接办预训练。

图丨姜旭在 OpenAI 任职期间拍摄于旧金山(起源:受访者)

首先 ,那几个月功夫工作强度极大 ,我每天早上醒过来跟打了鸡血一样疯狂地工作一向到半夜 ,Greg 甚至有时辰会彻夜写代码 ,第二天只睡一两个幼时再持续工作 ,最后从数据到 infra 到优化算法都发现了极度多的问题 ,最终 ,折腾了好几个月用了几千卡 ,也没有训出来好的模型成效。那是一个挺疾苦的迭代经历 ,不外预训练失败在头部大模型公司也并不罕见 ,我经历过的就有过两次。

当然 ,成功的预训练 ,注定就是 GPT-4了 ,是预训练的集大成者 ,从模型架构到优化算法到 infra ,都是超过时期的 , GPT-4 最终实现训练的功夫 ,甚至比我们一路头预计的还提前了好多。这种情况在大模型训练里并不常见 ,时时都是一向耽搁甚至最终也训练不出来。

还有一些项目 ,它的重要性最终是必要被功夫证明的。

好比我们做的 InstructGPT ,用人类反馈做强化进建的 RLHF ,是对齐算法的奠基工作。这个工作在 2021 岁首刚实现的时辰并没有受到足够的器重 ,由于其时的成效还不够好 ,但后面算法的开发和数据迭代并没有终场 ,最终它成为了 ChatGPT 训练里极度重要的一个环节。

大模型训练主题就是两步 ,第一步预训练 ,第二步对齐 ,只有把对齐做好了 ,预训练的模型才会变得很好用。跟预训练分歧的是 ,对齐必要的是逐步的迭代和提升 ,直到最终突破一个阈值;赝房从幸桓錾羁痰牧煳蚴 ,若是一个方向第一性道理上是正确的 ,就肯定要对峙做下去 ,肯定能做成也肯定要做成。

DeepTech:那 ChatGPT 的走红呢?

姜旭:其实 ChatGPT 颁布的时辰 ,OpenAI 内部并没有人真正意识到 ,整个世界会这么快发生变动。

其时产品上线的功夫点 ,正好赶上一个重要的 AI 学术会议(NeurIPS 2022) ,好多同事在新奥尔良参会。整个颁布自身其实极度通常 ,齐全没有那种后来各人设想中的“汗青时刻”氛围。它更像一次正常的产品上线。

但接下来的几天 ,整个事件起头迅速发酵。

我印象出格深 ,一路头是零零散散有人在会商 ChatGPT。后来会商的人越来越多。再后来 ,整个会场险些所有人都在聊它。那种感触很奇怪。你会忽然意识到 ,一项正本只属于 research lab 的技术 ,起头以一种失控的速度进入现实世界。后来回到公司之后 ,或许陆续一两周 ,我每天打开 Twitter ,整个 feed 险些都被 ChatGPT 刷屏了。

但我后来回头看 ,真正扭转所有的 ,其实不只是模型能力自身。

GPT-3 时期 ,模型已经极度强了 ,但那个阶段的大模型更像一种“暗藏的 intelligence”—它存在 ,但通常人感触不到。更多还是钻研人员和开发者在用 API、写复杂的 prompt、做 demo。ChatGPT 第一次把这种智能造成了一种险些没有进建门槛的产品。

用户不必要理解技术道理 ,不必要进建 prompt 工程 ,也不必要知路 transformer 是什么。你只必要像和另一幼我措辞一样 ,去跟它interact。

我后来意识到 ,一个很重要的事件是:好多时辰 ,人对 intelligence 的感知就取决于 interaction 的方式 ,获取智能的容易水平是智能水平的主题体现。

错过了物理 ,赶上了 AI

DeepTech:既然你在 OpenAI 收成这么多 ,为什么 2023 年会选择脱离?

姜旭:一个很重要的原因是 ,我一向更享受开创新范式的阶段。我在 OpenAI 亲历了大模型从一个险些没人相信的方向 ,逐步造成扭转整个世界的主流技术范式。那个过程对我影响极度大。

但 ChatGPT 发作之后 ,我会显著感触到 ,大模型起头逐步进入一个“共识化”的阶段。

技术路线越来越清澈 ,行业也起头急剧 scale。好多问题固然依然极度难 ,但它们越来越像工程和资源问题 ,而不是新的范式问题。我自己一向更想做的 ,是那种还没有被真正解决、还没有被行业形成共识的事件。

后来我花了很长功夫去思虑 ,确认具身智能就是这样一个方向。我感触今天的具身智能 ,很像 2019 年之前的大模型。行衣凤有好多索求 ,但还没有真正找到那个可能 scale intelligence 的主题蹊径。

这件事对我来说极度有吸引力。

DeepTech:为什么是 2023 年这个功夫点?有什么契机吗?

姜旭:ChatGPT 发作之后 ,本钱市场变得非;钤 ,创业环境和氛围变得很好 ,是有前提去创业、撬动本钱和资源做一件更大更有影响力的事件的。

其次 ,我在那个功夫点就以为大模型行业接下来要发生什么 ,相对来说是比力明确和确定的。当一个行业进入这种高度确定性的状态 ,幼我在里面阐扬的作用相对就会弱好多 ,更多是一个堆资源问题 ,公司去 scale up 资源 ,去执行寂仔的路线图。所以大模型对我来说就不再那么 exciting ,不再有从 0 到 1 突破新范式的兴奋和成就感。

DeepTech:问一个稍微八卦的问题 ,你脱离 OpenAI 和 2023 年那些动荡有关系吗?

姜旭:没有 ,我是在那之前脱离的。

DeepTech:你的本科和博士读的都是物理。其时为什么会进入 AI 行业?

姜旭:我读博士期间其切实物理学里做了大量尝试 ,若是你看我颁发的文章 ,早些年我发过各类方向的学术文章 ,跟我最后做的博士课题甚至都不有关。我的确是一个比力喜欢索求、尝试新器材的人。

回首起来 ,在整个索求的过程中 ,我一向在找一个真正有前途的方向。我感触人生是要去坐一次火箭的 ,成功的职业生涯 ,肯定要有机遇经历一段发作式的成长。

我读博士的时辰很快发现一个问题:对做物理学钻研来说 ,我可能晚诞生了差不多一百年。物理学的黄金功夫是 20 世纪初的那几十年 ,在那段功夫二流的物理学家都能做一流的工作。其实今天的 AI 领域也类似 ,遍地都是黄金 ,二流的选手也能够做一流的工作。

其时我有一个很重要的观察:科学里那些单一的法规 ,差不多到 20 世纪中叶都已经被发现完了 ,剩下的都是硬骨头 ,出格难啃。但这些遗留问题有一个共同法规 ,都涉及到在大量复杂的数据里找 pattern ,在高度非线性的景象上做拟合。但其时我并没有一个答案 ,不知路怎么解这类问题。

直到 2016 年春天 ,AlphaGo 下围棋的新闻铺天盖地 ,传布得极度广 ,那也是我人生第一次相识到深度进建这个技术。我顿时意识到 ,这不就是一个美满的技术来解科学里遗留的难题吗?那时辰我将近博士毕业了 ,就坚定要往这个方向转。

后来我起头自学 Python 编程 ,自学 machine learning ,上的第一门课是吴恩达在 Coursera 上的公开课。我自学了一些器材 ,做了一些开源项目 ,比力容易地在硅谷找到了AI方向的第一份工作 ,一年之后又参与了 OpenAI。

DeepTech:你做物理出身 ,又想在大量数据里找 pattern ,听起来更像是该去做 AI for Science ,为什么是去做大模型?

姜旭:你说得很对 ,其时进入这个行业最大的驱动力、最吸引我的 ,就是最终去解决那些科学问题。那是启程点。

但 AI 能力的演进是有肯定的法规的。大模型的发作是从数据量最多、数据最容易获取的文能力域先起头的 ,之后才向各类其他领域扩散。AI for science 今天正处在发作的过程中 , 好多细分方向已经实现了突破或者处于突破的前夕。

另表 ,language 自身依然是最重要的 backbone ,它不仅仅是人类沟通的媒介 ,同时也是人思虑、推理的极度重要的媒介 ,科学最终还是要构建在人类推理基础之上。

DeepTech:那为什么最后又选择去做机械人?

姜旭:我脱离 OpenAI 是要去实现一件影响力更大的事。选择机械人这个方向有几点原因。

首先 ,机械人背后世表的其实是 physical AGI ,是 AGI 极度重要的一部门 ,是其中的一半。若是能解锁 physical AGI、通用机械人 ,这件事的经济价值和汗青意思都极度重大 ,是一个足够大、足够有趣的问题。

其次 ,我刚脱离 OpenAI 的时辰 ,对机械人这个方向相识得不够多。后来我花了一段功夫去思虑和进建 ,最终发现这件事的性质 ,跟我之前解过的所有大模型问题没有差距。

它性质上就是一个多模态模型的问题。把机械人的输入和输出 ,都通过多模态模型数据表征的方式去向理 ,那机械人的问题顿时就转造成一个多模态问题。多模态模型怎么训练、怎么 scale ,这些都是已经被充分钻研过的问题。从第一性道理上 ,这个问题在我看来是必然可解的。

正由于如此 ,我相信自己从前在大模型领域丰硕的经历和布景 ,会为具身这个领域带来怪异的价值。

DeepTech:从脱离 OpenAI 到正式创业 ,中央将近一年。这段功夫你在干什么?

姜旭:那段功夫就是在思虑和迭代方向。刚脱离的时辰 ,脑海里有几个我感触值得做的设法。对我来说比力天然的 ,是持续做大模型 ,我在这个方向上也做过一些索求和尝试。

但最终我得出一个结论:在纯模型的赛路里 ,我很难找到一件足够大、足够有趣 ,并且头部模型公司不会做、或者我有绝对优势的事件。

按我对技术演进趋向的理解 ,模型的能力天堑会无限拓展 ,头部模型公司的业务天堑也会无限拓展 ,所以终极状态下 ,模型就是端到端去满足人所有的服务和内容需要 ,人把需要给到模型 ,模型把人必要的服务或内容返回回来。中央可能就没有出格多创业公司的大机遇。

所以其时一个很重要的思虑是:我要做的事件里肯定要有一些部门是这些模型公司不善于的。那就肯定要带上供给链和硬件 ,这是中国怪异的优势 ,所有的模型公司都不太具备这方面的基因。

DeepTech:这个结论是你自己单独思虑得出的 ,还是也从别人那里得到了什么启发?

姜旭:首先我有一个自己的直觉。有了这样一个直觉和方向感之后 ,就会做好多 research ,而后去找这个行衣凤最顶尖的 researcher 互换和自己去钻研 ,最终形成结论。

我一路头脱离 OpenAI 之后直接回国了 ,2023 年底又重新回到美国 ,跟其时最顶尖的 robotics 领域的一些 researcher 互换 ,像 Google、伯克利、斯坦福的一些人。很难说是某一个极度具体的人 ,更多的是我对这件事有一套自己的认知框架 ,框架里有一些其时感触比力吞吐的处所 ,我去钻研和跟这些人聊 ,再去确认那些点。

大部门公司都在反复苦涩的教训

DeepTech:那此刻让我们聊聊你所选择的这条路 ,大说话模型成功 ,是由于找到了规;顾跛祷暗姆绞。在具身智能领域 ,对应的突破是什么?物理世界的行为怎么造成能够规;盗返氖?

姜旭:具身智能的突破 ,会跟大说话模型极度类似。大说话模型最关键的点是压缩了全人类互联网的文本数据 ,也就是伊利亚说的压缩即智能。

我在创业之前想明显的 ,是架构层面的事件:机械人问题性质上是一个多模态模型问题 ,这是架构层面的时期一连性。这个时期的大主题 ,就是用同样一套框架、同样一套步骤论 ,去一个一个突破垂直的模态 ,从文本到语音到视频到图像。对具身智能来说 ,这是一个比力天然的一连。

但里面有一个主题问题:这套框架到底怎么用到具身智能领域。更具体的最主题的问题是 ,用什么样的数据来预训练模型。这也是我们创业第一年最主题去索求的问题。最终我们得到的答案 ,跟大说话模型极度类似:最 scalable 的方式 ,就是去仿照、去压缩互联网级此外人类视坡凤的 human actions。

DeepTech:你在 OpenAI 做的是预训练和 RLHF。此刻做这件事 ,这套思路具体怎么平移?哪些直接能用 ,哪些得重新发现?

姜旭:这必要先回首一下大模型整个训练的蹊径。从前几年大模型发作以来 ,重要出现了三次范式级此外创新。

第一次是预训练 ,你能够把它设想成实现了知识的压缩。其次 ,在预训练模型的基础上做对齐 ,有点像知识的提取。只有这两步都实现 ,模型才足够聪明、足够泛化、足够好用 ,对齐主题解决的是好用这个问题。最后 ,差不多一两年前出现了 reasoning ,赋予了模型深度思虑的能力。

对应到具身智能领域 ,我们首先要解决的就是知识压缩的问题。这是这个领域里到目前为止好多公司都没有解决好的一点:当模型能力不够强的时辰 ,它到底是预训练的瓶颈 ,还是对齐的瓶颈?相对应地 ,我们到底是要解决知识压缩的问题 ,还是知识提取的问题?

我以为大部门公司都在走弯路。具身智能在经历自己的 bitter lessons ,大部门公司在反复 NLP 昔时的弯路 ,都聚焦在了知识提取这一步 ,跳过了预训练 ,直接在做对齐。所以我们主题要为这个领域贡献和解决的 ,就是人类行为的压缩。这个压缩是通过预训练实现的 ,在以人类为中心的数据上 ,把人类的数据压缩进预训练的模型里。

DeepTech:说到数据 ,你们预训练的数据重要起源是哪里?

姜旭:我们重要使用了互联网规模的人类作为数据。

DeepTech:有概想以为 ,纯互联网视频有一些问题是齐全无法解决的 ,还必要真机数据等其他数据来补充。你怎么看?

姜旭:这是一个极度好的问题。大模型能 work ,肯定是必要两步:通过互联网数据实现知识的压缩 ,再通过后训练实现知识的提取。对于知识压缩这一步 ,只有互联网数据才有可能实现。

但仅仅用互联网数据做预训练是不够的;チ莸囊娲κ橇考却蟆⒆愎槐阋 ,能覆盖到各类各样的长尾场景、各类 corner case;它的坏处也是这个 ,里面有各类各样不真实的数据、噪音、谬误的数据。这些问题 ,肯定要通过高质量的后训练数据能力解除掉。所以肯定是这两个结合起来。

这条蹊径的主题优势在于:若是你的预训练做得足够好 ,你就不必要那么多真机数据来做对齐 ,最终也能训练出一个足够通用和壮大的模型。

我举个例子 ,在 ChatGPT 的整个训练流程里 ,预训练阶段我们用到几万亿个 token ,后训练现实上只用到了不到 10 亿个 token ,中央差了好几个数量级。这也是今天这个领域大部门已有玩家没想明显、没解决好的问题 ,各人都在后训练阶段、在真机数据上做了极度多的工作。

DeepTech:互联网数据质量参差不齐 ,数据洗濯是不是这里面很重要的一部门?

姜旭:对 ,使用互联网数据一个主题的挑战 ,就是数据的洗濯和处置。

我自己在 OpenAI 期间也部门参加过预训练模型的文本数据处置 ,所以我知路这件事的重要性和复杂水平。并且很关键的是 ,我知路 ,是有可能通过一套步骤 ,把极度复杂、噪音很大的数据处置好 ,造成可用的数据的。我们把同样的思想和步骤用到了视频数据上面。

这也是我们从前一年索求出新范式过程中很重要的一个里程碑 ,其中差不多有一半甚至更多的精力 ,都花在研发数据处置和洗濯的管线上 ,这是一个极度复杂的过程。

DeepTech:这算是你们的一个怪异壁垒吗?

姜旭:能够这么说。它必要足够强的人 ,足够多的 know-how ,再花足够多的功夫和成本在上面 ,能力把它做好。

DeepTech:那么在模型架构上你们做了什么选择?好比 Physical Intelligence(Pi)用的是 flow matching ,也有其他用自回归的。你们走的是哪条路?

姜旭:我先说一个判断。我以为具身大脑整个的框架应该跟今天 agent 选取的框架比力类似:底层有多个模型去具体执行 ,顶层是一套 model harness 的框架 ,把这些模型合理地组织、串起来。最底层的模型都是端到端的模型。所以我们训练的是端到端的模型。

我们其实更把具身 foundation model 当作一种面向物理世界的多模态大模型。它进建的不只是说话 ,而是视觉、作为、交互以及真实世界中的陆续行为。

从行业目前的发展来看 ,真正 scalable 的路线大体还是两类:自回归(autoregressive)和 flow matching。我们会把自回归更多理解成一种对大规模时序行为数据的压缩与表征进建 ,而 flow matching 更靠近陆续作为空间里的天生建模。两者对应的是分歧的 inductive bias。

此刻行衣凤选取 flow matching 的团队会更多一些 ,但并不是某一种架构绝对最优 ,纯自回归自身齐满是能够成立的。

我们内部其实两条路线都已经跑通了。现阶段会更多聚焦在自回归上 ,由于它在大规模预训练阶段训练效能更高 ,也更适合急剧 scale。

但率直讲 ,我们并不以为模型架构自身是这个阶段最主题的壁垒。对具身智能来说 ,更关键的问题还是数据 ,尤其是大规模预训练数据。我们此刻更主题的事件 ,其实是吓酌一套相对单一、不变、已经被验证 scalable 的架构 ,把数据规模和行为覆盖度真正做起来。

DeepTech:自回归有一些短处 ,好比精度损失、推理速度慢。这些怎么解决?

姜旭:这里面好多问题 ,其实并不是自回归自身的问题。像精度损失、训练不不变这些 ,更多还是一些关键算法细节没有真正做好。蕴含 tokenization、长时序建模、训练战术这些 ,大模型领域其实已经堆集了好多成熟经验 ,都是我们已经反复解决过屡次的问题。

推理速度也是类似的。此刻好多 flow matching 模型之所以显得更快 ,一个很重要的原因是它的 action head 还比力幼 ,性质上还没有进入真正 scale 的阶段。将来若是具身模型持续往更大规模发展 ,推理优化最终还是会造成一个极度系统性的工程问题。

并且我们感触 ,自回送还有一个很大的优势 ,就是它可能天然继承整个 foundation model 领域从前几年堆集下来的技术盈利。无论是推算效能、长程影象、RL 范式 ,还是整个训练基础设施 ,其实都已经极度成熟了。

所以我们此刻更主题的事件 ,还是先把数据规模、预训练和真实世界交互真正做起来。

DeepTech:我相识到你们的模型是跨本体的 ,目前现实跑通了哪几种状态?

姜旭:先诠释一下 ,由于k8凯发天生赢家模型仿照的是人类的作为 ,压缩的是 human actions ,而 human 是一个极度高自由度、作为极度丰硕的本体。以这样的本体为基础 ,我们事实上能够把人体做出来的各类作为 ,map 到各类其他状态的硬件本体上。

到目前为止 ,我们有两款全自研的硬件本体 ,一款人形机械人 ,另一款是自由度低好多的轮式产品 ,都能够搭载k8凯发天生赢家模型 ,我们也尝试过宇树的本体。若是是一个低自由度的本体 ,我们就把人体的作为做一个更低自由度的近似就能够了。举个例子 ,我们最终实现了人在物理世界里通用的行动能力、take action 的能力之后 ,能够把它简化成人的重心点的移动 ,这时辰出来的就相当因而一个移动模型。

DeepTech:你提到你们实现了初步的 scaling ,这个“初步”具体是什么情况?

姜旭:我们目前所处的研发阶段 ,若是对标 OpenAI 的 GPT 系列 ,相当因而 GPT-2.5 的水平。这个对标有两个层面的意思。

第一个层面 ,直接从数据量上看 ,我们此刻的数据量已经超过了昔时 GPT-2 训练用的数据体量 ,模型大幼也比 GPT2 稍微大一些。当然模型大幼在这个阶段对我们来说不那么关键 ,由于怎么 scale 模型 ,这件事在大模型领域已经解过了 ,主题是没有人解过怎么 scale 具身的数据。

第二个层面 ,从我们目前能实现的、从数据处置到模型训练的整条管线来看 ,我们已经能做到:随机拿来一段视频数据 ,只有里面有人 ,就能够把它造成k8凯发天生赢家训练数据源 ,能有效地从视坡凤进建到人的活动信息、视觉信息。

DeepTech:那离上限还有多远?

姜旭:我们算过按这个蹊径最终能达到的上限。我们在数据量上还能够扩充好几个数量级 ,差不多有四个数量级的扩充空间。从 GPT-2 到 GPT-4 ,数据上差不多是扩充了三个数量级。所以相信k8凯发天生赢家模型能力还会有屡次质的飞跃。

DeepTech:到了那个数量级的上限 ,就足以实现通用能力了吗?

姜旭:我相信到那个级别 ,就足以实现初步的通用机械人。对标 GPT 系列 ,应该至少能达到 GPT-3.5 那种初步可用的状态。

主题原因是 ,今天我们训练出来的模型 ,指令追随能力已经阐发得不错了 ,已经远远超过我们昔时训练 GPT-3 时的状态。我们那时辰看到能说几句齐全的话、语法上没有显著谬误 ,就很兴奋了。在这个基础上再有四个数量级的提升空间 ,我相信肯定会有一个活动智能、具身智能上的飞跃。依照 GPT系列对模型版本迭代的界说 ,每一代模型要比上一代强一百倍 ,那提升四个数量级 ,差不多能实现两代模型的迭代。

DeepTech:我听说 ,在你们看来 ,物理世界的活动泛化可能迸罪言泛化容易好多。这个结论你们是怎么得出来的?

姜旭:Scaling law是我们钻研怎么 scale 模型的一个很重要的工具 ,它主题讲的是模型能力会随着数据量、训练算力的投入和模型大幼确定性地变动。这三条趋向线是直线 ,就会有斜率。我们目前看到的是 ,具身的斜率可能迸罪言的斜率还要大一些。这是一个极度有意思的发现 ,意味着这个问题可能迸罪言要单逐一些。

另表一个是天然进化的例证。把握了高级说话能力的只有人类 ,但其他所有动物都具备活动的能力 ,具备跟物理世界交互、扭转物理世界的能力。说白了 ,连蚂蚁都有一个夹爪 ,能够做 pick and place。所以 ,这件事可能没有说话那么难。

DeepTech:这个结论还挺反共识的。之前看到的好多说法 ,都是说真实世界的泛化更难。

姜旭:我以为今天各人感触它反共识 ,一个很重要的原因是 ,各人做的方式可能都不合 ,没有真的领会大模型那套思想步骤论的精华。

从前三年 ,整个具身智能赛路一个很重要的进展 ,是各人逐步形成共识 ,要选取大模型那套思路。但这里面有一个很大的 gap:好多首创人、好多团队之前没有做过大模型 ,在认知层面、knowhow 层面有一些误区 ,误会了大模型里一些很主题的点。好多团队在这方面是有知始区的。

DeepTech:感触你对这个判断很有自负。

姜旭:由于我自己在大模型方向做过太多项目 ,有成功的 ,也踩过好多坑。我在 OpenAI 四年 ,也见过太多周围的同事用类似的思想步骤论去解其他领域的问题。这整个过程 ,助我成立起了对这条技术路线极度深刻的审美。

DeepTech:那你感触这个判断会被质疑吗?我幼我感触 ,这篇文章发出来之后 ,可能会有不少人质疑你。

姜旭:可能会吧 ,但我其实出格享受被质疑、且最终被证明是正确的这样一个过程。

DeepTech:你会怎么对待这些质疑?

姜旭:我能够分享一段我的经历。我刚参与 OpenAI 的前两周 ,读的第一篇 paper 就是 Scaling Law 那篇 ,其时还是 draft ,还没颁发出来。我读完大受震撼 ,很确信我赶上了一次技术革命。

By the way ,我一向感触自己的技术 taste 还是比力不错的 ,在一个技术早期的时辰 ,我就能比力精准地看到它的将来和潜力。那个时辰 OpenAI 在表界看起来还是一家比力奇怪的公司 ,但内部其实已经发生了天翻地覆的变动 ,表界并不知路。我出去跟别人谈天 ,时时有人问我 OpenAI 是做什么的 ,我说 OpenAI 是要去做 AGI 的。这个时辰我会看着对方的眼神 ,通常对方的眼神和表情通报出来的是质疑 ,似乎在说 ,这是一家骗子公司。

我是很享受这个过程的。大模型被证实了 ,这家公司做的事件也被证实了。

我感触最终有价值的事件 ,都是要反共识且正确 ,be contrarian and right。若是是一件强共识的事件 ,它的相对价值要幼好多。这也是为什么我在 2023 年那个功夫点选择脱离 OpenAI ,我以为那个时辰大模型已经造成一件强共识的事了。

交互会重新界说机械人

DeepTech:你以为具身智能的终局是什么?

姜旭:我感触好多人此刻理解具身智能 ,还是一种“代替人”的逻辑。好比扫地、做饭、搬器材 ,性质上还是在复刻人已经会做的事件。但我感触具身智能真正有意思的处所 ,是好多新的能力和价值 ,可能会从持久 interaction 里天然长出来。

前提是 ,它得先真正进入现实世界。

而这背后最主题的问题 ,其实还是:怎么 scale intelligenceD芄徽饷蠢斫 ,大模型这几年真正成功的处所 ,性质上是第一次把好多技术用一个正确的挨次组合了起来。先通过预训练 ,在全互联网数据上实现大规模的仿照进建;之后再通过强化进建、对齐、reasoning ,把这些能力一步一步真正开释出来。

好多从前失败的索求 ,并不是算法自身错了 ,而是挨次错了。在预训练这套范式真正被走通之前 ,好多 AGI 的索求其实都集中在强化进建 ,前大模型时期的 NLP 性质上在做对齐。

今天具身智能领域 ,其实也很像那个阶段。真机数据、遥操、真机强化进建这些方向当然有价值 ,但它们更适合“后训练”。这个行业到今天为止 ,其实还没有真正解决“具身预训练」剽个问题。

短缺一个足够强的预训练基座 ,模型就很难真正获得对物理世界的泛化理解 ,也很难持久在真实世界里持续移动、观察、interaction。

真正大的变动 ,会发生在这之后。当 intelligence 可能持久存在于现实世界 ,并持续 interaction ,它会逐步形成对环境、对人、对生涯自身的理解。好多今天还不存在的 intelligence、interaction ,甚至新的价值状态 ,可能城市从这里起头出现。

DeepTech:那这个终局 ,跟人的关系会是什么样的?

姜旭:从能力演进的角度 ,我感触具身智能最后会和大说话模型很像。它会先去仿照人 ,而后逐步超过人的能力。今天的代码模型 ,已经能看到极度显著的迹象了 ,它已经不只是辅助人写代码 ,而是在进入一种新的合作状态。具身智能以来也会是类似的过程。

但我感触更重要的一点是 ,当具身智能持久存在于真实世界里 ,持久和人共享空间、共享环境 ,这里最关键的变动是:interaction 的功夫尺度变了。

当 interaction 从几秒钟的一次挪用 ,造成持久共存之后 ,它和人的关系也会发生性质变动。它不再只是“执行一个工作” ,而会起头逐步理解人的习惯、环境的变动、空间里的隐含法规 ,慢慢形成一种对真实世界的“具身直觉”(embodied intuition)。

到那个时辰人和 AI 可能会一路创造出好多从前底子不存在的新价值、新行为 ,甚至新的生涯方式。

DeepTech:要实现你说的这种机械人 ,它必要具备哪些能力?怎么排优先级?

姜旭:整个大模型的研发思路 ,并不是从需要启程去倒推说我们要做什么 ,它是反过来的 ,是从数据盈利启程。我们看这个世界上存在最大量的数据是什么 ,就从这些数据里把它蕴含的丰硕信息做一个深度挖掘 ,这是大模型范式的性质。

所以沿着k8凯发天生赢家思路 ,首先是可能全面地仿照和进建人的各类各样的能力 ,这取决于现有的存量数据里蕴含了哪些人的行为和作为。

关于技术演进的蹊径 ,我们跟这个领域有一些不太一样的概想。我以为最起头可能解锁出来的 ,是通用移动的能力 ,是 mobility。它会最先在模型能力上突破 ,并且能最快形成贸易关环、最快商用。下一步才是通用 manipulation ,模型能力上才足够强 ,并找到相宜的利用落地场景 ,形成贸易关环。挨次上是先通过 mobility ,让具身智能安全地进入物理世界 ,下一步再去谈若何用技术扭转物理世界。

mobility 和 manipulation 这两个 ,对应到大说话模型的发展汗青 ,相当因而 language 和 coding 之间的关系。一路头 language 的存量数据最大 ,能力上率先突破 ,找到一个相宜的产品状态 ,就是 ChatGPT。随着模型研发的进展、language 能力的提升以及 coding 自身能力的提升 ,最终才解锁出 Claude Code 和 Codex 这种全新的产品状态 ,大规模阐扬经济价值。

DeepTech:也有点像人类 ,先从爬杏注走路起头 ,再去学各类能力。

姜旭:对 ,它首先要能在盛开的物理世界里安全地移动。

DeepTech:你之前在幼红书上提到你们最初的产品要先做一些好玩的器材 ,那么第一款产品具体味是什么样的?

姜旭:我感触“好玩”其实是一个很重要的词。由于好多人会默认 ,机械人最重要的是“实现工作”。但若是你回头看大模型的发展过程 ,会发现真正让 AI 发作的 ,其实并不是一路头就去解决出产力问题 ,而是 interaction。

ChatGPT 最早扭转世界 ,也不是由于它先替身实现了什么复杂工作 ,而是它第一次让大规模用户起头天然地和 AI 交互。具身智能好多新的能力和价值 ,不定是一路头被设计出来的 ,而可能是在持久与人共存和交互中长出来的。所以我们第一代产品从能力上来说 ,它会具备通用的 mobility ,以及通用的思虑和 interaction 能力。

DeepTech:会是之前一些报路提到的那种陪同型机械人吗?

姜旭:“陪同”自身并不是一种产品类型 ,它更像是持久共存和交互之后天然产生的一种了局、一种感情上的价值。但我们真正感兴致的 ,并不只是感情价值。

更重要的是 ,当 intelligence 起头持久存在于真实世界 ,并持续 interaction 之后 ,它会不会起头产生好多额表的新价值。由于若是你仔细观察 ,人类在现实世界里绝大部门功夫 ,其实都不是在“操作”。更多时辰 ,我们是在移动、观察、思虑。

依照之前的推演 ,我们会把率先可能解锁出来的移动能力去贸易化 ,让机械人可能在物理世界里面自动地移动、观察和交互 ,把数字世界的 agent 延长到物理世界 ,实现 embodied agent。

DeepTech:我感触此刻不少人对你们的相识 ,可能还停顿在“陪同机械人”上。

姜旭:我们性质上还是一家基模公司 ,只不外做的是具身基础模型;H酚幸恢炙捣ń凶觥澳P图词遣贰 ,在具身领域应该是基模+硬件本体就是产品 ,将来k8凯发天生赢家模型会有各类状态的“壳” ,首先从一个轻巧的 embodied agent 起头 ,将来会有搭载我们模型的各类状态机械人产品。

DeepTech:这款产品或很多久之后能见到?

姜旭:再保留点神秘感 ,但注定不会是两年之后了!

DeepTech:你们定位是具身大模型公司 ,硬件本体筹算自己造吗?

姜旭:我们临时是自己造。背后主题的原因是 ,整个行业还处在极度早期 ,还没有形成尺度和共识。固然存在具身智能这样一个大赛路 ,但各人训练模型的方式、算法蹊径、产品落地的方向、利用的场景 ,事实上五花八门 ,每家公司都有自己的答案。这个功夫点 ,很难找到高低游的供给商来共同我们 ,去 exactly 打造一个能适配我们模型能力的硬件。

我们这套思路最主题的 ,是萦绕模型能力的变动来思虑:在什么功夫点能解锁出什么样的模型能力 ,我们就若何打造一款相宜状态的产品。跟大模型研发和迭代的思路极度像 ,并不是一个传统的、去做消费级机械人的思路。所以临时我们只能端到端地既做模型训练 ,又去界说和打造自己的硬件。

但悠久看 ,我们会但愿把模型造成一个盛开的生态 ,去跟领域里各类各样状态的硬件实现适配。

最终依赖的还是人

DeepTech:你团队的规模此刻有多大?

姜旭:此刻全职或许六十人左右。

DeepTech:你的团队布景好多样 ,来自 OpenAI、大疆、微软、华为、字节。你刚才也提到 ,OpenAI 早期团队是比力割裂的。在组建团队时 ,你会有意识地去预防这个问题吗?

姜旭:极度好的问题。我以为 OpenAI 成功一个很主题的原因 ,是它后面形成的扁平文化和极度高效的组织。

我的判断是 ,性质上我们就是一家多模态大模型公司 ,肯定要选取最顶尖大模型公司的组织模式:维持一个幼的团队 ,维持极度高的人才密度 ,打造一个扁平、高效的组织。

从缔造起头一年多 ,我也做了蛮多索求和思虑。对 OpenAI 来说有一个相对容易的点 ,它必要的重要就是做算法的人 ,类似的人设法更容易统一 ,思虑问题、做事件的方式更容易靠近。对我们来说 ,一个主题挑战是 ,团队里寂仔做硬件的 ,又有做软件算法的 ,算法这边又分成机械人算法、大模型 ,还有传统的软件工程 ,是布景极度不一样的一群人。

最终我摸索下来 ,发现答案其实蛮单一的。这样一个扁平的组织 ,最终不依赖于组织的结构和规定来做事件 ,更多依赖于人。

DeepTech:所以主题难点是筛选人?

姜旭:对 ,所有治理的难度都放到了筛选人这一步。筛选人又蕴含两种类型。一种是已经有一些工作经验、在职场里形成了工作习惯的人 ,对这些人 ,我们肯定要按k8凯发天生赢家尺度去衡量 ,看他是否能适应、是否切合我们想打造的扁平文化组织的要求。另一种是可塑性更强、更白纸的 ,刚毕业甚至还没毕业的学生 ,这些人能够在我们团队文化磨合得比力好的情况下 ,在内部造就和训练。

DeepTech:鉴别人这件事 ,是不是也必要一种 taste?

姜旭:齐满是的。我在 OpenAI 期间也见过大量极度优良的人 ,优良体此刻不仅仅是技术、业务水平层面 ,更重要的是 ownership。OpenAI 招人的时辰极度喜欢招有创业经历的人 ,这可能也跟 Sam Altman 的布景有关 ,他之前是 YC 的 president ,OpenAI 也有大量人之前是 YC 的 founder。这些人除了业务能力之表 ,通;嵊屑惹康闹魅宋绦牧 ,会把公司的事件当成自己的事件来做。

DeepTech:那么你招人时 ,最看重的特质是什么?

姜旭:重要是三个方面。第一个是最根基的业务能力 ,他在所处的?樯 ,技术要达到肯定水平。其次是 ownership ,主人翁心灵 ,他是不是能把这些事件当成自己的事件来做。这个极度重要 ,由于一个扁平文化的组织性质上是没有治理的 ,要每幼我治理自己 ,同时治理项目 ,甚至治理其他人 ,所以对人的要求极其高。第三个方面 ,是一幼我做选择的能力和 taste。

这三个方面若是都很优良 ,这幼我就是一个很好的 manager。所以我们此刻在公司里选了好多优良的 manager ,但是各人都没有 manager 的 title ,各人在这样一个文化里共同治理、共同治理公司。

DeepTech:目前的团队 ,在这个阶段够了吗?

姜旭:我们整体的团队扩张速度还是比力慢的 ,招人一向维持着比力高的筛选尺度 ,很克造 ,所以我们险些所有岗位都有空缺。

现阶段尤其是大模型方向 ,我们大模型团队招的人普遍都是大模型公司布景的。这肯定水平上跟我自己之前的经历和 OpenAI 的光环有关 ,这个光环也能助我们吸引到大模型领域一些顶尖的选手 ,参与k8凯发天生赢家一路训练具身的 foundation model。

事实上 ,我们训练的这个具身 foundation model 从整个别量到挑战 ,已经不亚于训练任何其他领域的 foundation model 了。也借这个机遇说一句 ,我们此刻一向在招人。若是你身上有我刚说的这三点特质 ,又相信从预训练启程去做具身基础模型这条蹊径 ,想跟我们一路把具身的 foundation model 训出来 ,迎接你来找我们聊。

DeepTech:海内表的同业里 ,你感触做得比力好、比力有代表性的有哪些?

姜旭:我会比力关注那些大模型公司下场去做这件事 ,好比我的老东家 OpenAI ,我会关注他们的进展。Google 不太好说 ,Google 和 OpenAI 还是两码事 ,两家公司在组织文化上其实有极度大的差距。

大公司里有极度多工作的人 ,但短缺 owner ,大公司始终有这么一个困境 ,Google 也始终会有这个挑战。

今天要在这个领域实现突破 ,必要的步骤和技术 ,exactly 就是大模型那套器材。我更相信会有一些大模型公司在这个领域里比力早地做出突破。若是一个团队里不足足够多的大模型经验和 knowhow ,会际遇比力多的挑战。

DeepTech:2026 年以来这几个月 ,国内具身智能赛路已经有好几家上百亿估值的公司了。你怎么看这个赛路如今的热度?

姜旭:一个蓬勃发展的行业 ,早期肯定会有一些泡沫 ,泡沫自身是一个正常的景象。

稍微不太合理的处地点于 ,一些公司喜欢对标同业 ,不足独立的索求和创造 ,也不足对行业前沿的更有力的突破和推动。

DeepTech:你一路头说 ,你们今年一个很重要的主题也是融资 ,那你们进展若何?

姜旭:我们在 close 新的一轮融资。我们在融资节拍上 ,也做了一个有点反共识的选择。

去年上半年我们融完了一轮 ,其时市场还是蛮火热的。但我相信具身智能、AI 是这个时期的大主题 ,是全社会、全世界会 all in 的风雅向。在 AI 时期大海潮里 ,资源并不是最稀缺的 ,一个顶尖的团队和一条真的能实现智能突破的研发蹊径 ,步崆最稀缺的。我们去年一年都在打造团队、索求模型研发蹊径和产品落处所向。今年我们除了融资表 ,还会有更多的对表发声;要推动范式级此外扭转肯定是必要更多人的参加。

我们就活在科幻里面

DeepTech:你说你们的模型此刻到了 GPT-2.5 的时刻。那距离真正的 ChatGPT 时刻 ,还有多远?

姜旭:依照我们这条蹊径 ,我们在年底之前应该可能实现 ,相当于从 2.5 到 3.5 ,逾越一代模型S庠揭淮幸话俦兜奶嵘。对我们来说 ,以目前的水平为基础 ,再提升一百倍应该不会是一个底子性的挑战。

DeepTech:这个答案有点出乎我的意料 ,我以为会更慢一点。

姜旭:我对我们目前所走的这条蹊径 ,极其乐观 ,极其有信念。

DeepTech:今年年底有点太近了 ,我们再来瞻望更远一点的事吧 ,在今年之表 ,你将来三到五年甚至以来的指标是什么?

姜旭:我的大判断是 ,具身智能会沿着大模型走过的蹊径 ,把大模型重要的那些里程碑再走一遍。

首先是实现预训练 ,预训练的突破和 3.5 时刻会是行业的拐点 ,具身智能产品才会起头大规模地落地利用 ,呈此刻k8凯发天生赢家生涯里 ,进一步网络到全新的、真实世界的数据。这有点像今天的 Coding Agent ,当大模型做长程工作、写代码的能力突破到肯定水平 ,起头能齐全地交付工作 ,进入到用户的电脑这样一个更复杂、全新的环境 ,而那些数据是之前模型见不到、互联网上也不存在的。由此就形成了数据飞轮。

大模型是要在数字世界里仿照和超过人的能力 ,具身是要在物理世界里仿照和超过人 ,三到五年左右 ,或许率会全面地超过人的能力。

DeepTech:在这个过程中 ,你此刻最等待的一件事是什么?

姜旭:具身智能的 ChatGPT 时刻 ,模型能力强到能够大规模地进入到物理世界 ,进而出现第一个 PMF 的产品之后 ,数据飞轮和贸易飞轮城市转起来。在这个基础之上 ,通用具身智能将会看起来不再那么遥远和不成设想。

DeepTech:那你比力不安的问题有哪些?

姜旭:我以前在 OpenAI 的四年期间 ,前后差不多有一年多功夫都在对齐的团队里。对齐主题要解决的一个极度关键的问题 ,就是安全。

具身智能存在极度类似的问题。它的技术演进蹊径会跟大模型极度像 ,存在的风险也会跟大模型极度类似。安全问题是急需整个领域去关注、提前思虑、钻研和布局的方向。

看得更远一点 ,现代文化社会是人创造的 ,但倒剽个星球上出现了一个从智力和体力上都全面超过人的全新群体之后 ,是否会影响到我们今天的文化 ,k8凯发天生赢家文化会若何演变 ,是每幼我都要去思虑的问题。

DeepTech:这是一个听起来非?苹谩⒂旨认质档奈侍。

姜旭:是的。当智能起头持久存在于物理世界 ,它就不再只是一个被挪用的工具、而是能够通过持续观察、持续进建、持续交互和操作反过来影响现实世界自身。

那时辰 ,人类面对的就不再只是一次技术升级 ,而是一种新的“存在”。

我们其实已经活在科幻里了。

运营/排版:何晨龙

注:封面/首图由 AI 辅助天生

 

文章点评

未查问到任何数据!

颁发评论

◎迎接参加会商 ,请在这里颁发您的见解、互换您的概想。

最新文章

热点文章

随机推荐

【网站地图】