打开软件,点击"?增长 好色丝瓜先"按钮,从电脑当选择《好色丝瓜先》文件,或直接将其拖拽至软件界面中。
软件会自动鉴别并解析导入的文件,您可凭据界面提醒选择所需的保留蹊径或下载体式。
确认无误后,点击"起头下载/处置"按钮。期待进度条读取结束,即可在设定的文件夹中查看下载好的正版文件。
走进数采工厂:深聊机械人数据荒漠、四层金字塔与种树人,好色丝瓜先
文 | 硅谷101
当Scaling Law让大说话模型一路狂飙,用万亿参数涌现一代又一代更壮大的智能之际,机械人领域却被数据荒漠所困,让具身智能的泛化性和自主性进展缓慢。
为什么AI能用的数据,机械人用不了?机械人的四层数据金字塔是若何运作的?每一层的进展和技术困境别离是什么,以及,我们若何能力解决机械人的数据难题呢?
这篇文章持续k8凯发天生赢家“机械人专辑”,之前我们已经讲过了灵巧手、机械人关源模型和开源模型,这一期我们来聊聊这个领域一个极度主题的部门:数据。
为此,我们飞到上海,走进了机械人数采工厂,甚至有机遇亲自尝试了一下“遥操作采集员」剽份工作。除此之表,我们也跟智元、Sharpa等机械人公司们一路深刻聊了聊,当前机械人数据的技术路线以及将来发展。
稀缺的机械人数据,真实缺口有多大?
首先我们来回覆一个问题:什么是机械人数据?它跟AI大说话模型,以及图片和视频模型的数据有什么分歧呢?
大说话模型是靠“吃掉互联网”变聪明的。GPT-4的训练数据量以万亿token计,相当于把人类有纪录的知识堆集全数摄入。
单一来说,AI生文、生图以及生声音、生视频的模型参数都能够在互联网上找到。大说话模型用的是“世界的文本说话”,蕴含文本、代码以及标注过的结构化文本,来援手AI理解和天生“说话序劣妆。类似的,图像模型用的是“世界的瞬间截图”,声音模型用的是“世界的震荡信号”,而视频模型用的是“世界的陆续变动”,而这些数据,都大量存在互联网上。
而机械人必要的数据是具身本体在真实物理世界里,和具体物体发生具体交互时产生的多维度传感器信号:视觉、力觉、关节地位、电机节造量,全数精确同步,功夫戳对齐,才组成一条有效的训练轨迹。
这些信息从来没有被系统性地纪录过,也没有任何理由会被被动产生。
姚卯青 智元机械人合资人&具身智能业务部总裁、觅蜂科技董事长&CEO 机械人齐全的数据,蕴含各类传感器所带来的数据,有视频,还有力触觉传感器等。它的输出是对身段上每一个电机关节的节造量,可能节造全身多达几十个自由度的关节协调共同,去实现具体的工作。 它的难点就在于这些数据天然是不存在互联网上的,它必要我们以某种方式去采集,无论是在真实环境里采集,还是在虚构世界里采集,都必要先布设机械人、搭建场景,再引入遥操人员来节造机械人采集这类数据。
张凯峰 Sharpa钻研科学家、学术掌管人 我感触数据最大的难点在于我们没有法子采集到机械人自己在干活的数据,我们能采集到的其实是人在操作的数据,好比作为捉拿(MOCAP data),好比YouTube数据。所以要做好teleoperation(遥操)、让机械人自己去操作其实比力难题,重要原因是机械操作员是感触不到机械人的感触。
这就是整个行业数据困境的本原:每一条高质量数据都必须从零起头出产。我们来用几个数字,试图展示一下这个缺口有多大。
谷歌DeepMind在研发机械人模型RT系列第一代时,调动了13台机械人,在办公室厨房环境里持续采集了整整17个月,才堆集了约13万条操作轨迹、覆盖700多项技术。
为了训练RT-2,谷歌结合了全球34所钻研机构,把60个已罕见据集全数归并,加上来自22种机械人平台的真机数据,才凑出了Open X-Embodiment,一个蕴含超过100万条操作轨迹的开源数据集。
这已经被以为是目前全球最大的跨机构真机数据集,但即便如此,它涵盖的527项技术和对应的场景,和现实世界的需要之间,依然是以数量级计的差距。
面对如此难获得的机械人数据,怎么办呢?如今,行业摸索出了四条并行路线。它们的质量从低到高分列,组成一个金字塔,每一层都有自己的优势、上限和真实价值,接下来我们来一层一层给各人拆解。
数据金字塔顶层,正确但昂贵的真机数据
金字塔的顶层,就是遥操数据,又被称为“真机数据”。操作员通过表骨骼或遥操系统,实季节造机械人在真实场景里实现操作,机械人所有传感器全程录造。这层数据信息最齐全,真实的物理接触、真实的不确定性、真实的失败和复原,是今天让机械人真正能在现实场景落地的主题原资料。
我们也正好有机遇来到上海,走进智元机械人的数据采集工厂,看看真机数据是怎么采集的。
姚卯青 智元机械人合资人&具身智能业务部总裁、觅蜂科技董事长&CEO 我们这里有200台机械,每台机械至少配一个采集员,有些工作还会建设一位同事来搭配安插场景。
但你以为遥操员是一个很单一的工作吗?答案是:并不是。归正我们在现场试了一下,发现这个工作还是很有门槛的。
陈茜 硅谷101结合首创人 一个数据采集员,他必要什么样的资质能力把这个数据采集好呢?姚卯青 智元机械人合资人&具身智能业务部总裁、觅蜂科技董事长&CEO 我感触最重要的是天才,好的数据采集员和差的数据采集员,效能可能相差3倍。我以为一个有天才的数据采集员,首先是协调性极度好、空间感出格强的人。由于在采集数据的过程中,其实是在隔空节造另表一个身段,没有直观的触觉反馈,只能通过肉眼来关环;等耸直酆腿耸直鄣墓剐鸵膊灰谎,人能达到的好多姿势,机械人不定可能到,所以还要预判机械人怎么能力更高效地够到指标,再去设计自己的作为轨迹。其次是对空间的精度判断要很准,若是空间感差,明明想让机械人去抓,了局抓过了,或够不到,或一夹就滑,这种情况都极度常见;褂芯褪翘辶σ,一全国来其实极度劳累。智元机械人采集员 有些人是站着采的,有些人坐着采,两种感触不一样。陈茜 硅谷101结合首创人 从刚入门的一个采集员到你这样的金牌采集员必要多长功夫?智元机械人采集员 入职必要一周培训功夫,培训完先入门,之后工作难度逐级递加。姚卯青 智元机械人合资人&具身智能业务部总裁、觅蜂科技董事长&CEO 即便是有天才的采集员,从零基础到九成功力,或许也要一个月。Zero to hero(从平庸到英雄),要一个月吧。
对于一个专业的金牌数据采集员来说,我刚才失败了N次的机械人摆放字母的工作,他一次就搞定了,而这样的数据采集,为的就是机械人的精确节造能力。但就算是专家水平的遥操员,也不是每一条都能够被算作是有效数据的。
陈茜 硅谷101结合首创人 人类遥操数据的成功率是几多?工作难易水平不一样可能也会影响,我很好奇这个效能怎么算?姚卯青 智元机械人合资人&具身智能业务部总裁、觅蜂科技董事长&CEO 一个专业遥操员,8幼时工作或许能均匀产出2到3幼时的有效数据。由于中央必然会涉及两个采集之间的场景安插、数据上传,以及操作失败后的抛弃和重试。陈茜 硅谷101结合首创人 所以就或许1/ 4。
所以,真机数据的优势是正确,更容易直接部署、后期调参成本也更低,但它的价值也极度直白:贵,并且慢,不容易指数级扩张。
数采工厂涉及到硬件成本、场地成本、人为标注和监督成本,以及功夫成本,与互联网数据相比,规模齐全不是一个量级。
姚卯青 智元机械人合资人&具身智能业务部总裁、觅蜂科技董事长&CEO 我们今年真机产能有200万幼时,对应着靠近2000台机械人和背后规模相当的采集员团队。陈茜 硅谷101结合首创人 这个规;嵩嚼丛酱舐?姚卯青 智元机械人合资人&具身智能业务部总裁、觅蜂科技董事长&CEO 真机今年差不多不变在这个水平,当然也会凭据市场的动态需要相应扩产。 不成否定,人力成本我相信肯定会是将来竞争力和效能里极度重要的一环。这也是为什么中国发展起了大量的数据采集,而美国相对进展比力缓慢,此前特斯拉招聘采集员的薪酬就是50美元一幼时。若是是100万幼时,今天放在全球就肯定是碾压式的存在了。陈茜 硅谷101结合首创人 但100万颖厩能解决问题了吗?姚卯青 智元机械人合资人&具身智能业务部总裁、觅蜂科技董事长&CEO 我感触在一些特定领域100万幼时应该能够达到极度好的成效了。今年我们接触了好多罕见据需要的客户,作为觅蜂的话,我们也在看好多客户的需要,提出100万幼时需要的单个客户已经极度多了。这只是第一步,各人到了100万肯定会想1000万。但即便是1亿幼时,对于大型人为智能公司每年的基础设施投入来讲,也还是一个非?煽氐牟棵。
顺便说一句,智元在将真机数据做成一站式的物理AI数据服务平台,想要解决的就是当前机械人行业面对的真机交互数据荒漠的问题。
觅蜂科技,押注的是构建物理 AI 数据基础设施,实现真机遥操、无本体采集、仿真数据全范式覆盖,并买通硬件、软件、平台、运营的全链路。觅蜂科技2026年真机遥操产能靠近200万幼时,同时规划采集约800万幼时的Human-Centric数据,背后是将近2000台机械人和对应规模的采集团队,在中国国内以及东南亚多地同步运作。 能够看到,这就是机械人行业中的“石油业务”,而数据生态在迅速崛起,并且需要量极度大。
金字塔第二层,仿真合成数据
金字塔从上往下的第二层,就是“仿真合成数据」剽条文模效应最极致的路线,这也是黄仁勋的英伟达重点押注的路线。
顺便说个幼八卦,听说黄仁勋的一儿一女都在英伟达的Physical AI仿真部门,可见老黄对这一块有多看重。
单一来说,这不是从真实世界采集,而是在虚构环境里“天生出来”的数据。与一条一条训出来的真机数据做个对比:英伟达Isaac Lab能够在单台GPU上并走运行成千上万个虚构机械人同时训练。规?伤晕尴薜,你想要几多数据,就有几多数据。
好比说,机械人公司Sharpa在2026年CES上超火出圈的乒乓球机械人,就是花了40个幼时用纯仿真数据训练出了0.2秒量级的击球反映速度,这就是这条路线的一个具体案例。
仿真还能做一件真机采集做不到的事:天生现实中极难遇到的边缘场景;等嗽诜抡胬锬芄环锤吹埂⒎锤词О,所有失败都成为数据,而不造成任何真实损失。
此表,Sharpa的钻研科学家还通知我们,仿真技术让“触觉」剽种真机更难采集的数据有了新的突破。
张凯峰 Sharpa钻研科学家、学术掌管人 我们最近跟英伟达合作了一个触觉仿真工具叫Tacmap,它做了这样一件事:对于传统视触觉而言,你必要在simulation(仿真)里建模视触觉指尖,但你没法子在simulation(仿真)里装置摄像头去观察marker(象征)点的形变。所以我们提出了Tacmap。
它用物体与指尖穿膜的深度图作为介质,在仿真里能够高效获取这个deformation map(形变图),并且拥有优良的物理个性。在现实环境中,我们也通过类似方式获取deformation map(形变图),通过大量数据采集训练了一个翻译模型叫translation model,将raw image(原始图像)翻译成deformation map(形变图);谡飧鰀eformation map(形变图),我们实现了一些技术的Sim-to-Real(从仿真到现实),可能实现一些精密化操作。
当然,这个路线有一个巨大的缝隙,就是嘉宾刚才提到的Sim-to-Real Gap,字面意思是“仿真到现实的天堑”。问题的性质是:机械人在虚构环境里练得再好,放到真实世界里往往会出问题。为什么会这样呢?
由于仿真环境是人用代码构建的物理世界的近似,但真实世界的物理复杂得多。
举一个最单一的例子:机械人在仿真里学会了抓一个塑料杯子,仿真里这个杯子的重量、摩擦系数、形变方式都是固定的参数。但真实世界里,湿手拿杯子和干手拿杯子的摩擦系数不一样,杯子里有没有水重量也不一样,光滑桌面和粗糙桌面上的杯子滑动方式不一样。这些细节,仿真里要么没建模,要么建模不够精确。
总的来说,活动学层面的问题,蕴含关节怎么弯、手臂走什么轨迹,相对容易在仿真里做好,放到真机上成效也还行。但真正难的是动力学层面,好比物体之间接触时力怎么传递、软性资料怎么形变、液体怎么流动。这些景象对今天的物理引擎来说还很难齐全复现。
了局就是:机械人在仿真里练了一万次叠衣服,放到真实的毛衣刻下,由于布料的柔软水平和仿真里的参数对不上,作为就会犯错。这不是模型不够聪明,是它从来没有经历过真实的物理接触。
目前,行业中的解决法子蕴含:域随机化(不去做一个“美满仿真”,而是做“好多不一样的仿真”,逼模型学会忽略差距、抓住性质),还有把仿真做得更好更真(这也是英伟达重要在做的事件),以及用少量的真机数据去微调。但张凯峰以为,最终还必要一个更创新的解决之路。
张凯峰 Sharpa钻研科学家、学术掌管人 此刻很难解决的一个动力学的Sim-to-Real Gap(从仿真到现实的天堑)是环境的dynamics(动力学),也就是说你很难对齐这个物理世界的环境和现实世界的环境的迁徙,也就是我们所说的transition model(状态转移模型),所以这是我感触是目前还必要一些科学步骤上的创新。
除了Sim-to-real,Real-to-sim Gap(从现实到仿真的天堑)也是目前行业中的主题挑战,这个词和Sim-to-real是反过来的,意思是你没法子把真实世界正确“搬进”仿真里。
由于现实世界太复杂了,咱们的真实环境中有无限的细节、噪音和不规定的事务,还有好多难以观测的参数。所以仿真世界,其实没有那么好建。
金字塔第三层,动捕数据
我们持续往机械人的数据金字塔下面走,到第三层,作为捉拿数据。作为捉拿数据集,被称为MOCAP。这个流派是用光学设备或视觉算法追踪人手的活动轨迹,比纯视频多了“怎么动”的信息维度。
动捕数据的性质是纪录“人是怎么动的”,而后再把这个作为“映射”到机械人上。好比说,机械人算法公司Physical Intelligence的π0系列就大量使用了这类数据。π0.5在约莫400幼时移动操作数据和大规模网络数据的基础上,实现了在真实家庭环境里实现长程工作的能力。
它的利益是:数据质量高,尤其在活动结构上,能大幅削减无效数据,对复杂作为出格有效。各人看到的很酷炫的好多机械人跳舞,武术等等工作都是用到了作为捉拿的数据网络,这是纯强化进建很难达到的成效。
但这个路线除了成本贵和数据覆盖有限之表,还有一个很关键的劣势就是:人终于和机械人的结构不一样,这就是Embodiment Gap(具身天堑)。
张凯峰 Sharpa钻研科学家、学术掌管人 一方面,视觉上看到的是人的手,而不是机械人的手,所以存在视觉上的gap(差距)。第二个问题是state(状态)上的gap(差距),通过动捕或其他方式得到的state(状态)其实不够正确,会有自遮挡的问题,也会有被物体遮挡的问题,所以得到的作为也是不正确的。
Embodiment Gap的意思是,人的身段和机械人的身段之间,有一路操作语义上的沟壑。人手在操作时依赖皮肤上密布的触觉感触器,每抓一个物体,神经系统都在实时凭据触觉反馈调整力度;等嗣挥姓馓紫低,所以即便作为轨迹被精确复造,实现工作的能力也不会自动跟上。
除了Embodiment Gap,还有另表一个没有克服的难题,叫做Functional Retargeting。它的意思是,机械人只是在仿照作为的状态,而不是理解这个作为要实现什么。
张凯峰 Sharpa钻研科学家、学术掌管人 这意味着你把人的作为映射到机械人作为上之后,它只是做了活动学层面的对应,并没有真正实现操作自身在语义上的对应。
也就是说,动捕数据会出现好比说关节角度超限、力矩不够、平衡失败等问题,这就让这个层级的数据在肯定水平上,和第四层的视频数据一路,被以为是“低质量数据”。
金字塔最底层,互联网视频
从YouTube到抖音,人类实现各类工作的视频海量存在。这是今天具身智能训练里唯一真正“不缺”的原资料。但它能教会机械人什么?
姚卯青 智元机械人合资人&具身智能业务部总裁、觅蜂科技董事长&CEO 更多是让机械人的大脑模型进建一种通用的表征,好比单一认知以及对物理法规有浅显的认知,但它还只停顿在认知阶段。
姚卯青用了一个有趣的迸作:看再多别人打乒乓球的角逐视频,你第一天拿起球拍,也接不住球。视频给机械人成立了关于物理世界的基础认知,知路乒乓球是什么状态,知路打球或许是什么作为,但从“知路”到“会做”之间,隔着一路天堑。视坡凤底子没有作为信号,只有了局。
互联网上的海量视频数据,也被Sharpa称之为最低质量的数据。
张凯峰 Sharpa钻研科学家、学术掌管人 YouTube videos最大的劣势是它没有力和触觉信息,优势是量极度大,能给我们提供一些有效的信息:一是世界是怎么变动的,好比我们时时讲World Models(世界模型),就是利用这类in the wild(天然场景下)的数据来训练World Models(世界模型);二是能给我们一些操作信息,好比affordance(预设用处)是什么,这对操作来讲也极度关键。
再进一步聊视频作为机械人数据之前,我们引入两个关键的概想,别离是Egocentric和Human-Centric。这两个分类是视频数据中被以为对机械人最有效的数据。
Egocentric的意思是“自我中心数据”,也就是“以机械人的视角看出去”,看到桌子、杯子、自己的机械臂、甚至还有遮挡、接触和动态变动这样和行动绑定的“第一视角视频”,并能直接用于决策的数据,被称为Egocentric。
为什么这个视角很重要呢,是由于机械人从摄像头,出格是人形机械人,看到的视角就是这样的。
苹果在2025年5月颁布了一个Egocentric的数据集名为EgoDex:用Apple Vision Pro采集了829幼时第一人称视角视频,每一帧都配有手部每个关节的精确3D追踪数据,覆盖系鞋带、折叠衣物等194种桌面操作工作,数据集齐全开源,但愿推动机械人灵巧操作钻研。
最近,我们刚才提到的觅蜂科技也推出了MEgo系列无本体数据采集设备MEgo Gripper和MEgo View,搭配MEgo Engine一站式数据治理服务平台,试图降低物理AI数据采集对实体机械人本体的依赖,让高质量的第一视角数据走向轻量化、规;腿【盎。
另表一个词,Human-Centric数据的意思是萦绕“人类行为、意图、偏好或示范”来构建,用来让机械人进建人类想要的行为方式。好比说人类抓杯子,人类开门,人类折叠衣服这类“人直接做给机械人看”的视频能让具身智能理解“人想达到什么指标”,以及人类尺度中的“正确做法”。而Human-Centric数据可所以第一视角,也可所以第三视角。
我们总结一下,Egocentric是第一人称视角视频,但工作不愿定和人有关。而Human-Centric是人类意图的视频。这两者订交集的区域就是Egocentric+Human-Centric,指的是“人类在第一视角下实现工作的数据”,这被视为是视频数据里,最有价值的部门。
好比说,英伟达在今年3月推出的EgoScale,就使用超过20000幼时的人类视频进行预训练,涵盖数千个怪异的工作和环境。精确的骨骼手部追踪使模型可能提取并重新定位21幼我体活动关键点,从而构建统一的机械人作为空间。
所以,固然YouTube data被机械人专家们各类厌弃,但由于它的海量存在和低成本效应,若是某家公司通过某种技术突破让这些互联网视频变得“更可用”、能大幅提升机械人阐发,那将有巨大的远景,而这也正是目前各大公司押注的重点。
特斯拉在2025年6月做了一次重要的战术调整:把此前依赖作为捉拿套装和VR头显的采集方式,换成了摄像机头盔,让工人戴着装有5个摄像头的设备录造日常操作视频,再用这些视频训练Optimus,公司内部暗示这样能“更快规;。
顺便说一句,自动驾驶就是Egocentric的数据,并且FSD也是用视频数据驱动汽车这个物理本体的案例,所以Optimus会在视频数据路线上再次押注,这也极度切合马斯克的第一性道理。
而同时,草创公司们也在若何将“低质量数据”变得更可用这个路线上,也有着非;某⑹。
在今年岁首,Sharpa颁布CraftNet,他们用一套触觉反射层(System 0)做赔偿:机械人上层战术只需给出粗糙的作为意图,底层触觉感知系统凭据实时力反馈自动实现精密调整。这个设计从硬件层降低了对上层数据精度的要求,使低质量作为捉拿和视频数据也能够被利用起来。
张凯峰 Sharpa钻研科学家、学术掌管人张凯峰 由于有了System 0,所以我们能够达到一个点石成金的成效,可能把大量的低质量数据用起来。System 1只必要给出粗糙的作为意图和手势,就可能实现fine manipulation(精密操作)的能力。
说完了机械人数据的四层金字塔结构,各自的曲直势以及各层级在发生的进展,就会发现鱼与熊掌不成兼得的真谛,真的是有路理的。最精确最高质量的真机数据是至少最难获取的,而最容易获取的视频数据又是质量最低最不成用的数据。
所以,行业此刻的做法是:把他们混合起来用,能不能釉旖衡数据质量,又能平衡一下成本呢?那么这个混合的配方又是若何的呢?
各家公司的混搭配方,数据与成本若何弃取?
我们在业界跟好多机械人公司聊,目前普遍的共识是,这个四层金字塔代表着数据的分歧起源,并且也要适配分歧的具身本体和模型,没有一个统一尺度,每个公司会有自己的配方和天平。
陈茜 硅谷101结合首创人 它到最后可能是一个整合的solution(解决规划)?它们各自的比例或许是什么样子?
姚卯青 智元机械人合资人&具身智能业务部总裁、觅蜂科技董事长&CEO 对,它会是一个整合的solution(解决规划)。此刻很难说什么样的比例是黄金配方,由于这不是一个单一配比而后达成单一指标的问题。首先钥浼术路线上还有好多蹊径在索求,并没有归一到一种确定的范式。其次,训练机械人模型的指标也不是唯一的:有些情况是让机械人在某个特定场景干到极致,好比工业场景中人的节拍效能和100%的成功率;有些场景更看重泛化性,成功率98%、99%也能够接受,甚至允许人在过程中做一些过问、收受兜底,但对泛化性要求很高。面向分歧指标,用到的数据比例也会不一样。
对Sharpa来说,答案也很类似,分歧的工作他们采取了分歧的数据战术。
张凯峰 Sharpa钻研科学家、学术掌管人 k8凯发天生赢家乒乓球机械人是在仿真里面训练的,或许是训练了40幼时左右,k8凯发天生赢家发牌机械人用的是 imitation(仿照进建)的方式来训练的,它或许是用到了两三百幼时的teleoperation data(远程操作数据)以及一些Egocentric的数据。
张凯峰也给了我们一个很均匀的估算,在训练较为复杂的工作中,各层数据之间的轨迹数量比约莫是,遥操作数据:作为捉拿数据=1:100,作为捉拿数据:互联网视频≈1:100;凰阆吕,遥操作数据在整个数据池里约莫是万分之一的存在。但就是这万分之一,往往是最终决定模型能否在真实场景落地的关键。
张凯峰 Sharpa钻研科学家、学术掌管人 非要我选一个更重要的点,我会选数据质量,由于只有高质量数据能力训练出有效的模型。但若是数量很难规;,我们就必要做折中,就像我刚才讲的数据金字塔方式,把每一部门数据都利用起来:既能理解环境的变动,也能理解操作的语义,最终助我们实现操作工作。数据的“捷径”硅谷路线
以上我们聊到了智元这样的中国机械人公司若何处置数据问题:太贵、太慢,就直接把它做成工厂,利用人力成本和效能优势来打造护城河。但硅谷几家最受关注的机械人公司,却不得不走数据的“捷径路线”。
7.1 PI:让机械人在真实试错中自我进化
好比说Physical Intelligence的数据战术就靠精度加迭代。他们在旧金山Dandelion Chocolate工厂部署了一台机械人成天打包巧克力盒子,同时在办公室提供咖啡服务,员工在Slack里发“我要一杯拿铁”,机械人就去做。首创人Sergey Levine的哲学是:看当机械人不得不在真实世界实现工作时会发生什么,以及这类部署的数据能若何持续改善系统。
在这个基础上,PI试图让机械人在真实部署里通过强化进建持续自我改进。
2025年11月颁布的π0.6,用一套叫RECAP的步骤,在折叠衣物、装纸箱、做浓缩咖啡等工作上,把最难工作的吞吐量提升了一倍以上,失败率降低了约一半。2026年3月颁布的RLT步骤,引入了一个特殊的输出token,作为VLA模型与轻量级强化进建战术之间的紧凑接口,只需几幼使劓实操作操练,机械人在精密操作工作上的速度就能提升三倍,某些作为甚至超过人类遥操员。
这条强化进建路线的吸引力在于:机械人自己产生自己的训练数据,绕过了人为采集。但它有三个今天还没有好答案的真实问题。
第一是嘉奖函数。衣服叠得“够好”的尺度很难量化,界说禁绝机械人就会找捷径,好比把衣服揉成一团塞进角落,由于这样“占用空间最幼”,满足了某个谬误的优化指标。
第二是安全天堑;等嗽诳突С霾呱鲜源,每次失败都有现实价值:败坏产品、影响节拍、甚至伤到工人。
第三是数据归属。强化进建数据是机械人用客户的物理空间和物理资产试错产生的,所有权比遥操作数据越发吞吐,遥操作好歹有明确的人为出产主体,但强化进建没有。
如今PI在π0.6上验证的场景,是相对结构化的工作,在受控尝试环境里运行了13幼时。距离真实工厂大规模部署、在陌生场景里不变运行,还有相当的距离。
除了强化进建路线,PI同时在索求用我们上面提到的Egocentric视频补充训练数据。PI在2025年12月颁布的钻研显示,一旦机械人基础模型堆集了足够的真实操作经验,参与第一人称人类视频后,各个泛化工作的均匀成功率靠近翻倍。
7.2 Figure AI:把最大的房东造成数据采集场
2025年9月,Figure AI与全球最大另类资产治理公司Brookfield签署战术合作。Brookfield治理着超过10万套住宅、5亿平方英尺的贸易办公空间和1.6亿平方英尺的物流空间。
Figure的打算:在这些真实的家和写字楼里,让人戴着摄像头拍视频,用这些视频训练Helix模型,指标是建成“全球规模最大、最多样化的人形机械人预训练数据集”。Brookfield同时跟投了Figure超10亿美元的C轮融资。
Figure随后颁布了初步了局:Helix模型在只用第一人称人类视频训练、没有任何机械人数据的情况下,已经能凭据天然说话指令在杂乱的真实房间里导航移动。
7.3 Sunday Robotics:多包做家务视频
还有一家更幼的创业公司Sunday Robotics,走的路更极端:直接付钱让通常人在家里录自己做家务的视频,而后用这些视频训练机械人,把“数据采集员”造成多包经济的工作。
若是我们看看分歧机械人公司若何押注数据路线,我们会发现,分歧的市场由于生态分歧做出了分歧的决策:整个硅谷在往视频数据靠,削减对遥操作的依赖,押注能够被动规;牟杉绞。这和中国公司的方向形成了差距化。
但这两种选择可能也无所谓对错,由于我们还在行业的初期,任何的尝试都是有意思的,出格是对于数据来说,开源更是一件广受迎接融洽评的事。
种树人和数据飞轮,开源百万条数据换来的是什么?
2024年,智元做了一件让行衣阀惑的决定:把自己劳累采集的百万条遥操数据,打包成AgiBot World数据集,免费向全球盛开。
但这背后有一个被大无数报路忽略的行衣阀境。2023年到2024年,具身智能公司大量涌现,但整个行业面对一个底子性的认知;好挥泄驳氖莼,就无法判断一个模型的训练步骤对不合。谷歌的RT系列和开源模型OpenVLA在学术界引发了宽泛关注,开创了VLA这个范式,但由于训练数据满是学术级的数据集,在现实场景里的成效依然有限,导致这个范式的真实潜力持久得不到验证。
姚卯青 智元机械人合资人&具身智能业务部总裁、觅蜂科技董事长&CEO 这件事肯定得有人迈出第一步,工业界的人得迈出第一步,不然谁也无法真正训练出高质量的模型,也没有一个公允的benchmark(基准测试)数据集来做评测。面对这个数据荒漠,我们算是种下了第一棵树,但愿将来能造成一片丛林。
而这棵树抽芽了。
2025年3月,英伟达在GTC大会颁布第一代具身基础模型GROOT N1。而GROOT N1训练所用真实世界数据里,约80%来自AgiBot World。
而开源的连锁效应还不止于此。越来越多的学术团队在用了AgiBot World之后,转而采购智元的机械人本体做研发,由于在统一款本体上采集的数据,在这款本体上训练出来的模型成效更好。
也就是说,数据开源带来了生态,生态带来了硬件销量,硬件销量产生更无数据。
同时我们也看到,机械人的数据工厂在建,开源生态在形成,下一个问题是:具身智能能否形成真正的数据飞轮?
姚卯青 智元机械人合资人&具身智能业务部总裁、觅蜂科技董事长&CEO 数据飞轮绝对会存在。具身智能跟大说话模型一样,数据飞轮的主题是:模型部署之后,在用户的使用过程中持续接管到反馈,利用这些反馈不休提升能力,最终造成用户履历的提升;等舜丝唐涫蹈匾庋姆陕,也更会催生这样的飞轮。说话模型容错度比力高,说错几个字、有些似是而非,用户还能接受。但机械人若是是在工厂打螺丝,毫米级的精度,差一点可能就不能了,肯定必要在现实部署中不休遇到失败场景,把这些数据采集回来持续提升,能力达到进工厂靠近人类节拍的百幼时、千幼时MTBF(均匀故障距离)级别。陈茜 硅谷101结合首创人 这样的一个数据飞轮,类比大说话模型的scaling law(缩放定律),它们是一回事吗?还是有区此外?姚卯青 智元机械人合资人&具身智能业务部总裁、觅蜂科技董事长&CEO 根基上还是一回事。数据飞轮就是要在真正实地部署的状态下持续网络数据。这套我们此刻已经在所有机械人产品上作为标配搭售了,在用户许可的情况下,会像自动驾驶的职能一样,网络那些高优的数据。陈茜 硅谷101结合首创人 部署的机械人网络到的数据,或许有几多比例能够回流回来再给你们进行训练?姚卯青 智元机械人合资人&具身智能业务部总裁、觅蜂科技董事长&CEO 或许在5%以内。由于大部门功夫这些数据对我们来说没有提升意思,由于都是成功的,属于已经会的器材。陈茜 硅谷101结合首创人 所以你们只必要失败的。姚卯青 智元机械人合资人&具身智能业务部总裁、觅蜂科技董事长&CEO 对,要的是还不会的。不然天天这么多机械人在跑,全世界的存储都存不下这些实时数据,各人都是触发一些高价值的数据。
但飞轮能转,不代表转速能达到预期。这里有一个比飞轮更基础的问题:具身智能的scaling law(缩放定律)是否成立?
在说话模型里,这个问题有明确的答案:数据翻倍、模型变大,能力就会涌现。但机械人行业,目前还没有答案。
张凯峰 Sharpa钻研科学家、学术掌管人 我们必要看到:随着数据量增长、模型规模变大,可能有智能的涌现,可能实现工作级的泛化能力。我以为此刻还没有看到有工作级此外泛化,我们此刻能看到的泛化往往是物体层面的——见过好多种类的物体,可能实现物体层面的泛化,也能实现环境层面的泛化,但工作层级的泛化,还没有。
这里就是关键区别:物体泛化(见过类似物体就能处置)和工作泛化(从没见过这类工作也能举一反三),是两个齐全分歧量级的能力。前者今天已经在肯定水平上实现,后者还没有可信的证据。而这个证据,是整个机械人行业走向下一步进化的钥匙。而在机械人大规模部署之前,我们可能都不会有答案。
PI的首创人Sergey Levine教授在他的Substack上写路:在美国有约1万家麦当劳,一旦每家麦当劳各放一台机械人,每天工作两幼时,一年就能产生1000万幼时的具身智能训练数据,比现有全球堆集的总量还要多几个数量级。
在今年3月底,智元率先在产量上突破了10000台具身机械人。我们距离找到这把机械人的数据钥匙,是否更近了呢?我们拭目以待。
| 软件名称 | 好色丝瓜先 |
| 软件版本 | v6.72.898 |
| 软件大幼 | 2.61GB |
| 软件分类 | 工具软件 |
| 运行平台 | Android/ios/winall/win7/win10/win11 |
| 软件授权 | 免费版 |
1、打开软件,点击"?增长 好色丝瓜先"按钮,从电脑当选择《好色丝瓜先》文件,或直接将其拖拽至软件界面中。
2、软件会自动鉴别并解析导入的文件,您可凭据界面提醒选择所需的保留蹊径或下载体式。
3、确认无误后,点击"起头下载/处置"按钮。期待进度条读取结束,即可在设定的文件夹中查看下载好的正版文件。