k8凯发天生赢家

颁布于2026-06-03 12:46:44来自安卓汉化版 v8.698 ·

关注

起源：谁在为特朗普的“正义”买单作者：

桥介数物尚阳星：高质量的跨本体全身活动数据不能依附单一采集

当宇树用侧空翻和功夫向全球证了然其顶尖的幼脑能力，当银河通用、星海图、千寻智能等公司在把“通用具身大脑”推成行业的主流叙事。所有看起来顺理成章——活动能力解决了，接下来就是大脑竞争的时期了。

但这里有一个被公家集体忽略的事实：宇树（们）搞定了，不代表行业解决了。活动节造从未成为一个被宽泛解决的问题，它只是极少数公司的私有能力。

现实情况是：头部具身大脑公司从来不把活动节造当作他们自己的主场，它们的战术是绕开宇树最强的壁垒，先做轮式或固定底盘机械人。中幼人形本体公司在活动节造上的追赶则更为艰巨。而想做“机械人界的苹果”的宇树，或许率始终不会做跨型号适配的通用活动节造平台。

所以，无论是头部具身大脑公司，还是中幼本体公司，活动节造是它们迟早必必要补的一课。

整个具身行业在数据采集的格局上，也出现出泾渭明显的差距。由于“大脑”公司密集扎堆，第三方数据工厂为了钻营规模效应，将绝大无数产能倾斜在操作数据领域（Manipulation）。相比之下，愿意深刻底层“幼脑”的厂商寥若晨星，导致活动数据（Locomotion）在贸易上因需要规模不及，不足第三方服务商愿意为其服务。这迫使聚焦活动节造的厂商只能在市面上采买零散数据，更多的是依附自有团队进行自采。这种供给侧的畸形，使得活动节造领域的数据越发稀缺，并且高质量、高泛化的数据就更为匮乏。

“近两年，头部具身智能本体厂商与上游企业已陆续把“数据”列入战术议程，只是这股趋向在分歧方向上的落点并不平衡——活动节造有关的数据建设至今仍是一片显著的洼地，甚至能够说是“真空位带””桥介数物的首创人尚阳星对创投家暗示，“行业内现有的活动节造数据普遍存在供给不及、质量参差不齐、构型与场景局限性大等问题，远远跟不上模型训练所需的规模。”

近日，专一于通用机械人活动节造基础设施的研发商——桥介数物，颁发其自建的“跨本体全身活动数据工厂」佚式投入使用。而这个数据工厂正是为相识决行业“高质量的跨本体全身活动数据”的缺位而建。

尚阳星诞生于1999年，华科本科，南科大保研，师从逐际动力首创人张巍教授。桥介数物是他的第一个创业项目，团队从宿舍起步，2023年底拿到奇绩创坛的种子轮投资后，从2024年底到2025年8月的半年内，陆续实现天使轮、天使+轮及Pre-A轮，累计金额近亿元——正轩投资、复星创富、潜能集团、隐山本钱、明荟致远、沂景本钱等机构相继入场。

在具身智能这个普遍吃亏的赛路里，桥介数物成立第一年就接到了客户项目，实现了盈利。2024年8月的世界机械人大会上，27家人形机械人厂商参展，桥介数物服务了其中超过半数。对于一台未经调试的人形机械人，它最快一周能实现模型训练，让它走起路来。一个定造化项目通常必要1到3个月。

近日，我们借着桥介数物“跨本体全身活动数据工厂」佚式启用的契机，与这位99年的年轻首创人，就活动数据的质量、泛化、训练等问题，发展了一次深度的对话。

▎以下为与尚阳星的对话全文，略有删减：

创投家：您先助我们界说一下什么接装高质量的跨本体全身活动数据”？高质量高在哪？

尚阳星：要回覆这个问题，先要回覆“我们想要什么活动能力”。

对通用全身活动模型来说，我们要的是一种可能向上兼容多模态作为意图、向下兼容分歧本体硬件、安全靠得住、并且能够在复杂环境中持续进化的活动能力。

而这种能力对数据提出了更高的要求：不是孤立的活动轨迹，而是能同时保留全身协同、工作意图、接触关系、环境高低文、物理可行性和跨本体复用价值的数据。

创投家：现有的活动数据状态存在哪些问题？

尚阳星：现有的数据状态，单独看都很难天然满足这些要求：

动捕数据能够正确、结构化地纪录人体活动状态，但缺失环境信息以及人和环境之间的精确交互；遥操作数据严格绑定特定机械人本体，硬件一换，复用价值就会显著降落；第一人称视频集中在结尾和物体交互，不能齐全表白躯干、下肢、重心和接触之间的全身协调关系；第三人称视频固然能看到整体作为，但难以从中提取出正确合理的人体作为。

这些数据各自都有价值，但单独都不及以支持通用全身活动模型必要的数据关环。

创投家：所以通过咱们数据工厂产出的数据是一种怎么的状态？

尚阳星：我们把真正面向通用全身活动模型训练的数据资产，界说为跨本体全身活动数据（Cross-Embodiment Whole-Body Motion Data，CWM），要求 CWM 至少同时满足以下四个性质：

跨本体可重定向性（Cross-embodiment retargetability）。统一段作为必须可能通过统一的处置管线，在差距显著的多种本体上，产出物理自洽的训练样本。

全身覆盖性（Whole-body coverage）。数据必须齐全表白躯干、手脚、手部、手指以及它们之间的协同关系，而不能只保留上半身结尾轨；蛳掳肷聿教。

物理可行性（Physical feasibility）。一条合格的数据，不只是活动学滑润合理，还需在指标本体上的动力学具备物理可行性，不能出现浮空、穿透、滑移、失稳、力矩超限等问题。

多模态性（Multi-source augmentability）。合格的数据还必要同步采集人体作为、语义标签、第一人称视频、第三人称视频、环境资产和物体资产。

满足这四个性质的 CWM 数据，不是单一采集就能得到，它必要好多的后处置能力被出产出来，这也是我们建设跨本体全身活动数据工厂的启程点。

创投家：为什么说CWM数据“不是靠采集就能得到”？

尚阳星：对于全身活动节造来说，数据要覆盖的不只是几个尺度作为，而是行走、转身、下蹲、搬运、抓取、支持、避障、复原平衡、接触切换等大量陆续作为组合。

我们内部的判断，要训练出一个真正通用的全身活动模型，最终必要数十万甚至上百万幼时级此外高质量CWM数据。在这个量级刻下，少量数据在持久来看很难支持起通用化，真正有价值的是可能不休扩张的数据规模。

全身活动数据的复杂性在于，它不是“采集的作为越多越好”，而是必须有正确的数据配方和严格的数据质量节造。同时，每条数据还必须经过洗濯、标注、重定向和物理验证。不然，大规模数据很容易造成大规模噪声。

因而，CWM数据出产必须被设计成一套工业化出产系统，而采集只是其中一环。

创投家：这套工业化出产系统具体蕴含哪些环节？

尚阳星：一段作为从被设计出来，到能进入训练集，还必须经过质检、跨本体重定向、动力学与仿真加强、语义标注，以及来自模型训练侧的反馈关环。

这其中，专业作为设计人员掌管界说作为谱系，采集团队掌管高质量同步录造，工程团队掌管洗濯、体式化、重定向和仿真回放，算法团队掌管物理验证、训练反馈和数据筛选，质检团队掌管把不成用样本挡在训练集之表。

这也是 CWM 数据工厂的主题价值：用不变的场地、设备、流水线、专业团队和质检系统，把通用全身活动数据造成一种可持续出产能力。

创投家：数据工厂在设计作为这个环节上是若何操作的？

尚阳星：通用全身活动模型必要一套持续扩大、能覆盖身段协同方式的活动空间。这套空间不能只是作为目录的堆叠，而要沿几条相互独立的主线填充。

首先就是按身段使用方式组织，而不是按作为名称充数。移动、姿势转换、肢体协同、接触切换和物体操作，这些基础维度是后续复杂能力的底盘。

其次我们会两全复杂地形、多人交互与环境交互。复杂地形扭转支持战术，多人交互引入空间协商，环境交互让身段活动与物体、接触面和可达空间深度耦合。它们不能靠平地单人作为表推，必须显式铺排进采集打算。

第三，我们也会保留下意识行为与自由阐扬。剧本只界说工作天堑，真实活动里还有大量没被写下来的部门：个别作为习惯、临场调整和应对意表的本能反映。专业作为设计人员会在录造中给出意图与约束，同时保留表演者按自身习惯实现作为的空间。

第四就是作为复原与失败兜底。模型能不能被部署，很大水平上取决于失败时能不能稳住。失衡后的再平衡、碰撞后的避障回缩、非梦想姿势下的起身复原，这类样本通常稀缺，但直接关系到模型的安全天堑。

创投家：CWM数据在采集过程中必要同步采集多状态的数据，这个采集过程是若何实现的？

尚阳星：对，CWM 的同步采集不是单纯录一段人体作为，而是要在统一段作为中同步回覆四件事：活动意图、身段活动方式、交互指标与环境。这天然要求人体作为、视频、语义、场景被同步纪录。

按当前的采集规范，一条齐全纪录会尽量同步采集以下四类数据：

人体作为（BVH），承载作为语义、身段协同、重心变动和姿势转换；

原始视频，作为高价值的辅助信号，支持视频作为补全与人体作为提取，蕴含第一人称和第三人称视角；

场景交互资产，提供作为发生的环境与物体高低文，是把作为放进仿真环境的前置前提。重要采集两类：地形与场景资产、可交互物体资产。

语义标签，由专业作为设计人员、现场纪录员和 AI 标注系统协同天生，界说作为天堑、作为类别、场景和意图。

之所以必须同步采集，是由于全身活动的价值不在某一个单独模态，而在分歧模态之间的对应关系。若是这些信号没有对齐，我们就无法判断手部轨迹对应的是哪一帧物体接触，也无法判断脚底受力是否对该当前姿势，更无法验证这段作为是否真的能够进入训练集。为此，数据工厂为所有采集设备成立了统一的采集时钟和功夫戳系统，来保障其对应关系。

创投家：关于跨本体重定向这个环节，目前行衣凤通用的解决规划是什么？咱们又是若何解决的？

尚阳星：重定向（motion retargeting）是把一段以人体或某一参考本体为坐标系的作为，转化为指标机械人本体上的轨迹。业内普遍的操作方式是以人为为主的调参过程，每个型号的机械人都必要单独调试，只思考重定向这个环节，经验丰硕的人或许也必要破费几个幼时/台。

而目前行业通例做法最大的问题在于：只思考了活动学，而没有思考动力学。这就导致重定向只是仿照了作为运行的轨迹，而没有综合思考本体的质量，轴距，摩擦力等成分，其了局就是跨本体泛化水平不达预期。

我们在算法层自研了重定向引擎，支持“肆意作为×肆意机型×肆意地形”。输入同步采集的多维度数据，就能够输出适配各类本体，并且综合思考了地形、接触与关节成分的有效了局。工程层上，统一本体抽象层让新机械人仅靠URDF即可自动适配。并且，工厂选取了流式与离线双模式，支持边采边重定向，将逐条人为调试的工作压缩至靠近实时实现。

创投家：重定向之后的数据就能够直接用于模型训练了吗？

尚阳星：还有一个环节叫数据加强。

跨本体重定向输出的是高质量候选轨迹，但候选轨；共皇亲钪昭盗纷什。数据加强要做的是持续把这些候选轨迹造成更可验证、更可训练、更容易被模型消费的数据。

我们沿三条蹊径优化这些轨迹：动力学加强、仿真多样性加强、语义标注。

动力学加强：把优质样本放进指标本体的动力学与接触模型里，通过RL动力学后处置同季节造跟踪误差和物理违背，让候选轨迹从“活动学上像”升级为“在指标本体上能跟踪、不穿透、不超扭矩、不违反摩擦锥”。

仿真多样性加强：把统一段作为放进分歧的虚构环境里反复执行，让CWM资产的覆盖密度成倍放大。补齐缺失模态，同时扩增视觉与场景多样性。

语义标注：AI标注系统辅助天生作为切片、作为类别、接触状态、场景对象、工作语义、失败原因和能力维度等标签，由专业作为设计人员掌管复核。

创投家：工厂最后若何验证数据资产的有效性？

尚阳星：CWM数据工厂的质量治理则要走两步：先沿出产链路做分层把关，再用模型训练的了局做关环反馈。

一条样本从作为需要走到训练集，要挨次通过四路独立的质检，也就是之前的设计层、原始数据层、重定向层和加强数据层。四层把关共同把一条候选样本筛成可入训练集的资产，但真正能不能训练出通用全身活动能力，最终只能由模型通知我们。

训练侧会把每一次模型评估了局，汇总成一份可回写的失败画像。失败画像会被直接写回到上游每一层，每一层再凭据这份失败画像调整每一步的执行战术。

两步合在一路，数据工厂就形成了持续迭代关环，将数据置于“设计—采集—处置—训练—反馈”的关环链路中，从而提升单条数据的有效利用率，让数据价值得到最大化开释。

创投家：目前数据工厂的成本结构是怎么的？运营状态若何？产出怎么样？

尚阳星：此刻工厂或许有几十名员工，场地规模或许是1000平米左右。算上设备的采购以及运营成本，整体投入在千万级别。采集成本或许是数百元/幼时。

从前三个月，我们在内部试点中跑通了跨本体全身活动数据工厂的端到端链路。沿着这条链路，我们累计产出了近千幼时的高质量CWM数据。用这批数据训出的全身活动模型，最终在十多款结构、驱动机能、质量散布和惯量散布差距显著的足式机械人上实现了关键验证。

下一阶段的重点，是从试点验证转向规；霾。我们会把场地、采集棚、动捕设备、作为设计团队、表演者假造和算法/仿真/训练算力集群同时扩容，让前面跑通的产线在更大规模上不变运行。k8凯发天生赢家指标是在新工厂落地后，早期阶段要形成每月数千幼时级、面向多构型机械人的高质量CWM数据产出能力。

创投家：数据工厂对于行业的价值是什么呢？

尚阳星：我们作为独立第三方的活动模型提供商，以及将来的通用操作系统提供商，k8凯发天生赢家指标是面向全行业、适配所有机械人。若是没有我们这样的第三方角色存在，每家公司想要达到一流的活动节造成效，可能就必须自己来建数据工厂，或者把这类数据集都买一遍。这个成本当下就得几千万，可能过一段功夫会更多。

另表，此刻行衣凤有几百家人形机械人公司，我们预测即便将来最终收敛，至少也会存在几十家，能够对标汽车厂商的数量。若是每家公司都重新来一遍，这是巨大的资源浪费。

@连婉菁：插黄，安徽：坚定拥戴费高云被查决定
@王俊豪：“全网最暖糖厂”收到发臭变质甘蔗
@李怡圣：陈幼春要求孩子赴英想书前练好中文

热点排行

1 岛国东京热
2 亚.洲欧美黄色影视网
3 51.com永久免费在线看网页
4 五月婷婷色综合网
5 亚洲成人第一页
6 91 Pornapp
7 新热久久
8 叶倩彤小说
9 同房108种

【网站地图】