一群来自清华姚班、前旷视科技的核心人物,决定为具身智能领域建立一套通用准则,叫Dexbotic。
Dexbotic是基于PyTorch的视觉语言动作(Vision-Language-Action,VLA)模型工具箱。目的是为具身智能领域的专业人士提供一站式VLA研究服务,由一家叫原力灵机(Dexmal)的具身智能公司开发。
原力灵机专注于具身智能(Embodied Intelligence)技术研发,2024年11月成立。刚成立,就宣布完成2亿元天使轮融资,投资方包括君联资本、九坤创投和启明创投。
原力灵机的核心团队出身于知名人工智能公司旷视科技,兼具顶尖学术背景以及超过10年的AI原生产品落地经验。
创始人兼CEO唐文斌是旷视科技联合创始人兼CTO,清华大学"姚班"出身,首届"Yao Award"金牌得主。
近年随着视觉-语言-动作(VLA)模型的发展,具身智能领域发展迅速。VLA模型能够将视觉感知、语言理解和动作执行整合到一个统一的框架中,使机器人能够理解自然语言指令并执行相应的物理任务。
根据《2025人形机器人与具身智能产业研究报告》数据,2025年,全球具身智能市场规模预计达195.25亿元,2030年预计达2326.3亿元,复合年增长率达64.18%。
然而,在行业繁荣的背后,是研发路径中的重重困境。搞具身智能的全球研究者们,说着不同的语言。
有人用PyTorch,有人用TensorFlow。有人基于这个视觉模型,有人基于那个语言模型。每个人都在自己的角落里,用自己的一套工具和方法论,从零开始搭建基础设施。硬件接口、通信协议、数据格式五花八门,没有统一的规范。
整个领域形成了一个个碎片化的开发生态。这带来了几大困难。
一个研究团队发布了一个看起来很厉害的新算法,另一个团队想要复现对比一下,麻烦就来了。他们得先花大量时间和精力去搭建一套和发布者一模一样的实验环境,处理截然不同的数据格式。这个过程极其繁琐,耗费巨大的人力、算力和时间。很多时候,仅仅是环境配置的微小差异,就可能导致结果天差地别。
在现有模式下,你很难说清一个算法表现不好,究竟是算法本身的问题,还是因为你没有把它调整到最优状态。这严重影响了对技术路线的客观判断和有效迭代。
同时,很多视觉-语言-动作(VLA)模型,也就是控制机器人干活的核心大脑,还在使用一些过时或者不同时期的视觉-语言模型(VLM)作为基础。这导致VLM领域在语义理解、多模态对齐方面的最新技术突破,无法顺畅地传导到VLA模型上,限制了机器人在开放世界里的泛化和推理能力。
当具身智能要从仿真环境走向现实世界时,问题变得更加复杂。研究者需要在主流的仿真器和真实的机器人上同步测试,这对现有的研发模式提出了更大的挑战。
整个行业,都在为这种重复造轮子的内耗付出高昂的代价。创新,在很多时候,被淹没在了繁琐的环境配置与算法复现工作中。
正是洞察到以上行业瓶颈,原力灵机Dexbotic团队研发并开源了Dexbotic。
Dexbotic是一个基于PyTorch的开源视觉-语言-动作(VLA)模型工具箱。它的核心理念,是想通过代码库+预训练模型的双引擎,为具身智能研究打造一个通用底座。
这个底座的目标:把开发者从繁琐的环境配置和算法复现中解放出来,让他们能真正专注于模型调优和算法创新本身。
为了实现这个目标,Dexbotic设计了一个三层闭环的研发架构。
第一层是数据层。它定义了一种名为Dexdata的统一数据格式。不管你的数据来自哪个机器人、哪个传感器,只要转换成这个格式,就能无缝接入Dexbotic的处理流程。这就像一个万能数据适配器,不仅统一了标准,还优化了存储效率,为后续的模型训练提取出标准的图像、文本和状态信息。
第二层是模型层。这一层的核心是DexboticVLM基础模型。它像一个高度标准化的汽车底盘,上面可以搭载各种不同风格的车身,也就是多样化的VLA策略。无论是直接用于离散动作的训练,还是作为现有策略(比如Pi0、OpenVLA-OFT)的基座,都可以。目前,它已经集成了Pi0、OpenVLA-OFT、CogACT、MemoryVLA、MUVLA等多种主流策略,并且支持用户很方便地自定义新模型。
第三层是实验层。这是Dexbotic的精髓所在。它基于模型层的实现,创造了一套实验脚本机制。用户想跑一个新实验,不再需要重写大量代码,往往只需要修改几行配置,就能快速启动。这种分层配置+工厂注册+入口分发的软件架构,在保证系统稳定性的前提下,赋予了框架极高的灵活性。
比如,用户想跑一个实验,只需在终端输入一行命令:python xxx_exp.py -task train。这里的task可以切换成train(训练)或inference(推理)。这种设计,比传统的基于YAML文件进行配置的方式(例如LeRobot工具箱),更贴近开发者的编程习惯,让参数调试、实验复现和版本管理变得异常直观高效。
Dexbotic想做的,就是把具身智能研发过程中那些最耗时、最繁琐、最重复性的工作,全部标准化、自动化。它提供统一的框架、强大的预训练模型、灵活的实验流程、以及对云端和本地训练环境的全面支持。
它甚至还开源了硬件。为了加速技术在真实世界的落地,原力灵机发布了首款开源硬件产品——Dexbotic Open Source - W1 (DOS-W1)。从技术文档、BOM清单、设计图纸到组装方案和相关代码,全部公开。这个硬件大量采用快拆结构和可替换模块,让改造和维护变得非常方便。
从软件到硬件,从代码到部署,Dexbotic试图覆盖从仿真验证到真实机器人无缝落地的完整流程,打通研发测试的最后一公里。
统一的框架是Dexbotic的骨架,高性能的预训练模型则是它强健的肌肉。
为了满足不同用户对各种机械臂的需求,Dexbotic提供了两类预训练模型:一类是用于通用VLA策略的预训练离散模型,另一类是用于特定VLA策略的预训练连续模型。后者又进一步分为单臂和双臂任务的版本。
离散预训练模型,名为Dexbotic-Base。它在一个庞大且多样的数据集上进行了预训练,这个数据集里不仅包含了Open-X Embodiment数据集的子集,还有来自多个主流模拟器(如RLBench、LIBERO和ManiSkill2)的数据,甚至还包括了一些真实机器人(如UR5)的数据。
它的训练方式很巧妙。在训练过程中,机器人真实、连续的动作,被量化切分成了256个区间,然后模型被训练来预测这些离散的标记。这个经过预训练的Dexbotic-Base模型,可以直接作为任何基于VLM的操作和导航策略的微调起点。用户可以用它来学习离散动作,也可以在它的基础上添加一个动作专家(Action Expert)模块,来处理连续动作。
连续预训练模型,以CogACT策略为例,我们来看看Dexbotic是怎么做的。它首先用前面提到的Dexbotic-Base模型来初始化VLM部分,然后随机初始化一个DiT(扩散变换器)头部,接着用真实的连续动作数据来监督整个模型的训练。
用于训练的数据来源,除了Open-X等公开数据集,还包括了原力灵机自己收集的私有数据集。这份私有数据集,是团队使用八种不同的单臂真实机器人、在52个操作任务中收集的。这八种机器人包括UR5、Franka、Unitree Z1、Realman GEN72等等,它们的形态、自由度(DoF)各不相同。在一个模型里消化掉这么多形态迥异的机器人数据,本身就是对基础设施能力的巨大挑战,但也正因如此,训练出的模型才具有更强的泛化能力。这个模型被称为Dexbotic-CogACT。
混合臂连续模型,则更进一步。原始的CogACT策略并不支持多视角输入和双臂协同。Dexbotic对它进行了改造。为了支持双臂任务,他们将模型的噪声标记从7个增加到16个,前半部分代表左臂动作,后半部分代表右臂动作。
训练时,它在单臂连续模型的基础上,继续用混合臂的机器人数据进行训练。这些数据除了前面提到的单臂数据,还引入了Robomind、AgiBot World等双臂数据集,以及团队自己用ALOHA双臂机器人收集的私有数据。一个聪明的做法是,当输入单臂数据时,就只用这部分数据来监督前半部分的标记,后半部分的损失在训练中被忽略。这样就高效地利用了所有可得数据。为了支持多视角输入,来自不同摄像头的图像共享同一个视觉编码器,提取出的视觉标记被连接起来,作为语言模型的输入。
这一系列精心设计的预训练模型,为开发者提供了一个极高的起点和可靠的性能基准,有效降低了从零开始的训练成本。
Dexbotic在多个主流的模拟基准测试中,验证了这些预训练模型的有效性。
首先是SimplerEnv,一个旨在缩小模拟与现实差距的基准。结果显示,使用了Dexbotic预训练模型,DB-CogACT比官方的CogACT成功率高出18.2%。DB-OFT与官方OpenVLA-OFT相比,成功率更是提升了惊人的46.2%。在一个本身就是领域内最先进的策略MemoryVLA上,使用Dexbotic预训练模型后,成功率也提升了超过12%。
然后是ManiSkill2,一个专注于拾取和放置任务的基准。原始的OpenVLA-OFT表现不佳,平均成功率只有21%。而DB-OFT直接将这个数字提升到了63%,绝对性能提高了42个百分点。即使是面对原始CogACT这样强大的基线,DB-CogACT也进一步将平均成功率提升了18个百分点。
在针对长视野任务的CALVIN基准上,DB-CogACT在所有指标上都优于官方CogACT,平均任务完成长度从3.25提升到了4.06。
在新引入的双臂任务基准RoboTwin 2.0上,DB-CogACT也以58.5%的成功率,超过了CogACT 14.75个百分点,证明了预训练模型在双臂场景下的有效性。
即便是在性能已经接近饱和的LIBERO基准上,使用Dexbotic预训练模型后,CogACT和MemoryVLA等策略依然能获得一些性能提升。
这些巨大的性能提升,证明了通过Dexbotic提供的预训练模型具有强大的表示能力。
在真实世界中,Dexbotic同样表现出色。团队发布了一个任务库,展示了在UR5e、ALOHA、ARX5和Franka等不同机器人上完成的各种日常任务。
在摆盘子和搜索绿色盒子任务中,成功率分别达到了100%和80%。当然,对于像撕碎废纸和将薯条倒入盘子这类精细操作任务,对现有的VLA策略仍然构成挑战。
为了解决真实世界评估劳动强度大的问题,团队还开发了一个名为DOS-Twins的Real2Sim2Real模拟器。它能为公开的真实世界数据集,重建一个高度逼真的模拟环境。
这种逼真体现在三个维度的一致性上:视觉一致性,通过3D高斯溅射(3DGS)技术生成照片级的渲染画面;运动一致性,通过校准让模拟机器人的动力学和运动学特性与真实硬件匹配;交互一致性,通过高精度3D扫描,确保模拟中夹爪与物体的交互在毫米级别上与现实一致。
意味着可以在模拟环境中进行大量、快速、低成本的评估,而其结果又能高度对应真实世界的表现。
Dexbotic工具箱,只是原力灵机布局的第一步。
他们与全球最大的AI开源平台之一Hugging Face合作,推出了RoboChallenge项目。这是全球首个大规模、多场景、基于真实机器人的具身智能评测平台。
唐文斌解释说,目前很多机器人研究都发生在仿真环境中,但仿真到现实之间存在巨大的鸿沟。有些方法在仿真里表现完美,一到真实世界就彻底失败。因此,建立一个基于真实环境的统一、开放、可复现的基准系统至关重要。
RoboChallenge就是对仿真测试的现实世界补充。
他们开发了一种名为Remote Robots的机制。用户的模型可以留在自己的本地服务器上,不需要上传,只需通过HTTP API就可以远程访问和控制RoboChallenge平台上的真实机器人进行测试。测试结果会显示在一个公开的排行榜上。
Dexbotic与RoboChallenge形成了深度的协同效应。
一个研究者,可以使用Dexbotic工具箱高效地开发和训练自己的模型,然后在RoboChallenge这个全球性的真实机器人测试平台上,进行公平、透明的性能验证。
这从基础设施层面,构建了一个从开发-训练-评测的完整技术闭环。
这种协同,将从根本上改变具身智能领域的游戏规则。
它为创业团队和中小厂商提供了可媲美大厂的研发起点,让创新重心从重复造轮子回归到算法突破和场景深化。
它也为企业和投资机构提供了跨模型可比的评估体系,为技术选型和投资决策提供了客观透明的依据。
参考资料:
https://github.com/Dexmal/dexbotic
https://www.zhonglun.com/news/trade/54338.html
https://dexbotic.com/
https://huggingface.co/collections/Dexmal/dexbotic-68f20493f6808a776bfc9fc4
https://robochallenge.ai
https://robochallenge.ai/robochallenge_techreport.pdf
https://github.com/RoboChallenge/RoboChallengeInference
https://huggingface.co/RoboChallengeAI
免责声明:本文来自算泥客户端,不代表超天才网的观点和立场。文章及图片来源网络,版权归作者所有,如有投诉请联系删除。
超天才网©2013-2014 All Rights Reserved 京ICP备09005826号-2 京ICP证130304号