清华姚班团队，开源具身智能视觉语言动作（VLA）模型工具箱，打造行业通用技术底座—

清华姚班团队，开源具身智能视觉语言动作（VLA）模型工具箱，打造行业通用技术底座

发布时间:2025年10月24日来源：算泥作者：suani 浏览量：12

一群来自清华姚班、前旷视科技的核心人物，决定为具身智能领域建立一套通用准则，叫Dexbotic。

Dexbotic是基于PyTorch的视觉语言动作（Vision-Language-Action，VLA）模型工具箱。目的是为具身智能领域的专业人士提供一站式VLA研究服务，由一家叫原力灵机（Dexmal）的具身智能公司开发。

Dexbotic由大牛开发，并开源

原力灵机专注于具身智能（Embodied Intelligence）技术研发，2024年11月成立。刚成立，就宣布完成2亿元天使轮融资，投资方包括君联资本、九坤创投和启明创投。

原力灵机的核心团队出身于知名人工智能公司旷视科技，兼具顶尖学术背景以及超过10年的AI原生产品落地经验。

创始人兼CEO唐文斌是旷视科技联合创始人兼CTO，清华大学"姚班"出身，首届"Yao Award"金牌得主。

近年随着视觉-语言-动作（VLA）模型的发展，具身智能领域发展迅速。VLA模型能够将视觉感知、语言理解和动作执行整合到一个统一的框架中，使机器人能够理解自然语言指令并执行相应的物理任务。

根据《2025人形机器人与具身智能产业研究报告》数据，2025年，全球具身智能市场规模预计达195.25亿元，2030年预计达2326.3亿元，复合年增长率达64.18%。

然而，在行业繁荣的背后，是研发路径中的重重困境。搞具身智能的全球研究者们，说着不同的语言。

有人用PyTorch，有人用TensorFlow。有人基于这个视觉模型，有人基于那个语言模型。每个人都在自己的角落里，用自己的一套工具和方法论，从零开始搭建基础设施。硬件接口、通信协议、数据格式五花八门，没有统一的规范。

整个领域形成了一个个碎片化的开发生态。这带来了几大困难。

一个研究团队发布了一个看起来很厉害的新算法，另一个团队想要复现对比一下，麻烦就来了。他们得先花大量时间和精力去搭建一套和发布者一模一样的实验环境，处理截然不同的数据格式。这个过程极其繁琐，耗费巨大的人力、算力和时间。很多时候，仅仅是环境配置的微小差异，就可能导致结果天差地别。

在现有模式下，你很难说清一个算法表现不好，究竟是算法本身的问题，还是因为你没有把它调整到最优状态。这严重影响了对技术路线的客观判断和有效迭代。

同时，很多视觉-语言-动作（VLA）模型，也就是控制机器人干活的核心大脑，还在使用一些过时或者不同时期的视觉-语言模型（VLM）作为基础。这导致VLM领域在语义理解、多模态对齐方面的最新技术突破，无法顺畅地传导到VLA模型上，限制了机器人在开放世界里的泛化和推理能力。

当具身智能要从仿真环境走向现实世界时，问题变得更加复杂。研究者需要在主流的仿真器和真实的机器人上同步测试，这对现有的研发模式提出了更大的挑战。

整个行业，都在为这种重复造轮子的内耗付出高昂的代价。创新，在很多时候，被淹没在了繁琐的环境配置与算法复现工作中。

正是洞察到以上行业瓶颈，原力灵机Dexbotic团队研发并开源了Dexbotic。

一套代码库，一个通用底座

Dexbotic是一个基于PyTorch的开源视觉-语言-动作（VLA）模型工具箱。它的核心理念，是想通过代码库+预训练模型的双引擎，为具身智能研究打造一个通用底座。

这个底座的目标：把开发者从繁琐的环境配置和算法复现中解放出来，让他们能真正专注于模型调优和算法创新本身。

为了实现这个目标，Dexbotic设计了一个三层闭环的研发架构。

第一层是数据层。它定义了一种名为Dexdata的统一数据格式。不管你的数据来自哪个机器人、哪个传感器，只要转换成这个格式，就能无缝接入Dexbotic的处理流程。这就像一个万能数据适配器，不仅统一了标准，还优化了存储效率，为后续的模型训练提取出标准的图像、文本和状态信息。

第二层是模型层。这一层的核心是DexboticVLM基础模型。它像一个高度标准化的汽车底盘，上面可以搭载各种不同风格的车身，也就是多样化的VLA策略。无论是直接用于离散动作的训练，还是作为现有策略（比如Pi0、OpenVLA-OFT）的基座，都可以。目前，它已经集成了Pi0、OpenVLA-OFT、CogACT、MemoryVLA、MUVLA等多种主流策略，并且支持用户很方便地自定义新模型。

第三层是实验层。这是Dexbotic的精髓所在。它基于模型层的实现，创造了一套实验脚本机制。用户想跑一个新实验，不再需要重写大量代码，往往只需要修改几行配置，就能快速启动。这种分层配置+工厂注册+入口分发的软件架构，在保证系统稳定性的前提下，赋予了框架极高的灵活性。

比如，用户想跑一个实验，只需在终端输入一行命令：python xxx_exp.py -task train。这里的task可以切换成train（训练）或inference（推理）。这种设计，比传统的基于YAML文件进行配置的方式（例如LeRobot工具箱），更贴近开发者的编程习惯，让参数调试、实验复现和版本管理变得异常直观高效。

Dexbotic想做的，就是把具身智能研发过程中那些最耗时、最繁琐、最重复性的工作，全部标准化、自动化。它提供统一的框架、强大的预训练模型、灵活的实验流程、以及对云端和本地训练环境的全面支持。

它甚至还开源了硬件。为了加速技术在真实世界的落地，原力灵机发布了首款开源硬件产品——Dexbotic Open Source - W1 (DOS-W1)。从技术文档、BOM清单、设计图纸到组装方案和相关代码，全部公开。这个硬件大量采用快拆结构和可替换模块，让改造和维护变得非常方便。

从软件到硬件，从代码到部署，Dexbotic试图覆盖从仿真验证到真实机器人无缝落地的完整流程，打通研发测试的最后一公里。

强大的预训练模型是核心优势

统一的框架是Dexbotic的骨架，高性能的预训练模型则是它强健的肌肉。

为了满足不同用户对各种机械臂的需求，Dexbotic提供了两类预训练模型：一类是用于通用VLA策略的预训练离散模型，另一类是用于特定VLA策略的预训练连续模型。后者又进一步分为单臂和双臂任务的版本。

离散预训练模型，名为Dexbotic-Base。它在一个庞大且多样的数据集上进行了预训练，这个数据集里不仅包含了Open-X Embodiment数据集的子集，还有来自多个主流模拟器（如RLBench、LIBERO和ManiSkill2）的数据，甚至还包括了一些真实机器人（如UR5）的数据。

它的训练方式很巧妙。在训练过程中，机器人真实、连续的动作，被量化切分成了256个区间，然后模型被训练来预测这些离散的标记。这个经过预训练的Dexbotic-Base模型，可以直接作为任何基于VLM的操作和导航策略的微调起点。用户可以用它来学习离散动作，也可以在它的基础上添加一个动作专家（Action Expert）模块，来处理连续动作。

连续预训练模型，以CogACT策略为例，我们来看看Dexbotic是怎么做的。它首先用前面提到的Dexbotic-Base模型来初始化VLM部分，然后随机初始化一个DiT（扩散变换器）头部，接着用真实的连续动作数据来监督整个模型的训练。

用于训练的数据来源，除了Open-X等公开数据集，还包括了原力灵机自己收集的私有数据集。这份私有数据集，是团队使用八种不同的单臂真实机器人、在52个操作任务中收集的。这八种机器人包括UR5、Franka、Unitree Z1、Realman GEN72等等，它们的形态、自由度（DoF）各不相同。在一个模型里消化掉这么多形态迥异的机器人数据，本身就是对基础设施能力的巨大挑战，但也正因如此，训练出的模型才具有更强的泛化能力。这个模型被称为Dexbotic-CogACT。

混合臂连续模型，则更进一步。原始的CogACT策略并不支持多视角输入和双臂协同。Dexbotic对它进行了改造。为了支持双臂任务，他们将模型的噪声标记从7个增加到16个，前半部分代表左臂动作，后半部分代表右臂动作。

训练时，它在单臂连续模型的基础上，继续用混合臂的机器人数据进行训练。这些数据除了前面提到的单臂数据，还引入了Robomind、AgiBot World等双臂数据集，以及团队自己用ALOHA双臂机器人收集的私有数据。一个聪明的做法是，当输入单臂数据时，就只用这部分数据来监督前半部分的标记，后半部分的损失在训练中被忽略。这样就高效地利用了所有可得数据。为了支持多视角输入，来自不同摄像头的图像共享同一个视觉编码器，提取出的视觉标记被连接起来，作为语言模型的输入。

这一系列精心设计的预训练模型，为开发者提供了一个极高的起点和可靠的性能基准，有效降低了从零开始的训练成本。

用Dexbotic训练的模型更强了

Dexbotic在多个主流的模拟基准测试中，验证了这些预训练模型的有效性。

首先是SimplerEnv，一个旨在缩小模拟与现实差距的基准。结果显示，使用了Dexbotic预训练模型，DB-CogACT比官方的CogACT成功率高出18.2%。DB-OFT与官方OpenVLA-OFT相比，成功率更是提升了惊人的46.2%。在一个本身就是领域内最先进的策略MemoryVLA上，使用Dexbotic预训练模型后，成功率也提升了超过12%。