1. 项目概述:LDA-1B机器人基础模型
在机器人技术领域,构建能够适应多样化任务的通用智能体一直是研究人员的终极目标。传统方法通常针对特定任务进行专门训练,这种"一任务一模型"的模式既低效又难以扩展。近年来,受大型语言模型(LLMs)和视觉语言模型(VLMs)成功的启发,机器人学界开始探索通过大规模预训练构建通用机器人基础模型的可能性。
LDA-1B(Latent Dynamics Action Model)正是这一方向上的突破性工作。这个拥有16亿参数的基础模型通过创新的"统一世界模型"(Unified World Model, UWM)框架,在结构化DINO潜在空间中联合学习策略、动力学和视觉预测任务。其核心创新在于提出了"通用数据摄取"(Universal Embodied Data Ingestion)范式,能够充分利用传统方法通常丢弃的低质量轨迹和无动作视频中的物理先验知识。
关键突破:传统行为克隆(BC)方法只能利用约5%的高质量专家数据,而LDA-1B通过统一世界模型框架,可以消化利用超过30k小时的异构交互数据,包括真实机器人数据、仿真数据、人类演示和无动作视频。
2. 核心设计思路与技术架构
2.1 统一世界模型框架
传统机器人学习主要采用两种范式:行为克隆(BC)专注于模仿专家动作但难以泛化;模型预测控制(MPC)基于动力学模型但需要精确的状态估计。LDA-1B提出的统一世界模型框架将两者优势结合,同时建模四个关键分布:
- 策略学习:p(aₜ₊₁:ₜ₊ₖ|oₜ) - 基于当前观测预测未来动作序列
- 正向动力学:p(oₜ₊₁:ₜ₊ₖ|oₜ,aₜ₊₁:ₜ₊ₖ) - 预测动作对状态的影响
- 逆向动力学:p(aₜ₊₁:ₜ₊ₖ|oₜ:ₜ₊ₖ) - 从状态变化推断动作
- 视觉规划:p(oₜ₊₁:ₜ₊ₖ|oₜ) - 纯视觉条件下的未来状态预测
这种统一建模使得不同类型的数据可以各尽其用:高质量数据训练策略和动力学,低质量数据专攻动力学学习,无动作视频则贡献视觉预测能力。
2.2 结构化DINO潜在空间
传统UWM方法直接在像素空间预测未来状态,导致模型将大量计算资源浪费在对任务无关的视觉细节(如光照变化、背景杂乱)的建模上。LDA-1B创新性地采用DINO(一种自监督视觉模型)的潜在空间作为预测目标,其优势在于:
- 保留高层语义和空间结构(如物体姿态、相互关系)
- 过滤低层视觉噪声(纹理、光照等)
- 支持跨环境的泛化(仿真→真实迁移)
- 计算效率更高(相比像素级重建)
实验表明,仅这一改进就将RoboCasa基准上的成功率从20.0%提升至55.4%,验证了结构化表征对动力学学习的关键作用。
2.3 多模态扩散变压器(MM-DiT)
为处理异步的视觉(3Hz)和动作(10Hz)数据流,LDA-1B设计了专用的多模态扩散变压器架构。其核心组件包括:
- 模态专家分离:视觉和动作各有独立的编码器/解码器
- 共享自注意力层:实现跨模态信息交换
- 自适应层归一化(AdaLN):注入任务、时间和语言条件
- 寄存器令牌:灵活处理不同输入输出组合(如纯视觉预测时用动作寄存器占位)
这种设计既保留了模态特异性处理(如动作序列的时序建模),又支持跨模态知识共享,在1B参数规模下仍能稳定训练。
3. 数据体系与训练策略
3.1 EI-30k数据集构建
为支持大规模训练,团队构建了EI-30k(Embodied Interaction Dataset),这是目前最大的具身交互数据集之一,特点包括:
- 规模:总计30k小时,包括:
- 8.03k小时真实机器人数据
- 8.6k小时仿真数据
- 7.2k小时带动作标注的人类演示
- 10k小时无动作人类视频
- 标准化:统一为LeRobot格式,包含:
- RGB观测(egocentric视角)
- 末端执行器坐标系下的6D位姿+手部参数
- 语言指令标注
- 明确的质量标签(高/中/低)
- 坐标对齐:手工校准不同机器人/人类手部的坐标系,实现跨平台知识迁移
3.2 通用数据摄取策略
LDA-1B的核心创新在于差异化利用异构数据:
- 高质量数据(专家演示):同时训练策略和动力学
- 中低质量数据(含噪声轨迹):仅用于动力学学习
- 无动作视频:纯视觉预测训练
这种"分而治之"的策略通过四种可学习的任务嵌入(policy/fwd/inv/visual)实现,在扩散模型的去噪过程中通过条件注入来控制训练目标。
3.3 训练配置与优化
- 硬件:48×NVIDIA H800 GPU集群
- 训练时长:400k迭代步(约4,608 GPU小时)
- 冻结组件:保持DINO编码器和VLM(Qwen3-VL)参数固定
- 损失函数:基于流匹配(flow-matching)的复合目标:
ℒ = 𝔼[‖vθ_a - (ϵ_a - aₜ₊₁:ₜ₊ₖ)‖²] + 𝔼[‖vθ_o - (ϵ_o - oₜ₊₁:ₜ₊ₖ)‖²] - 学习率:初始3e-4,余弦退火调度
4. 性能评估与实验结果
4.1 仿真环境测试(RoboCasa-GR1)
在包含24个桌面重排和关节物体操作任务的RoboCasa-GR1基准上,LDA-1B展现出显著优势:
| 模型 | 参数量 | 成功率 |
|---|---|---|
| GR00T-N1.6 | 3B | 47.6% |
| UWM-1B (VAE) | 1B | 19.3% |
| LDA-1B (DINO) | 1B | 55.4% |
关键发现:
- 结构化DINO潜在空间带来35.4%的绝对提升
- 在接触密集任务上相对提升21%
- 灵巧操作任务提升达48%
4.2 真实机器人部署
在Galbot G1和Unitree G1平台上,LDA-1B展示了出色的few-shot适应能力:
夹爪操作任务:
- 基础拾放:80-90%成功率
- 接触密集操作(如用锤子钉钉子):80% vs 基线的40%
- 长时程任务(如清扫桌面):35% vs 基线的0%
灵巧手任务:
- 低自由度(如开笔记本):100% vs 20%
- 高自由度(如用铲子翻面包):90% vs 10%
4.3 数据高效微调
在混合质量数据微调实验中,LDA-1B展现出独特优势:
| 任务 | 仅高质量数据 | 混合质量数据 | 变化 |
|---|---|---|---|
| 笔放入盒(π0.5) | 60% | 40% | ↓20% |
| 笔放入盒(LDA-1B) | 70% | 80% | ↑10% |
| 双手开盖(π0.5) | 50% | 40% | ↓10% |
| 双手开盖(LDA-1B) | 50% | 60% | ↑10% |
这表明传统方法会被低质量数据干扰,而LDA-1B能有效提取其中有用的动力学信息。
5. 关键创新与工程洞见
5.1 技术突破点
- 统一世界模型的规模化实现:首次证明UWM框架可扩展至10B参数级别
- 视觉-动作解耦表征:DINO潜在空间避免冗余像素建模
- 异步多模态处理:MM-DiT架构支持不同频率的视觉/动作流
- 质量感知训练:通过任务嵌入实现数据差异化利用
5.2 实践建议与避坑指南
基于项目经验,总结出以下实操建议:
数据准备阶段:
- 务必进行坐标系统一(建议采用末端执行器坐标系)
- 保留适量低质量数据(约20-30%比例)
- 对无动作视频进行运动片段提取(去除静止画面)
模型训练阶段:
- 先预训练DINO编码器(冻结可加速收敛)
- 采用渐进式训练:先视觉预测,再加入动作任务
- 监控各任务损失平衡(可动态调整权重)
部署调优阶段:
- 优先微调最后几层MM-DiT块
- 保持语言条件模块固定(避免灾难性遗忘)
- 对新平台进行少量(≈100轨迹)域适应训练
5.3 局限性与未来方向
当前限制:
- 仍依赖第三方VLM进行语言理解
- 长时程任务(>5分钟)的规划能力有限
- 对透明/反光物体的处理有待提升
潜在改进方向:
- 引入物理引擎增强仿真数据真实性
- 探索更高效的动作表征(如运动基元)
- 结合大语言模型进行高层任务分解
这个项目最深刻的启示是:在机器人学习中,数据多样性可能比数据质量更重要。通过适当的架构设计和训练策略,那些传统上被丢弃的"不完美"数据反而能成为提升模型鲁棒性和泛化能力的关键资源。