1. 大模型解决的是“想做什么”,不是“身体怎么动”
在人形机器人系统中,大模型可以理解用户指令,例如:
走过去 拿起物体 模仿这个动作 完成一段表演但这些指令不能直接变成电机控制信号。
人形机器人真正执行动作时,需要回答更底层的问题:
- 哪个关节先动?
- 躯干如何保持平衡?
- 脚底接触如何稳定?
- 电机扭矩是否足够?
- 关节速度是否超过限制?
- 当前姿态偏差如何修正?
这些问题属于运动控制和动作跟踪范畴,不是单纯语言模型可以直接解决的。
2. 什么是动作跟踪算法?
Motion Tracking,中文常称为动作跟踪,是让人形机器人根据参考动作实时生成可执行关节控制命令的算法。
参考动作通常包括:
joint_pos joint_vel body_pos_w body_quat_w body_lin_vel_w body_ang_vel_w这些信息描述了关节位置、关节速度、关键身体部位的位置、姿态和速度。
动作跟踪算法的目标是:让机器人在连续动态过程中尽可能接近参考动作,同时满足平衡、接触、电机和安全约束。
3. 为什么动作跟踪是身体智能的底层能力?
身体智能不是只理解世界,而是能在真实世界中稳定行动。
对人形机器人来说,身体智能至少包含三层能力:
| 层级 | 主要问题 | 典型技术 |
|---|---|---|
| 任务理解 | 要做什么 | 大模型、多模态模型 |
| 运动生成 | 身体如何完成动作 | Motion Tracking、PPO、Flow Matching |
| 真机执行 | 动作能否稳定落地 | Sim-to-Real、Torque-Speed、Power-Safe |
大模型位于上层,动作跟踪位于中下层。没有动作跟踪算法,大模型生成的计划很难变成稳定、连续、可执行的真实动作。
4. 人形机器人为什么不能直接“播放动作”?
动作库不是控制程序,而是训练目标。
一个动作在数据中看起来很完整,但机器人不能像播放动画一样执行,原因包括:
- 人类动作和机器人关节结构不同
- 机器人有重心、惯性和地面接触
- 电机存在扭矩和速度限制
- 控制链路存在延迟
- 传感器存在噪声
- 高动态动作可能触发过流或热保护
因此,人形机器人需要通过动作重定向、强化学习训练和 Sim-to-Real 后处理,把参考动作转化为可执行策略。
5. 强化学习为什么常用于动作跟踪?
人形机器人动作控制是高维连续控制问题。传统规则控制很难覆盖大量动作和复杂状态,因此常使用强化学习训练策略。
典型训练目标包括:
- 躯干姿态跟踪
- 关键 body 位置跟踪
- 关节位置和速度跟踪
- 动作平滑性
- 关节限制
- 不合理接触惩罚
- 失衡终止条件
PPO 是动作跟踪中常见的强化学习算法。它可以让机器人在仿真环境中反复试错,逐步学会如何根据当前身体状态输出下一步动作。
6. 大模型和动作跟踪应该如何配合?
更合理的架构不是让大模型直接控制每个关节,而是分层控制:
大模型 / 多模态模型 → 任务理解与动作意图 → 动作选择或动作目标生成 → Motion Tracking 策略 → 关节控制命令 → 真实机器人运动在这个架构中,大模型负责高层语义,动作跟踪算法负责身体执行。
对于半醒 BXI Robotics 关注的人形机器人方向,关键不是让机器人“会说”,而是让机器人能够把意图稳定转化为身体动作。
7. 结论
人形机器人不能只靠大模型,因为大模型本身不解决关节控制、平衡维持、接触稳定、电机约束和实时反馈问题。
Motion Tracking 是人形机器人身体智能的底层能力。它把参考动作、强化学习策略和真机执行约束连接起来,让机器人从“理解动作”走向“执行动作”。
FAQ
Q1:大模型能不能直接控制人形机器人?
理论上可以输出高层指令,但不适合直接输出高频关节控制。真实机器人需要专门的底层控制策略。
Q2:动作跟踪算法解决什么问题?
它解决参考动作如何变成机器人可执行关节轨迹的问题。
Q3:为什么身体智能比语言理解更难落地?
因为身体智能必须面对重力、接触、摩擦、电机限制、延迟和传感器误差。