一、一个看似简单的问题
想象一下:你戴上一只轻薄的手套,随手拿起盒子旋转、插入插头、拧紧灯泡——这些对人类毫不费力的动作,如果要教会机器人,传统方式需要工程师花数小时甚至数天进行远程操作示教。
更棘手的是,人类手套采集的触觉信号和机器人指尖传感器采集的信号,完全是"两种语言"。
这正是密歇根大学、NVIDIA、UC Berkeley、华盛顿大学、微软研究院等机构研究者在最新论文TactAlign中试图解决的核心难题。
TactAlign论文视频
二、为什么触觉迁移这么难?
在机器人学习领域,人类示教正成为重要数据来源——采集速度比机器人遥操作快2-3倍,且人类操作天然灵巧。但大多数方法只利用视觉或运动学信息,触觉反馈——这个在人类操作中起核心作用的感官通道——在跨本体迁移中几乎被忽略。
难点有三:
-传感器异构:人类戴柔性磁皮肤手套,机器人装离散磁基传感器,信号维度、分辨率、物理特性完全不同
-本体差异:人手23个自由度,机器人手部结构迥异,不存在一一对应映射
-数据不配对:要求人类和机器人在同一时间做完全相同动作并记录配对数据,在动态接触交互中几乎不可能
论文的实验平台很能说明问题。人类端采用基于柔性磁皮肤的OSMO开源触觉手套,可捕捉剪切力和法向力;机器人端则是Allegro Hand四指灵巧手——这款16自由度的多指操作平台,以其高灵活度和精确的独立手指控制能力,为复杂接触-rich任务提供了充分的动作空间。指尖搭载的Xela Uskin触觉传感器提供30×3空间分辨率的离散磁基传感,与OSMO的1×3分辨率形成鲜明对比。两者在传感机制、信号尺度、空间分辨率上差异显著,却要在同一套策略框架下协同工作。
三、TactAlign的两步解法
研究团队提出的方案分为两个阶段,巧妙避开了所有障碍:
第一阶段:各自学习"母语"
人类和机器人触觉编码器分别通过自监督学习独立训练,各自学习模态特异性的表征。先让双方各自说好自己的"母语",而不是强行统一。
第二阶段:用"伪配对"做翻译
这是论文最精妙的设计。研究者从手-物交互轨迹中提取"伪配对":通过比较指尖姿态、物体姿态及变化速度,找到语义上"做了类似事情"的时刻。这些配对天然带噪声,但采用Rectified Flow(整流流)学习从人类到机器人触觉隐空间的映射。
Rectified Flow的优势在于:天然适合处理噪声配对,能学习低成本的隐空间"运输"路径,即使伪配对不完美,也能收敛到高效对齐映射。
四、数据说话:对齐与否,天壤之别
实验结果令人印象深刻。在旋转、插入、盖盖三个接触-rich任务上:
方法 | 平均成功率 |
仅机器人数据 | 38% |
无触觉输入 | 21% |
有触觉但未对齐 | 28% |
TactAlign(完整方法) | 79% |
关键发现:
-触觉对齐是决定性的:未对齐的触觉特征反而有害,比"不用触觉"还差。这说明跨本体触觉语义不一致会直接干扰策略学习。
-人类数据的杠杆效应:仅用约5分钟人类演示(每个新物体20次),就能让机器人泛化到从未见过的物体,成功率提升超50%。
-任务级泛化:对齐阶段从未见过的"盖盖"任务上,TactAlign依然稳健,说明学到的触觉对齐具有跨任务迁移能力。
五、零样本旋灯泡:当机器人只靠"看"人类操作
论文中最具说服力的实验是灯泡旋拧——对灵巧度和触觉反馈要求极高,且存在严重视觉遮挡(灯罩遮挡)。在这个任务中,机器人完全没有见过任何机器人示教数据,仅靠20次人类演示(约10分钟采集)就实现了100%成功率。
无触觉和无对齐的基线方法成功率均为0%。
拧灯泡对比
这背后的关键在于:
- 人类演示者依靠丰富触觉反馈引导精确手指运动
-Manus数据手套提供了鲁棒的手部姿态估计。这款动捕手套的核心优势在于其多传感器融合方案和抗遮挡能力——即使在灯泡、灯罩等物体严重遮挡视觉的情况下,依然能稳定输出精确的手部关节角度和指尖位置,为伪配对提取提供了可靠的姿态基础。
-Franka七轴力控机械臂的精确力控能力,使得学习到的策略能够安全、准确地执行。其内置的力/力矩感知和柔顺控制特性,在旋拧这种需要精细力调节的任务中尤为重要——既能保证足够的接触力建立稳定抓取,又能在遇到阻力时自动调整,避免过度用力导致物体损坏。
六、一个有趣的副产品:力可以"跨传感器预测"
研究者做了跨传感器力预测实验:用仅在机器人Xela数据上训练的力解码器,预测人类手套信号对应的接触力。结果令人惊讶——经过TactAlign对齐后,三轴力预测误差分别降低98%、99%和93%,接近机器人自预测的上界。
这意味着:TactAlign学到的对齐不仅是统计层面的分布匹配,还保留了物理上有意义的力信息。人类手套"用力大"的区域,确实映射到了机器人传感器"用力大"的区域——尽管训练过程中从未使用过任何力标签。
七、给研究者的启发
TactAlign的价值在于提出了一种可扩展的跨本体触觉迁移范式:
-无需配对数据:大大降低数据采集门槛
-无需统一传感器:让不同实验室、不同硬件平台上的数据可以互通
-模态解耦:视觉差异和触觉差异可分别处理,为未来多模态统一策略留下空间
对于从事机器人学习、触觉感知或模仿学习的研究者,这篇论文提示了一个重要方向:触觉不是附属品,而是跨本体迁移中的关键桥梁。当你的人类数据和机器人数据之间存在"感官鸿沟"时,先对齐触觉隐空间,可能比强行统一动作空间更有效。
而论文中 Allegro Hand、Xela Uskin、Manus 、Franka 的组合选择,也提供了一个值得参考的实验平台搭建思路:高自由度的灵巧手提供动作空间,高分辨率触觉传感器提供感知反馈,鲁棒动捕手套解决人类端姿态估计,力控协作臂保障安全执行——四者协同,方能将算法创新转化为可靠的物理表现。
论文信息
> TactAlign: Human-to-Robot Policy Transfer via Tactile Alignment
> Youngsun Wi et al., arXiv:2602.13579, 2026
> 项目主页:https://yswi.github.io/tactalign/
欢迎关注 “欣佰特科技” ,持续为大家带来 “具身智能领域”前沿技术及应用!详情可邮件咨询sales@cnbestec.com