顶刊TPAMI 2026！上交提出Uni-Hand：通用人手运动预测框架-Seo优化-塔城地区网站建设公司

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达

点击进入—>【顶会/顶刊】投稿交流群

添加微信号：CVer2233，小助手拉你进群！

扫描下方二维码，加入CVer学术星球！可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料及应用！发论文/搞科研/涨薪，强烈推荐！

来源：IRMV实验室

IRMV实验室TPAMI'26成果介绍：第一人称视角下的通用人手运动预测框架

论文题目：

Uni-Hand: Universal Hand Motion Forecasting in Egocentric Views

作者：

Junyi Ma, Wentao Bao, Jingyi Xu, Guanzhong Sun, Yu Zheng, Erhang Zhang, Xieyuanli Chen, Hesheng Wang*

项目地址：

https://irmvlab.github.io/unihand.github.io

01、背景与挑战

人手是人与世界产生交互的最重要媒介之一。在服务机器人和增强现实等场景中，系统不仅需要理解人当前在做什么，更需要提前判断人手接下来会移动到哪里、何时与物体接触。若能从第一人称视角视频中预测未来手部运动，就可以为机器人等自主系统提供直观、可迁移的动作先验。现有人手轨迹预测方法通常依赖二维图像输入，难以充分刻画手指、手腕等细粒度目标，也缺少对手-物接触和分离时刻的判断。此外，第一视角中的头部运动与手部运动高度耦合，只利用过去的人手运动作为预测输入会限制模型对未来交互过程的理解。更重要的是，现有的人手运动预测算法方法主要在轨迹误差上验证效果，尚未充分说明其对真实机器人操作和动作理解任务的价值。围绕这些问题，本文提出Uni-Hand，将人手运动预测从“单一中心点轨迹预测”扩展为“多模态、多目标、交互感知、任务条件化”的通用框架，并通过真实机器人和动作理解任务验证其下游可用性。

02、算法框架

图1 Uni-Hand算法框架图

Uni-Hand 的整体思想是：用多模态信息补足第一视角观测的不确定性，用未来头部运动约束手部预测，用目标指示符统一不同手部关键点，并将预测结果直接连接到可执行的下游任务。相比只预测人手中心的传统范式，Uni-Hand同时实现视觉语义理解、人手运动模式捕捉、人手关节运动感知、手-物接触分离时刻预测，并通过预测结果支撑下游任务。其算法框架如图1所示。

多模态输入与统一表征

Uni-Hand 同时利用第一视角图像、历史手部轨迹、点云和文本提示。图像与语言特征帮助模型捕获手、物体和任务语义；点云提供真实三维结构；历史轨迹提供局部运动趋势；文本提示则为语言条件化操作提供接口。这种融合降低了单一图像输入带来的几何歧义，也使模型更适合真实机器人场景。视觉语言融合模块和点云编码模块如图2、图3所示。

图2 视觉语言融合模块

图3 点云编码模块

手头协同的双分支扩散预测

如图4所示，人类在操作物体时，头部视角和手部动作并不是独立发生的。Uni-Hand 设计了双分支扩散模型：一条分支预测未来头部相机运动趋势，另一条分支在该趋势约束下预测手部运动。这样，模型能够显式学习手和头之间的协同关系，使预测轨迹在方向性和稳定性上更符合真实交互过程。

图4 第一视角交互中，头部运动和手部运动相互影响。头部可能先移动以寻找目标，手部运动也可能引导后续视角变化

混合Mamba-Transformer降噪模块

在手部运动分支中，Uni-Hand的混合Mamba-Transformer降噪模块（如图5所示）结合Mamba 的时序建模能力与Transformer的全局上下文建模能力。运动感知 Mamba 负责利用相机运动信息建模长时序变化；结构感知Transformer引入点云体素上下文，使预测更关注可达空间和物体布局；任务感知 Transformer 将任务文本特征注入扩散模型去噪过程，让同一场景下的不同指令产生不同的手部运动结果（如图6所示）。

图5 混合Mamba-Transformer降噪模块

图6 任务文本注入后，不同操作指令会在未来手部运动特征中形成更明显差异，说明模型能够感知具体任务意图

多目标与交互状态预测

Uni-Hand 通过目标指示符统一建模人手中心、手腕和手指关键点，使一个模型能够服务于不同粒度的预测需求。同时，模型还预测手与物体的接触和分离状态。对机器人来说，轨迹决定“移动到哪里”，交互状态则决定“何时抓取或释放”，二者结合才更接近机器人可执行动作。接触和分离状态的训练标签可以由EgoLoc自动标注。

03、实验结果

论文在多个公开数据集和两个自建基准上进行验证，覆盖二维与三维手部轨迹预测、多关节预测、真实机器人操作、动作类别预测、和动作识别等任务。整体结果表明，Uni-Hand 在主要预测指标上优于现有方法，并且预测特征可以有效迁移到下游任务。

预测精度与多目标能力验证

在人手中心点预测中，Uni-Hand 受益于多模态输入和未来相机运动约束，在二维与三维空间均取得更稳健的结果（如图7和图8所示）。多目标实验说明，目标指示符可以帮助模型区分不同手部关键点，从而在统一框架内完成手腕和多手指关节轨迹预测（如图9所示）。

图7 三维手部轨迹预测可视化

图8 二维手部中心预测可视化

图9 多关节预测可视化

自建基准与真实机器人验证

如图10所示，在自建 HAT 基准中，Uni-Hand 将预测到的人手轨迹和交互状态直接转化为机器人末端夹爪动作。实验覆盖推、抓放、堆叠、任务指令下的抓放以及长程抓放等任务。结果显示，Uni-Hand不仅降低了轨迹预测误差，还在真实机器人执行中显著提升任务成功率，体现了人手运动预测对人机策略迁移的实际价值。

图10 真机实验验证

动作理解任务增强验证

除机器人操作外，Uni-Hand 预测的未来手部运动还包含丰富的人类行为语义。如图11和表1所示，将降噪后的运动特征注入已有动作预测和动作识别框架后，模型对动作类别的判断更准确。这说明 Uni-Hand并不是单纯追求轨迹误差更低，而是提供了一种可复用的手部行为表征。

图11 动作预测性能提升

表1 动作识别性能提升

更多可视化和消融实验详见原论文。

04、总结与展望

本文提出Uni-Hand，一个面向第一人称视角的通用人手运动预测框架。它将多模态感知、手头协同建模、多目标手部关键点预测、接触状态预测整合到同一体系中，使人手运动预测从低层轨迹估计进一步走向可执行、可迁移的任务表征。从实验结果看，Uni-Hand在公开数据集、自建基准和真实机器人平台上均展示了良好的预测能力与下游适配能力。未来工作可进一步结合触觉等物理信息，让模型在更复杂、更精细的机器人操作中理解抓取力度、接触稳定性和物体状态变化，从而推动第一视角人类视频向更复杂机器人技能学习的迁移。

文案：Junyi Ma

编辑：Junyi Ma

本文系学术转载，如有侵权，请联系CVer小助手删文

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复：何恺明，即可下载566页课件PPT！大家赶紧学起来！

CVPR 2026 所有论文和代码下载

在CVer公众号后台回复：CVPR2026，即可下载CVPR 2026 所有论文和代码！

CV垂直方向和论文投稿交流群成立

扫描下方二维码，或者添加微信号：CVer2233，即可添加CVer小助手微信，便可申请加入CVer-垂直方向和论文投稿微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。 一定要备注：研究方向+地点+学校/公司+昵称（如Mamba、多模态学习或者论文投稿+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群

▲扫码或加微信号: CVer2233，进交流群 CVer计算机视觉（知识星球）人数破万！如果你想要了解最新最快最好的CV/DL/AI论文、实战项目、行业前沿、从入门到精通学习教程等资料，一定要扫描下方二维码，加入CVer知识星球！最强助力你的科研和工作！ ▲扫码加入星球学习

▲点击上方卡片，关注CVer公众号 整理不易，请点赞和在看

顶刊TPAMI 2026！上交提出Uni-Hand：通用人手运动预测框架

Python路径操作实战：巧用glob.glob()与os.path.join()实现高效文件定位与组装

MESO器件电路设计：超低功耗自旋逻辑的时序与组合电路实现

媒体传讯服务能为企业提供什么？科技企业营销负责人分析

定位精度下滑？警惕同步传动形位误差累积

终极Typora插件完全指南：5个技巧打造你的高效写作工作流

小米路由器R2D开发版固件逆向实战：从文件系统提取到动态仿真分析