news 2026/7/2 20:00:53

复旦团队提出 ICWM 方法:提升 VLA 模型新环境适应能力,跨视角成功率最高提升 13%

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
复旦团队提出 ICWM 方法:提升 VLA 模型新环境适应能力,跨视角成功率最高提升 13%

【导语:视觉 - 语言 - 动作(VLA)模型部署时易因环境变化性能下降,复旦大学邱锡鹏教授团队提出“上下文世界建模”(ICWM)方法,显著提升了 VLA 模型在新环境中的适应能力。】


ICWM 破 VLA 模型部署痛点

视觉 - 语言 - 动作(VLA)模型部署时,相机视角等稍有变化性能就可能下降。以往的“上下文学习”靠人工演示任务,环境改变时需重新收集数据、调模型,费时费力。而 ICWM 让机器人在任务执行前进行随机探测,将交互过程作为上下文输入模型来判断系统运作。

训练推理:ICWM 独特流程

ICWM 设计分训练和推理阶段。训练阶段,在每个任务样本前拼接与任务无关的交互片段作为上下文输入,模型根据画面变化判断系统配置,且直接用 VLA 主干处理交互历史,简化结构并利于动作预测。

推理阶段,机器人先进行主动探测,记录动作前后观测变化形成交互上下文,再结合当前上下文、画面和任务指令判断后续动作。

实验验证:ICWM 性能显著

在跨视角、真实机器人和多种分布外扰动实验中,ICWM 表现出色。在 LIBERO 仿真基准跨视角实验中,已见视角下比仅依赖多视角训练的方法平均高出8.1%,新视角下高出13.0%,长时序任务累积误差控制更好。

在 UR5e 真实机器人平台上,标准 VLA 从训练视角切换到测试视角后平均成功率从68%降至17%,ICWM 稳定性更强。消融实验表明其性能提升来自交互上下文,且不依赖特定探测方式,不同探测策略成功率提升约15%27%,对机器人形态变化和语义扰动场景也有适应性。

ICWM 不足与未来方向

尽管 ICWM 提升了 VLA 模型新环境适应能力,但仍有不足。部分极端视角下性能提升有限,因存在严重遮挡和目标移出视野问题,未来需结合多视角感知等能力。语义扰动实验中提升也有限,扩充训练数据场景语义和组合配置有望提升其在该场景表现。

编辑观点:ICWM 为 VLA 模型发展带来新突破,提升了适应能力,但仍有改进空间。未来若能解决不足,将推动机器人在复杂环境下的应用。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/7/2 19:57:03

Meta限制使用Claude Code和Codex:防“蒸馏陷阱”,省钱又避险!

Meta划定红线限制AI模型使用今年5月,Meta给自家工程师划定红线,应用AI工程部门人员不能再随意使用Claude Code和Codex。据The Information拿到的内部指南,一份备忘录要求暂停某些用到这两个模型的任务,称这可能触发「与合作方的严…

作者头像 李华
网站建设 2026/7/2 19:51:05

Whisky:在macOS上重构Windows应用运行边界的架构革命

Whisky:在macOS上重构Windows应用运行边界的架构革命 【免费下载链接】Whisky A modern Wine wrapper for macOS built with SwiftUI 项目地址: https://gitcode.com/gh_mirrors/wh/Whisky 当开发者面对"在macOS上运行Windows程序"这一经典挑战时&…

作者头像 李华
网站建设 2026/7/2 19:49:35

PBE-UNet:基于边界引导特征增强的超声图像分割方法详解

1. 项目概述:当超声图像分割遇上边界模糊的挑战在医学影像分析领域,超声图像分割一直是个让人又爱又恨的活儿。爱的是它的无创、实时和低成本,恨的是它那出了名的低对比度、斑点噪声和模糊的组织边界。你盯着屏幕,明明知道那里是肝…

作者头像 李华
网站建设 2026/7/2 19:48:07

AI教材写作必备:低查重AI工具,为教材编写保驾护航!

很多教材编写者常常感到遗憾:虽然正文内容经过精心打磨,但如果配套资源缺乏,就会影响整体的教学效果。课后练习要具备梯度设计,却常常缺少新颖的思路;想要制作直观的教学课件,然而技术能力却有限&#xff1…

作者头像 李华