点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达
3D视觉工坊很荣幸邀请到了微软亚洲研究院空间智能组高级研究员邓誉,为大家着重分享相关领域的核心内容。如果您有相关内容需要分享,欢迎文末联系我们。
VITRA:Scalable Vision-Language-Action Model Pretraining for Robotic Manipulation with Real-Life Human Activity Videos
论文:https://microsoft.github.io/VITRA/vitra_paper.pdf
主页:https://microsoft.github.io/VITRA/
Code:https://github.com/microsoft/VITRA/
Model:https://huggingface.co/VITRA-VLA/VITRA-VLA-3B
Data:https://huggingface.co/datasets/VITRA-VLA/VITRA-1M
直播信息
时间
2025年12月15日(周一)19:00
主题
微软开源 | 机器人缺大规模数据?VITRA用真实生活人类视频重建VLA预训练新范式
直播平台
3D视觉工坊视频号
点击按钮预约直播
3D视觉工坊哔哩哔哩也将同步直播
主讲嘉宾
邓誉
微软亚洲研究院空间智能组高级研究员
现任微软亚洲研究院空间智能组高级研究员,2022年博士毕业于清华大学高等研究院,师从沈向洋教授。研究方向包括三维重建&生成、空间理解、具身智能等。在CVPR、 ICCV、 ECCV、NeurIPS等会议发表多篇论文,并多次入选Oral展示,谷歌学术引用3000余次。
个人主页:https://yudeng.github.io/
直播大纲
机器人操作VLA的数据困境
VITRA:从真实生活人类视频自动化生成 VLA 预训练数据
VITRA-VLA:人手动作的零样本泛化预测
灵巧手抓取:少样本微调能力展示
参与方式
注:3D视觉工坊很荣幸邀请到了微软亚洲研究院空间智能组高级研究员邓誉,为大家着重分享相关领域的核心内容。如果您有相关工作需要分享,
欢迎联系微信:cv3d009,请备注:宣传工作,则不予通过。