news 2026/5/25 8:32:15

港科大与美团联合发布大规模“视频衍生”主体驱动图像生成与编辑开源数据集

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
港科大与美团联合发布大规模“视频衍生”主体驱动图像生成与编辑开源数据集

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【顶会/顶刊】投稿交流群

添加微信号:CVer2233,小助手拉你进群!

扫描下方二维码,加入CVer学术星球!可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料及应用!发论文/搞科研/涨薪,强烈推荐!

香港科技大学与美团联合推出开源项目 OpenSubject。该项目基于公开视频构建了一个超大规模主体驱动图像生成与编辑数据集,涵盖 250 万样本、435 万张图像,专门面向“指定人物 / 物体的个性化生成与编辑”这一前沿任务,聚焦多主体、复杂场景下的身份保持与语义一致性难题。

直击痛点:多主体 & 复杂场景的生成与编辑

主体驱动图像生成旨在在给定文本和参考图片的条件下,生成既“像这个人 / 物体”,又符合新场景、新动作描述的图像,是个性化内容创作、虚拟人物复刻、IP 角色运营、游戏与影视制作等应用的基础能力。但依然存在诸多挑战:

  • 多主体合成:同时放入多个人物或人物+物体时,容易“串脸”、丢失某个主体身份,或搞混人物间关系;

  • 复杂场景编辑:将场景中某个目标替换为参考人物时,模型常常“改多了”,把背景、其他非目标内容一起改坏;

  • 数据源受限:以往数据集要么高度依赖合成,要么基于网页图片检索,难以兼顾真实多视角变化与大规模可扩展性。

核心创新:用“视频”作为主体与多视角先验

OpenSubject 提出利用视频作为身份与多视角先验: 同一个主体在视频中随时间变化,天然包含了不同视角、姿态、光照和环境,是学习“既稳定又多样”的主体表示的理想来源。

在此基础上,团队设计了一条 四阶段自动化数据构建流水线:

1. 视频筛选

仅保留分辨率 ≥ 720p、审美评分 ≥ 5.8 的高质量片段,确保画面清晰、主体稳定。

2. 跨帧主体挖掘与配对

使用多模态大模型检测每帧主体类别,并做跨帧一致性约束;结合 Grounding-DINO 与几何规则剔除遮挡、残缺、虚焦样本,再用 DINOv2 特征选择外观差异最大的一对帧,既保证同一主体,又最大化视角与场景多样性。

3. 身份保持参考图合成

²生成任务:基于分割掩码做不规则外扩式 outpainting,借助 FLUX.1 Fill [dev] 合成包含主体的复杂场景输入图。

²编辑任务:基于框引导 inpainting,将原图目标区域抹去,再由模型根据参考主体“填回去”,构造主体替换样本。

同时加入几何增强与不规则边界腐蚀,减少边缘条带、黑边等伪影。

4. 验证与 Caption 生成

再次使用多模态大模型对合成结果进行伪影检测与物理合理性审查,不合格样本自动重生成。为每个样本生成“短描述 + 长描述”两种风格的 caption,覆盖生成类与编辑类指令。

OSBench:面向主体驱动生成与编辑的基准

为系统评估主体驱动模型的能力,团队同步提出 OSBench 统一基准,涵盖单主体 / 多主体生成与编辑四类子任务,并基于 VLM 评分体系,对提示遵从度、身份保持与编辑质量进行量化评估。

实验结果

1. 在OSBench上显著提升了baseline模型性能。

2. 在其他的的主体驱动benchmark和图像编辑benchmark上也大幅提升baseline的能力。

3. 可视化比较不同模型。

项目已开源

论文地址:https://arxiv.org/abs/2512.08294

项目地址:https://github.com/LAW1223/OpenSubject

Benchmark和数据集下载地址:

²https://huggingface.co/datasets/AIPeanutman/OpenSubject

²https://huggingface.co/datasets/AIPeanutman/OSBench

模型地址:

https://huggingface.co/AIPeanutman/OpenSubject

本文系学术转载,如有侵权,请联系CVer小助手删文

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复:何恺明,即可下载本课程的所有566页课件PPT!赶紧学起来!

ICCV 2025 论文和代码下载

在CVer公众号后台回复:ICCV2025,即可下载ICCV 2025论文和代码开源的论文合

CVPR 2025 论文和代码下载

在CVer公众号后台回复:CVPR2025,即可下载CVPR 2025论文和代码开源的论文合集

CV垂直方向和论文投稿交流群成立

扫描下方二维码,或者添加微信号:CVer2233,即可添加CVer小助手微信,便可申请加入CVer-垂直方向和论文投稿微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。 一定要备注:研究方向+地点+学校/公司+昵称(如Mamba、多模态学习或者论文投稿+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer2233,进交流群 CVer计算机视觉(知识星球)人数破万!如果你想要了解最新最快最好的CV/DL/AI论文、实战项目、行业前沿、从入门到精通学习教程等资料,一定要扫描下方二维码,加入CVer知识星球!最强助力你的科研和工作! ▲扫码加入星球学习

▲点击上方卡片,关注CVer公众号 整理不易,请点赞和在看
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/26 4:11:58

挖到 4 个 Vibe Coding 的 GitHub 开源项目,速速收藏。

Andrej Karpathy 是 OpenAI 创始成员、前特斯拉 AI 总监。他年初在 X 上发布了一条推文,分享了自己使用 Cursor Claude 进行编程的体验,并首次使用了 Vibe Coding 这个词。Vibe Coding 是一种全新的、基于 AI 的编程方式。你通过对话的方式和 AI 协作&a…

作者头像 李华
网站建设 2026/5/26 4:51:33

5分钟掌握Visual Studio许可证管理的终极解决方案

想要轻松管理Visual Studio Community Edition的许可证有效期吗?今天我们将通过PowerShell模块实现VS社区版延期的自动化操作,彻底告别许可证过期的烦恼。 【免费下载链接】VSCELicense PowerShell module to get and set Visual Studio Community Editi…

作者头像 李华
网站建设 2026/5/26 4:45:32

4、深入探索GIMP:画笔、图案与选区的运用

深入探索GIMP:画笔、图案与选区的运用 1. 画笔的使用 1.1 画笔设置 在使用绘画和绘图工具(如铅笔、画笔、橡皮擦、喷枪)时,可通过“文件 - 对话框 - 画笔”打开画笔选择窗口。在该窗口左侧,有各种预装的画笔笔尖,大小和形状各异,从微小圆形笔尖到纹理笔尖,甚至由图像…

作者头像 李华
网站建设 2026/5/26 4:51:13

Cube-Studio:企业级AI模型部署平台的架构与实践

Cube-Studio:企业级AI模型部署平台的架构与实践 【免费下载链接】cube-studio cube studio开源云原生一站式机器学习/深度学习AI平台,支持sso登录,多租户/多项目组,数据资产对接,notebook在线开发,拖拉拽任…

作者头像 李华
网站建设 2026/5/26 0:57:13

10、炫酷文本效果与网页图形设计全攻略

炫酷文本效果与网页图形设计全攻略 1. 炫酷文本效果 1.1 文本效果的魅力与由来 将简单文本转化为艺术作品由来已久,最早可追溯到大约公元前 2500 年的书法艺术。这么做的目的很明确,就是为了吸引和聚焦人们对特定单词或词组的注意力。例如,设计标志或网页标题时,我们希望…

作者头像 李华