news 2026/6/30 4:14:15

论文阅读笔记:NEWTON — Agentic Planning for Physically Grounded Video Generation

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
论文阅读笔记:NEWTON — Agentic Planning for Physically Grounded Video Generation

一、Motivation

1.1 现象:视频生成模型"不懂"物理

当前的视频生成模型(Sora、Veo、Wan、LTX-Video 等)已经能生成视觉上非常逼真的视频,但在物理规律层面存在系统性错误:球无缘无故变速、下落的物体无视重力、碰撞违反动量守恒。在 VideoPhy-2 基准测试上,表现最好的模型联合准确率也仅有 32.6%。

1.2 根因分析:规范瓶颈(Specification Bottleneck)

论文认为问题的根源不是模型能力不够,而是输入信息不足。文本提示词是对物理世界的有损压缩——"一个球从桌子上滚落"这句话缺失了质量、摩擦系数、桌高、初速度等决定运动轨迹的关键参数。生成器只能从一句话中"猜"出所有参数,本质上是一个欠定问题(ill-posed problem)。

1.3 物理条件信号的三个必要性质

论文由此推导出,要让视频物理正确,条件信号必须同时满足:

  • 充分性(Sufficiency):覆盖足够多的物理维度,不留未指定的参数
  • 动态性(Dynamism):能根据不同场景自适应地选择不同的物理规范
  • 可验证性(Verifiability):能检查输出是否符合物理,并在不符合时纠正

现有方法无一同时满足这三点:端到端训练隐式嵌入物理(不充分),ControlNet 提供固定模态信号(不动态),所有一次性方法缺乏反馈(不可验证)。


二、Related Work

2.1 基于外部模拟器的方法

这类方法用显式物理模拟器计算运动,再让生成模型渲染画面:

  • PhysMotion:用可微 MPM(物质点法)对 3D 高斯物体做时间步模拟,再用文生图模型精炼帧
  • PhysCtrl:在 55 万条模拟轨迹上训练生成式物理网络,覆盖弹性体/沙子/橡皮泥/刚体四种材料
  • PhysChoreo:从单张图片重建部件级材料场,用可编辑模拟器驱动生成

局限:绑定固定的模拟器类型,不能根据场景灵活切换。

  • NewtonGen:将牛顿力学方程嵌入神经 ODE,对单物体连续运动效果好,但无法处理碰撞和多物体交互。

2.2 修改生成器内部结构的方法

这类方法直接改造视频生成模型,让它"内化"物理知识:

  • VideoREPA:从自监督视频基础模型中蒸馏 token 级关系到 DiT
  • WISA:将物理拆为文本/定性/定量三层信号,通过"物理专家混合"注意力模块注入
  • ProPhy:两阶段物理专家混合 + VLM 蒸馏精炼,实现区域级物理对齐
  • PhyGDPO:基于奖励的后训练,通过偏好优化调整隐式物理先验

局限:都是一次性生成,不逐样本验证,不满足"可验证性"要求。

2.3 智能体系统用于视觉生成

  • GenAgent:将图像生成器作为可调用工具,用 agentic RL 端到端训练
  • :规划-检查-精炼-编辑-验证的集成,迭代修复组合式图像生成中的错误
  • CECT(与 NEWTON 最接近):用 LLM 推理因果事件链,引导视频扩散模型

NEWTON 与 CECT 的三点区别:(1) CECT 输出文本事件链,NEWTON 调用异构工具库产生显式物理信号;(2) CECT 只规划一次,NEWTON 有验证-修正循环可迭代最多 5 轮;(3) CECT 用冻结的 LLM 推理,NEWTON 的规划器用 Flow-GRPO 在线训练。


三、Method

3.1 整体架构:三角色迭代循环

NEWTON 将视频生成"降级"为智能体工具箱中的一个动作,系统由三个角色构成:

规划器(Planner):唯一可训练组件(Qwen3.5-9B VLM)。每轮读取记忆状态MtM^tMt(包含原始提示、历史工具调用与输出、验证器反馈),输出结构化动作at∼πθ(at∣q,Mt)a^t \sim \pi_\theta(a^t | q, M^t)atπθ(atq,Mt),决定调用哪些工具及参数。

执行器(Executor):调度三个物理感知工具和冻结的视频生成器。框架与生成器无关(generator-agnostic)。

验证器(Verifier):多模态评估模型(VideoPhy-2-AutoEval),对生成视频从语义一致性(SA)和物理常识(PC)两个维度打分,分数反馈到记忆池中,闭环驱动下一轮规划。

系统运行TTT轮(实验中T=5T=5T=5),最终输出所有轮次中验证器得分最高的视频。

3.2 三个物理感知工具

工具功能对应的物理需求
关键帧生成用文生图模型在指定时间位置生成引导图像,施加时间边界条件空间约束(如"抛物线顶点时球的位置")
Python 科学计算沙盒化 Python 环境,可做抛体轨迹、动量守恒、旋转动力学等计算定量物理参数
提示词精炼对生成提示词做自然语言增强,补充物理细节、材料属性、场景约束定性物理描述

三个工具覆盖了互补的物理维度,共同满足"充分性"要求。

3.3 训练:Flow-GRPO 在线策略优化

为什么不用离线监督训练?离线 SFT 让规划器脱离实际系统动态——它看不到自己犯的错,无法从工具失败中恢复,也不能适应真实的验证器反馈。AgentFlow 的实验表明,SFT 甚至比冻结基线平均准确率下降 19%。

Flow-GRPO 流程

  1. 对每个提示词,采样G=8G=8G=8条并行轨迹,每条执行完整的T=5T=5T=5轮循环
  2. 轨迹级奖励做组归一化,得到优势估计:Ai=R(τi)−meanstdA_i = \frac{R(\tau_i) - \text{mean}}{\text{std}}Ai=stdR(τi)mean
  3. 用裁剪代理目标 + KL 惩罚更新规划器策略

奖励设计(三部分):

  • 格式惩罚:任何格式/长度违规触发固定负奖励
  • 质量奖励RqualityR_{\text{quality}}Rquality:基于最高 SA/PC 分数的分层函数,设置中间档奖励密化信号
  • 关键帧奖励RkfR_{\text{kf}}Rkf:使用关键帧且语义一致性达标时给予固定奖励,鼓励探索
  • 计算奖励RcomputeR_{\text{compute}}Rcompute:包含有效物理计算且质量奖励为正时给予固定奖励,防止空计算刷奖励

四、Experiments

4.1 实验设置

  • 主要基准:VideoPhy-2(590 条文本、197 种物理动作,含 180 条 HARD 子集)
  • 跨基准:PhyGenBench(160 条提示,覆盖力学/光学/热力学/材料四类)
  • 训练:仅训练规划器(Qwen3.5-9B),在 VideoPhy-2 训练集 3350 条提示上用 Flow-GRPO 训练 1 个 epoch,8 张 H200 GPU

4.2 主要结果(VideoPhy-2)

关键发现:

  • NEWTON 是唯一同时提升 PC 和 SA 的方法,Joint 从 21.36% 提升到 29.66%
  • HARD 子集上提升近2.75 倍(4.44% → 12.22%)
  • VideoREPA 和 WISA 出现严重的 PC-SA 权衡——PC 上升但 SA 崩塌,拖累整体表现

4.3 跨基准泛化(PhyGenBench)

同一个训练好的规划器不经重训直接迁移到 PhyGenBench,平均分从 0.510 提升到 0.560,超过之前最强的开源生成器 Wan2.2(0.544)。增益集中在光学(+0.067)和材料(+0.092)。

4.4 消融实验

规划器规模:2B → 4B → 9B,HARD-Joint 单调上升(7.22% → 9.44% → 12.22%),更大的规划器在困难场景帮助最大。

迭代轮次TTTT=2/3/5T=2/3/5T=2/3/5,HARD-Joint 从 4.44% 爬升到 10.00% 再到 12.22%,验证-修正的收益随轮次递增。

训练策略对比

  • 冻结(仅提示)→ 离线 SFT → Flow-GRPO(本文)
  • Flow-GRPO 大约将 SFT 相对于冻结基线的增益翻倍

生成器骨干:在 Veo-3.1 上 Joint 从 30.74% 提升到 37.41%,说明 NEWTON 的增益可以叠加在更强的骨干上,而不是替代它。

4.5 人类偏好实验

20 名志愿者对 197 组视频做盲评,NEWTON 在物理正确性(79.8%)和整体质量(47.4%)上均大幅领先 LTX-Video(11.3% / 31.9%)和 Wan2.2(8.9% / 20.7%)。

五、Conclusion

论文识别出了视频生成物理失败的根本原因——规范瓶颈,并提出了 NEWTON 这一智能体框架。核心思想是将视频生成从"系统输出"降级为"工具箱中的一个动作",通过规划器动态编排物理感知工具并配合验证器做闭环迭代。规划器作为唯一可训练组件,用 Flow-GRPO 在线优化。实验证明该方法在不修改生成器的前提下显著提升了物理一致性。

局限性:当前仅有三个工具,缺少流体动力学模拟器、铰接体引擎等覆盖更广的物理工具;验证器仅提供标量反馈,语言形式的诊断信息可能带来更有针对性的重规划。


六、个人思考

6.1 问题定位很精准

之前很多工作都在想怎么让模型"更懂物理",不管是加模拟器还是改模型结构,但论文指出问题出在输入端:你给的信息本来就不够,模型能力再强也是巧妇难为无米之炊。这个视角将问题从"能力不足"转化为"信息不足"。

6.2 智能体范式的优势与代价

把视频生成包装成智能体的一个工具,好处是灵活性极强。可以根据场景按需组合不同工具,还能迭代纠错。但代价也很明显:每个视频需要跑 5 轮循环,每轮可能涉及工具调用、视频生成、验证打分,推理成本大幅上升。论文没有详细讨论推理时间和计算开销,这在实际部署中可能是一个关键瓶颈。

6.3 工具库的扩展性

目前只有三个工具(关键帧生成、Python 计算、提示词精炼),覆盖的物理范围有限。论文自己也承认缺少流体、铰接体等模拟器。一个有趣的方向是让规划器学会动态发现和调用新工具,甚至自动编写物理仿真代码,这可能进一步释放该框架的潜力。

6.4 验证器是隐含的天花板

整个系统的迭代优化依赖验证器的评分质量。如果验证器本身对某类物理场景判断不准确,规划器的优化方向就会出偏。将标量反馈升级为更细粒度的语言诊断(如"物体在第 1.2 秒处的下落速度不符合重力加速度")可能是一个重要的改进方向。

6.5 与 LLM Agent 范式的启示

这篇工作的更大意义或许在于提供了一个范式启示:对于生成模型的系统性缺陷,与其死磕模型内部,不如在外部搭建一个智能体框架,把生成当作可调用的工具,配合验证-修正循环来补齐短板。这个思路可能不仅适用于物理一致性,也适用于视频生成中的其他挑战,如逻辑一致性、因果连贯性等。

6.6 关于写作风格的题外话

通读全文可以明显感觉到大模型辅助写作的痕迹。最突出的特征是破折号的高频使用,几乎每一段都有多处以破折号插入补充说明或并列成分,这种句式在人类学术写作中偶尔出现是正常的,但如此密集地贯穿全文就非常典型地暴露了 LLM 的写作习惯。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/30 4:13:21

DNA折纸纳米结构包载脂质体的实验与优化方向

名称:DNA折纸纳米结构包载脂质体 一、研究背景与思路概述 近年来,纳米尺度的结构设计在生物材料与递送体系领域中受到广泛关注。DNA折纸技术作为一种可编程的自组装方法,能够通过碱基互补配对原理,将单链DNA折叠成预设的二维或三维…

作者头像 李华
网站建设 2026/6/30 4:12:47

AI岗位正在悄悄分化:有人月薪8K,有人月薪30K+

随着AI行业的快速发展,越来越多的人开始学习AI工具,但真正能够创造价值并推动AI落地的人才依然稀缺。文章指出,AI行业已经从“概念热”进入“落地阶段”,会使用AI工具的人很多,但会建设AI、让AI真正落地的人&#xff0…

作者头像 李华
网站建设 2026/6/30 4:12:09

PLL1707/1708时钟发生器:音视频系统时钟树设计与抖动控制实战

1. 项目概述与核心价值在数字音视频系统的设计里,时钟信号的质量直接决定了最终输出的音质和画质。无论是DVD播放器、硬盘录像机,还是数字机顶盒,其核心处理芯片——比如MPEG-2解码器、音频DAC(数模转换器)和ADC&#…

作者头像 李华
网站建设 2026/6/30 4:10:24

【边打字.边学昆仑正义文化】_29_何为昆仑正义文化(1)

【边打字.边学昆仑正义文化】_29_何为昆仑正义文化(1)自地球这个美丽的世界创建以来,很少有亲人能够系统地学习高维世界的正义文化知识,本文正是高维空间正义亲人向地球传达的系统性宇宙知识,也是高维正义世界的生存理…

作者头像 李华
网站建设 2026/6/30 4:10:11

传统服装制造企业转型破局:河南旭瑞的多赛道实践

传统服装制造企业转型破局:河南旭瑞的多赛道实践单一批发生意遇瓶颈,主动求变是唯一出路说白了,做传统服装加工批发,越往后越难。 单靠大订单走量,产能经常闲一半。 河南旭瑞服饰有限公司2010年成立,是专注…

作者头像 李华