一、Motivation
1.1 现象:视频生成模型"不懂"物理
当前的视频生成模型(Sora、Veo、Wan、LTX-Video 等)已经能生成视觉上非常逼真的视频,但在物理规律层面存在系统性错误:球无缘无故变速、下落的物体无视重力、碰撞违反动量守恒。在 VideoPhy-2 基准测试上,表现最好的模型联合准确率也仅有 32.6%。
1.2 根因分析:规范瓶颈(Specification Bottleneck)
论文认为问题的根源不是模型能力不够,而是输入信息不足。文本提示词是对物理世界的有损压缩——"一个球从桌子上滚落"这句话缺失了质量、摩擦系数、桌高、初速度等决定运动轨迹的关键参数。生成器只能从一句话中"猜"出所有参数,本质上是一个欠定问题(ill-posed problem)。
1.3 物理条件信号的三个必要性质
论文由此推导出,要让视频物理正确,条件信号必须同时满足:
- 充分性(Sufficiency):覆盖足够多的物理维度,不留未指定的参数
- 动态性(Dynamism):能根据不同场景自适应地选择不同的物理规范
- 可验证性(Verifiability):能检查输出是否符合物理,并在不符合时纠正
现有方法无一同时满足这三点:端到端训练隐式嵌入物理(不充分),ControlNet 提供固定模态信号(不动态),所有一次性方法缺乏反馈(不可验证)。
二、Related Work
2.1 基于外部模拟器的方法
这类方法用显式物理模拟器计算运动,再让生成模型渲染画面:
- PhysMotion:用可微 MPM(物质点法)对 3D 高斯物体做时间步模拟,再用文生图模型精炼帧
- PhysCtrl:在 55 万条模拟轨迹上训练生成式物理网络,覆盖弹性体/沙子/橡皮泥/刚体四种材料
- PhysChoreo:从单张图片重建部件级材料场,用可编辑模拟器驱动生成
局限:绑定固定的模拟器类型,不能根据场景灵活切换。
- NewtonGen:将牛顿力学方程嵌入神经 ODE,对单物体连续运动效果好,但无法处理碰撞和多物体交互。
2.2 修改生成器内部结构的方法
这类方法直接改造视频生成模型,让它"内化"物理知识:
- VideoREPA:从自监督视频基础模型中蒸馏 token 级关系到 DiT
- WISA:将物理拆为文本/定性/定量三层信号,通过"物理专家混合"注意力模块注入
- ProPhy:两阶段物理专家混合 + VLM 蒸馏精炼,实现区域级物理对齐
- PhyGDPO:基于奖励的后训练,通过偏好优化调整隐式物理先验
局限:都是一次性生成,不逐样本验证,不满足"可验证性"要求。
2.3 智能体系统用于视觉生成
- GenAgent:将图像生成器作为可调用工具,用 agentic RL 端到端训练
- M³:规划-检查-精炼-编辑-验证的集成,迭代修复组合式图像生成中的错误
- CECT(与 NEWTON 最接近):用 LLM 推理因果事件链,引导视频扩散模型
NEWTON 与 CECT 的三点区别:(1) CECT 输出文本事件链,NEWTON 调用异构工具库产生显式物理信号;(2) CECT 只规划一次,NEWTON 有验证-修正循环可迭代最多 5 轮;(3) CECT 用冻结的 LLM 推理,NEWTON 的规划器用 Flow-GRPO 在线训练。
三、Method
3.1 整体架构:三角色迭代循环
NEWTON 将视频生成"降级"为智能体工具箱中的一个动作,系统由三个角色构成:
规划器(Planner):唯一可训练组件(Qwen3.5-9B VLM)。每轮读取记忆状态MtM^tMt(包含原始提示、历史工具调用与输出、验证器反馈),输出结构化动作at∼πθ(at∣q,Mt)a^t \sim \pi_\theta(a^t | q, M^t)at∼πθ(at∣q,Mt),决定调用哪些工具及参数。
执行器(Executor):调度三个物理感知工具和冻结的视频生成器。框架与生成器无关(generator-agnostic)。
验证器(Verifier):多模态评估模型(VideoPhy-2-AutoEval),对生成视频从语义一致性(SA)和物理常识(PC)两个维度打分,分数反馈到记忆池中,闭环驱动下一轮规划。
系统运行TTT轮(实验中T=5T=5T=5),最终输出所有轮次中验证器得分最高的视频。
3.2 三个物理感知工具
| 工具 | 功能 | 对应的物理需求 |
|---|---|---|
| 关键帧生成 | 用文生图模型在指定时间位置生成引导图像,施加时间边界条件 | 空间约束(如"抛物线顶点时球的位置") |
| Python 科学计算 | 沙盒化 Python 环境,可做抛体轨迹、动量守恒、旋转动力学等计算 | 定量物理参数 |
| 提示词精炼 | 对生成提示词做自然语言增强,补充物理细节、材料属性、场景约束 | 定性物理描述 |
三个工具覆盖了互补的物理维度,共同满足"充分性"要求。
3.3 训练:Flow-GRPO 在线策略优化
为什么不用离线监督训练?离线 SFT 让规划器脱离实际系统动态——它看不到自己犯的错,无法从工具失败中恢复,也不能适应真实的验证器反馈。AgentFlow 的实验表明,SFT 甚至比冻结基线平均准确率下降 19%。
Flow-GRPO 流程:
- 对每个提示词,采样G=8G=8G=8条并行轨迹,每条执行完整的T=5T=5T=5轮循环
- 轨迹级奖励做组归一化,得到优势估计:Ai=R(τi)−meanstdA_i = \frac{R(\tau_i) - \text{mean}}{\text{std}}Ai=stdR(τi)−mean
- 用裁剪代理目标 + KL 惩罚更新规划器策略
奖励设计(三部分):
- 格式惩罚:任何格式/长度违规触发固定负奖励
- 质量奖励RqualityR_{\text{quality}}Rquality:基于最高 SA/PC 分数的分层函数,设置中间档奖励密化信号
- 关键帧奖励RkfR_{\text{kf}}Rkf:使用关键帧且语义一致性达标时给予固定奖励,鼓励探索
- 计算奖励RcomputeR_{\text{compute}}Rcompute:包含有效物理计算且质量奖励为正时给予固定奖励,防止空计算刷奖励
四、Experiments
4.1 实验设置
- 主要基准:VideoPhy-2(590 条文本、197 种物理动作,含 180 条 HARD 子集)
- 跨基准:PhyGenBench(160 条提示,覆盖力学/光学/热力学/材料四类)
- 训练:仅训练规划器(Qwen3.5-9B),在 VideoPhy-2 训练集 3350 条提示上用 Flow-GRPO 训练 1 个 epoch,8 张 H200 GPU
4.2 主要结果(VideoPhy-2)
关键发现:
- NEWTON 是唯一同时提升 PC 和 SA 的方法,Joint 从 21.36% 提升到 29.66%
- HARD 子集上提升近2.75 倍(4.44% → 12.22%)
- VideoREPA 和 WISA 出现严重的 PC-SA 权衡——PC 上升但 SA 崩塌,拖累整体表现
4.3 跨基准泛化(PhyGenBench)
同一个训练好的规划器不经重训直接迁移到 PhyGenBench,平均分从 0.510 提升到 0.560,超过之前最强的开源生成器 Wan2.2(0.544)。增益集中在光学(+0.067)和材料(+0.092)。
4.4 消融实验
规划器规模:2B → 4B → 9B,HARD-Joint 单调上升(7.22% → 9.44% → 12.22%),更大的规划器在困难场景帮助最大。
迭代轮次TTT:T=2/3/5T=2/3/5T=2/3/5,HARD-Joint 从 4.44% 爬升到 10.00% 再到 12.22%,验证-修正的收益随轮次递增。
训练策略对比:
- 冻结(仅提示)→ 离线 SFT → Flow-GRPO(本文)
- Flow-GRPO 大约将 SFT 相对于冻结基线的增益翻倍
生成器骨干:在 Veo-3.1 上 Joint 从 30.74% 提升到 37.41%,说明 NEWTON 的增益可以叠加在更强的骨干上,而不是替代它。
4.5 人类偏好实验
20 名志愿者对 197 组视频做盲评,NEWTON 在物理正确性(79.8%)和整体质量(47.4%)上均大幅领先 LTX-Video(11.3% / 31.9%)和 Wan2.2(8.9% / 20.7%)。
五、Conclusion
论文识别出了视频生成物理失败的根本原因——规范瓶颈,并提出了 NEWTON 这一智能体框架。核心思想是将视频生成从"系统输出"降级为"工具箱中的一个动作",通过规划器动态编排物理感知工具并配合验证器做闭环迭代。规划器作为唯一可训练组件,用 Flow-GRPO 在线优化。实验证明该方法在不修改生成器的前提下显著提升了物理一致性。
局限性:当前仅有三个工具,缺少流体动力学模拟器、铰接体引擎等覆盖更广的物理工具;验证器仅提供标量反馈,语言形式的诊断信息可能带来更有针对性的重规划。
六、个人思考
6.1 问题定位很精准
之前很多工作都在想怎么让模型"更懂物理",不管是加模拟器还是改模型结构,但论文指出问题出在输入端:你给的信息本来就不够,模型能力再强也是巧妇难为无米之炊。这个视角将问题从"能力不足"转化为"信息不足"。
6.2 智能体范式的优势与代价
把视频生成包装成智能体的一个工具,好处是灵活性极强。可以根据场景按需组合不同工具,还能迭代纠错。但代价也很明显:每个视频需要跑 5 轮循环,每轮可能涉及工具调用、视频生成、验证打分,推理成本大幅上升。论文没有详细讨论推理时间和计算开销,这在实际部署中可能是一个关键瓶颈。
6.3 工具库的扩展性
目前只有三个工具(关键帧生成、Python 计算、提示词精炼),覆盖的物理范围有限。论文自己也承认缺少流体、铰接体等模拟器。一个有趣的方向是让规划器学会动态发现和调用新工具,甚至自动编写物理仿真代码,这可能进一步释放该框架的潜力。
6.4 验证器是隐含的天花板
整个系统的迭代优化依赖验证器的评分质量。如果验证器本身对某类物理场景判断不准确,规划器的优化方向就会出偏。将标量反馈升级为更细粒度的语言诊断(如"物体在第 1.2 秒处的下落速度不符合重力加速度")可能是一个重要的改进方向。
6.5 与 LLM Agent 范式的启示
这篇工作的更大意义或许在于提供了一个范式启示:对于生成模型的系统性缺陷,与其死磕模型内部,不如在外部搭建一个智能体框架,把生成当作可调用的工具,配合验证-修正循环来补齐短板。这个思路可能不仅适用于物理一致性,也适用于视频生成中的其他挑战,如逻辑一致性、因果连贯性等。
6.6 关于写作风格的题外话
通读全文可以明显感觉到大模型辅助写作的痕迹。最突出的特征是破折号的高频使用,几乎每一段都有多处以破折号插入补充说明或并列成分,这种句式在人类学术写作中偶尔出现是正常的,但如此密集地贯穿全文就非常典型地暴露了 LLM 的写作习惯。