论文阅读笔记：NEWTON — Agentic Planning for Physically Grounded Video Generation-Seo优化-塔城地区网站建设公司

一、Motivation

1.1 现象：视频生成模型"不懂"物理

当前的视频生成模型（Sora、Veo、Wan、LTX-Video 等）已经能生成视觉上非常逼真的视频，但在物理规律层面存在系统性错误：球无缘无故变速、下落的物体无视重力、碰撞违反动量守恒。在 VideoPhy-2 基准测试上，表现最好的模型联合准确率也仅有 32.6%。

1.2 根因分析：规范瓶颈（Specification Bottleneck）

论文认为问题的根源不是模型能力不够，而是输入信息不足。文本提示词是对物理世界的有损压缩——"一个球从桌子上滚落"这句话缺失了质量、摩擦系数、桌高、初速度等决定运动轨迹的关键参数。生成器只能从一句话中"猜"出所有参数，本质上是一个欠定问题（ill-posed problem）。

1.3 物理条件信号的三个必要性质

论文由此推导出，要让视频物理正确，条件信号必须同时满足：

充分性（Sufficiency）：覆盖足够多的物理维度，不留未指定的参数
动态性（Dynamism）：能根据不同场景自适应地选择不同的物理规范
可验证性（Verifiability）：能检查输出是否符合物理，并在不符合时纠正

现有方法无一同时满足这三点：端到端训练隐式嵌入物理（不充分），ControlNet 提供固定模态信号（不动态），所有一次性方法缺乏反馈（不可验证）。

二、Related Work

2.1 基于外部模拟器的方法

这类方法用显式物理模拟器计算运动，再让生成模型渲染画面：

PhysMotion：用可微 MPM（物质点法）对 3D 高斯物体做时间步模拟，再用文生图模型精炼帧
PhysCtrl：在 55 万条模拟轨迹上训练生成式物理网络，覆盖弹性体/沙子/橡皮泥/刚体四种材料
PhysChoreo：从单张图片重建部件级材料场，用可编辑模拟器驱动生成

局限：绑定固定的模拟器类型，不能根据场景灵活切换。

NewtonGen：将牛顿力学方程嵌入神经 ODE，对单物体连续运动效果好，但无法处理碰撞和多物体交互。

2.2 修改生成器内部结构的方法

这类方法直接改造视频生成模型，让它"内化"物理知识：

VideoREPA：从自监督视频基础模型中蒸馏 token 级关系到 DiT
WISA：将物理拆为文本/定性/定量三层信号，通过"物理专家混合"注意力模块注入
ProPhy：两阶段物理专家混合 + VLM 蒸馏精炼，实现区域级物理对齐
PhyGDPO：基于奖励的后训练，通过偏好优化调整隐式物理先验

局限：都是一次性生成，不逐样本验证，不满足"可验证性"要求。

2.3 智能体系统用于视觉生成

GenAgent：将图像生成器作为可调用工具，用 agentic RL 端到端训练
M³：规划-检查-精炼-编辑-验证的集成，迭代修复组合式图像生成中的错误
CECT（与 NEWTON 最接近）：用 LLM 推理因果事件链，引导视频扩散模型

NEWTON 与 CECT 的三点区别：(1) CECT 输出文本事件链，NEWTON 调用异构工具库产生显式物理信号；(2) CECT 只规划一次，NEWTON 有验证-修正循环可迭代最多 5 轮；(3) CECT 用冻结的 LLM 推理，NEWTON 的规划器用 Flow-GRPO 在线训练。

三、Method

3.1 整体架构：三角色迭代循环

NEWTON 将视频生成"降级"为智能体工具箱中的一个动作，系统由三个角色构成：

规划器（Planner）：唯一可训练组件（Qwen3.5-9B VLM）。每轮读取记忆状态MtM^tMt（包含原始提示、历史工具调用与输出、验证器反馈），输出结构化动作at∼πθ(at∣q,Mt)a^t \sim \pi_\theta(a^t | q, M^t)at∼πθ(at∣q,Mt)，决定调用哪些工具及参数。

执行器（Executor）：调度三个物理感知工具和冻结的视频生成器。框架与生成器无关（generator-agnostic）。

验证器（Verifier）：多模态评估模型（VideoPhy-2-AutoEval），对生成视频从语义一致性（SA）和物理常识（PC）两个维度打分，分数反馈到记忆池中，闭环驱动下一轮规划。

系统运行TTT轮（实验中T=5T=5T=5），最终输出所有轮次中验证器得分最高的视频。

3.2 三个物理感知工具

工具	功能	对应的物理需求
关键帧生成	用文生图模型在指定时间位置生成引导图像，施加时间边界条件	空间约束（如"抛物线顶点时球的位置"）
Python 科学计算	沙盒化 Python 环境，可做抛体轨迹、动量守恒、旋转动力学等计算	定量物理参数
提示词精炼	对生成提示词做自然语言增强，补充物理细节、材料属性、场景约束	定性物理描述

三个工具覆盖了互补的物理维度，共同满足"充分性"要求。

3.3 训练：Flow-GRPO 在线策略优化

为什么不用离线监督训练？离线 SFT 让规划器脱离实际系统动态——它看不到自己犯的错，无法从工具失败中恢复，也不能适应真实的验证器反馈。AgentFlow 的实验表明，SFT 甚至比冻结基线平均准确率下降 19%。

Flow-GRPO 流程：

对每个提示词，采样G=8G=8G=8条并行轨迹，每条执行完整的T=5T=5T=5轮循环
轨迹级奖励做组归一化，得到优势估计：Ai=R(τi)−meanstdA_i = \frac{R(\tau_i) - \text{mean}}{\text{std}}Ai=stdR(τi)−mean
用裁剪代理目标 + KL 惩罚更新规划器策略

奖励设计（三部分）：

格式惩罚：任何格式/长度违规触发固定负奖励
质量奖励RqualityR_{\text{quality}}Rquality：基于最高 SA/PC 分数的分层函数，设置中间档奖励密化信号
关键帧奖励RkfR_{\text{kf}}Rkf：使用关键帧且语义一致性达标时给予固定奖励，鼓励探索
计算奖励RcomputeR_{\text{compute}}Rcompute：包含有效物理计算且质量奖励为正时给予固定奖励，防止空计算刷奖励

四、Experiments

4.1 实验设置

主要基准：VideoPhy-2（590 条文本、197 种物理动作，含 180 条 HARD 子集）
跨基准：PhyGenBench（160 条提示，覆盖力学/光学/热力学/材料四类）
训练：仅训练规划器（Qwen3.5-9B），在 VideoPhy-2 训练集 3350 条提示上用 Flow-GRPO 训练 1 个 epoch，8 张 H200 GPU

4.2 主要结果（VideoPhy-2）

关键发现：

NEWTON 是唯一同时提升 PC 和 SA 的方法，Joint 从 21.36% 提升到 29.66%
HARD 子集上提升近2.75 倍（4.44% → 12.22%）
VideoREPA 和 WISA 出现严重的 PC-SA 权衡——PC 上升但 SA 崩塌，拖累整体表现

4.3 跨基准泛化（PhyGenBench）

同一个训练好的规划器不经重训直接迁移到 PhyGenBench，平均分从 0.510 提升到 0.560，超过之前最强的开源生成器 Wan2.2（0.544）。增益集中在光学（+0.067）和材料（+0.092）。

4.4 消融实验

规划器规模：2B → 4B → 9B，HARD-Joint 单调上升（7.22% → 9.44% → 12.22%），更大的规划器在困难场景帮助最大。

迭代轮次TTT：T=2/3/5T=2/3/5T=2/3/5，HARD-Joint 从 4.44% 爬升到 10.00% 再到 12.22%，验证-修正的收益随轮次递增。

训练策略对比：

冻结（仅提示）→ 离线 SFT → Flow-GRPO（本文）
Flow-GRPO 大约将 SFT 相对于冻结基线的增益翻倍

生成器骨干：在 Veo-3.1 上 Joint 从 30.74% 提升到 37.41%，说明 NEWTON 的增益可以叠加在更强的骨干上，而不是替代它。

4.5 人类偏好实验

20 名志愿者对 197 组视频做盲评，NEWTON 在物理正确性（79.8%）和整体质量（47.4%）上均大幅领先 LTX-Video（11.3% / 31.9%）和 Wan2.2（8.9% / 20.7%）。

五、Conclusion

论文识别出了视频生成物理失败的根本原因——规范瓶颈，并提出了 NEWTON 这一智能体框架。核心思想是将视频生成从"系统输出"降级为"工具箱中的一个动作"，通过规划器动态编排物理感知工具并配合验证器做闭环迭代。规划器作为唯一可训练组件，用 Flow-GRPO 在线优化。实验证明该方法在不修改生成器的前提下显著提升了物理一致性。

局限性：当前仅有三个工具，缺少流体动力学模拟器、铰接体引擎等覆盖更广的物理工具；验证器仅提供标量反馈，语言形式的诊断信息可能带来更有针对性的重规划。

六、个人思考

6.1 问题定位很精准

之前很多工作都在想怎么让模型"更懂物理"，不管是加模拟器还是改模型结构，但论文指出问题出在输入端：你给的信息本来就不够，模型能力再强也是巧妇难为无米之炊。这个视角将问题从"能力不足"转化为"信息不足"。

6.2 智能体范式的优势与代价

把视频生成包装成智能体的一个工具，好处是灵活性极强。可以根据场景按需组合不同工具，还能迭代纠错。但代价也很明显：每个视频需要跑 5 轮循环，每轮可能涉及工具调用、视频生成、验证打分，推理成本大幅上升。论文没有详细讨论推理时间和计算开销，这在实际部署中可能是一个关键瓶颈。

6.3 工具库的扩展性

目前只有三个工具（关键帧生成、Python 计算、提示词精炼），覆盖的物理范围有限。论文自己也承认缺少流体、铰接体等模拟器。一个有趣的方向是让规划器学会动态发现和调用新工具，甚至自动编写物理仿真代码，这可能进一步释放该框架的潜力。

6.4 验证器是隐含的天花板

整个系统的迭代优化依赖验证器的评分质量。如果验证器本身对某类物理场景判断不准确，规划器的优化方向就会出偏。将标量反馈升级为更细粒度的语言诊断（如"物体在第 1.2 秒处的下落速度不符合重力加速度"）可能是一个重要的改进方向。

6.5 与 LLM Agent 范式的启示

这篇工作的更大意义或许在于提供了一个范式启示：对于生成模型的系统性缺陷，与其死磕模型内部，不如在外部搭建一个智能体框架，把生成当作可调用的工具，配合验证-修正循环来补齐短板。这个思路可能不仅适用于物理一致性，也适用于视频生成中的其他挑战，如逻辑一致性、因果连贯性等。

6.6 关于写作风格的题外话

通读全文可以明显感觉到大模型辅助写作的痕迹。最突出的特征是破折号的高频使用，几乎每一段都有多处以破折号插入补充说明或并列成分，这种句式在人类学术写作中偶尔出现是正常的，但如此密集地贯穿全文就非常典型地暴露了 LLM 的写作习惯。

论文阅读笔记：NEWTON — Agentic Planning for Physically Grounded Video Generation