文章核心总结
主要内容
本文提出动态属性分解强化学习(DAFT-RL)框架,聚焦多目标强化学习中的组合泛化问题——即agent需与不同类型物体交互,并泛化到未见过的物体组合、数量及任务组合。框架通过物体中心表示学习提取视觉输入中的物体,结合三类图结构(类模板图、交互模式图、动态交互图),在属性层面精细分解物体的动力学和奖励函数,最终实现无需额外策略学习即可适配新环境。
核心创新点
- 属性级精细分解:突破现有方法仅在物体层面分解的局限,深入属性维度(如位置、速度、摩擦系数),建模稀疏的属性间依赖关系。
- 三类结构化图模型:类模板图描述同类物体的属性动力学模板,交互模式图定义不同类物体的属性级交互规则,动态交互图捕捉物体间随时间变化的稀疏交互。
- 高效泛化机制:通过学习物体类别的通用模板和交互规则,结合 latent 参数推断,实现对未见过的物体数量、属性组合、任务组合的快速适配。
- 端到端可学习架构:融合物体中心表示、因果分解、软注意力机制和动态神经关系推理,一体化完成物体提取、图结构学习和策略优化。
翻译部分(Markdown格式)
Abstract
在许多强化学习任务中,智能体必须学会与多种不同类