news 2026/5/26 7:16:28

从“模仿”到“进化”!华科小米开源MindDrive:在线强化学习重塑「语言-动作」闭环驾驶

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
从“模仿”到“进化”!华科小米开源MindDrive:在线强化学习重塑「语言-动作」闭环驾驶

近年来,端到端自动驾驶技术逐渐成为行业主流,而融合视觉、语言与动作的 VLA(Vision-Language-Action)模型则被视为突破传统模块化瓶颈的关键路径。然而,依赖模仿学习的 VLA 模型长期受分布偏移、因果混淆等难题制约,闭环驾驶的安全与泛化能力始终面临挑战。

华中科技大学与小米汽车团队近日联合发布了基于在线强化学习的自动驾驶 VLA 框架——MindDrive首次实现了在闭环环境中通过实时交互优化驾驶策略,在权威基准测试 Bench2Drive 中刷新同参数模型性能纪录,为 VLA 在自动驾驶领域的落地提供了全新的技术范式。

论文地址:https://arxiv.org/abs/2512.13636v1

项目地址:https://xiaomi-mlab.github.io/MindDrive/


一、传统方法的困境:从模仿学习到强化学习的跨越难题

当前主流的端到端自动驾驶系统通常由感知、预测、规划等多个模块串联而成,虽然在结构化场景表现稳定,但缺乏对复杂场景的常识推理与泛化能力。引入视觉语言模型(VLM)后,模型虽具备了一定的推理能力,但大多仍基于模仿学习——即通过专家数据拟合驾驶行为。这类方法容易因数据分布偏差和因果混淆,在实际闭环驾驶中出现错误累积,甚至引发不可逆的安全风险。

为突破模仿学习的局限,研究者尝试引入强化学习,然而自动驾驶的动作空间是连续的轨迹空间,直接应用在线强化学习探索效率极低:

  • 离线强化学习:依赖于静态数据集,无法与环境交互,缺乏对新场景的适应能力;

  • 传统在线强化学习:虽在语言任务中常用,但在连续轨迹空间中探索难度大,难以生成符合人类驾驶习惯的平滑轨迹。

  • MindDrive 的突破点正在于此:通过“语言-动作动态映射”,将连续轨迹空间离散化为语言决策空间,使强化学习能在语义层面高效探索,再借助专门的动作模型将语言决策转化为具体轨迹,兼顾推理效率与驾驶拟人性。


二、MindDrive 核心设计:双专家架构 + 在线强化学习交互

MindDrive 的整体架构包含两个核心组件:决策专家与动作专家。两者共享同一视觉编码器与大语言模型基座(Qwen2-0.5B),仅通过不同的 LoRA 参数进行差异化适配:

  • 决策专家:根据导航指令与多视角视觉输入,输出高层语义决策,即“元动作”,如“左转变道”“减速让行”;

  • 动作专家:依据当前场景与导航指令,将元动作转化为具体、平滑的轨迹控制信号。

训练流程分为两阶段:

  • 模仿学习初始化

通过大语言模型生成与人工筛选,构建高质量的“语言–轨迹”对齐数据,使模型初步建立从语言指令到驾驶动作的映射关系,为强化学习提供可靠起点。

  • 在线强化学习优化

在 CARLA 仿真环境中进行闭环交互训练,模型根据实时环境反馈持续优化策略。团队设计了稀疏奖励机制:成功抵达目的地奖励 +1,发生碰撞、闯红灯等事件则奖励 -1,促使模型学习安全、高效的驾驶行为。

该方法首次在自动驾驶 VLA 模型中实现在线强化学习训练,通过环境反馈直接提升模型的推理与决策能力。


三、实验结果:轻量化模型实现 SOTA 性能

作者在Bench2Drive数据进行闭环评估测试,仅使用 0.5B 参数量轻量化 LLM 的 MindDrive,取得了:

  • 驾驶评分(DS):78.04

  • 成功率(SR):55.09%

性能全面超越同参数模仿学习基线,甚至达到与 7B 参数量级模型 ORION 相当的水平,同时显著领先于离线强化学习方法 Raw2Drive 及多个现有 VLA 驾驶模型。

这表明,通过在线交互进行策略优化,能极大提升模型在复杂动态环境中的泛化与决策能力,且轻量化架构更适合车载部署。

研究表明,逐步引入不同的惩罚/奖励机制能持续提升模型性能:

  • 碰撞惩罚:使成功率提升1.4%,平均能力评分提升3.76%。模型在持续交互的交通流中学会了更主动的避撞策略,在超车场景中以4.44%的显著优势超越基准。

  • 信号灯惩罚:交通标志识别率提升1.52%,紧急制动准确率提升8.97%。

  • 路线偏离惩罚:有助于在驾驶的果断性与谨慎性间达成更优平衡。

  • 停车标志惩罚:因与停车元动作高度相关,显著促进了高效策略学习。在涉及停车标志的并线场景中,并线能力提升5.26%,安全率提升3.24%。

  • 关键洞察:MindDrive 无需复杂的奖励工程,即可通过在线试错自主发现高效驾驶策略,展现出强大的从失败中学习并确定最优动作的能力。

  • 定性结果展示

图5的定性对比清晰揭示了强化学习阶段的价值:

  • 仅模仿学习版本:展现出强劲的任务特异性能力(如及时制动),但在动态交互场景(如确定最佳变道时机)中表现欠佳。

  • 强化学习优化后:模型能在挑战性场景中选择更稳健、安全且果断的元动作,显著提升了高级推理与复杂环境决策能力。


结论

本文提出了一种名为MindDrive的创新性自动驾驶框架,该框架将语言作为在线强化学习(RL)的接口。MindDrive通过将语言指令映射为动作,将探索空间转化为离散语言空间,从而降低强化学习成本。该框架还使大型语言模型能够在闭环模拟器中通过动作反馈优化推理能力。我们在提出的在线强化学习训练框架内开展了实验。实验表明,MindDrive以轻量级模型实现了业界领先的性能。据我们所知,这是首次在交互式模拟器中成功训练视觉-语言-动作协同的自动驾驶模型。我们期待这项工作能为自动驾驶领域提供宝贵启示。局限性。受限于现实世界交互式模拟器的缺失,我们的评估仅限于CARLA模拟器[8]。此外,同步多个CARLA模拟器的技术挑战阻碍了从相同初始状态评估替代动作的可能性,限制了我们对GRPO算法的应用。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/23 21:46:19

数据泄露危机频发,Open-AutoGLM为何成企业最后防线?

第一章:数据泄露危机的现状与挑战近年来,随着数字化转型加速,企业存储和处理的数据量呈指数级增长,数据泄露事件频发,已成为全球关注的安全焦点。攻击者利用系统漏洞、社会工程或内部权限滥用等手段窃取敏感信息&#…

作者头像 李华
网站建设 2026/5/24 15:31:24

Langchain-Chatchat如何配置跨域资源共享CORS?API安全

Langchain-Chatchat 如何配置跨域资源共享(CORS)?API 安全实战解析 在企业级 AI 应用快速落地的今天,越来越多组织选择将大型语言模型(LLM)部署于本地环境,以保障数据隐私与合规性。Langchain-C…

作者头像 李华
网站建设 2026/5/23 20:11:16

(Open-AutoGLM操作自由化革命):解锁被屏蔽的社交自动化能力仅需这一步

第一章:Open-AutoGLM 社交应用操作限制解决在部署 Open-AutoGLM 用于社交平台自动化任务时,常因频繁请求或行为模式识别被平台施加操作限制。这类限制包括临时封禁、验证码挑战或 API 调用限流。为保障服务稳定性,需从请求频率控制、身份标识…

作者头像 李华
网站建设 2026/5/25 1:21:57

Langchain-Chatchat如何实现文档水印添加?版权保护机制

Langchain-Chatchat 如何实现文档水印添加?版权保护机制 在企业知识管理日益智能化的今天,基于大语言模型(LLM)的本地问答系统正迅速成为组织内部信息流转的核心枢纽。Langchain-Chatchat 作为开源领域中广受关注的本地知识库解决…

作者头像 李华
网站建设 2026/5/22 22:55:21

Open-AutoGLM日志解析秘技,资深架构师绝不外传的5种调试路径

第一章:Open-AutoGLM 日志报错代码解析在部署和运行 Open-AutoGLM 框架时,日志系统常输出关键错误信息,帮助开发者定位模型推理、环境配置或依赖冲突问题。理解这些报错代码的含义与触发条件,是保障系统稳定运行的核心环节。常见日…

作者头像 李华
网站建设 2026/5/26 6:18:38

Langchain-Chatchat如何集成截图上传功能?图像文字识别

Langchain-Chatchat 如何集成截图上传与图像文字识别功能 在智能问答系统日益普及的今天,用户对交互方式的期待早已超越了传统的“输入文本—获取回答”模式。尤其是在企业内部知识管理、教育辅助和专业文档处理等场景中,大量信息以图像形式存在&#x…

作者头像 李华