SparseMeXt：解锁稀疏表示在高清地图构建中的潜力-Seo优化-塔城地区网站建设公司

一、引言

在自动驾驶领域，高清地图（HD Map）扮演着至关重要的角色，它为车辆提供了精确的道路几何结构和语义信息，是实现车辆定位、路径规划和决策控制的核心基础。与离线地图不同，在线高清地图能够实时动态更新环境数据，这对于应对复杂多变的驾驶场景、保障自动驾驶的安全性和高效性至关重要。

传统的高清地图构建方法依赖于人工标注和基于 SLAM 的技术，这些方法不仅成本高昂，而且在快速变化的环境中难以维护。随着计算机视觉技术的发展，基于深度学习的方法逐渐成为主流，尤其是鸟瞰图（BEV）表示的出现，推动了高清地图构建向端到端学习的方向发展。然而，现有基于密集 BEV 特征的方法存在计算复杂度高的问题，其计算成本会随着感知范围的扩大而显著增加，这给在低功耗或资源受限设备上的部署带来了巨大挑战。

稀疏表示方法通过避免密集 BEV 处理，为解决计算效率问题提供了新的思路。但现有稀疏表示方法由于缺乏针对性的设计，性能往往落后于密集表示方法，难以在在线高清地图构建中形成竞争力。为此，本文提出了 SparseMeXt，一种专门优化的稀疏表示框架，通过一系列架构和算法上的创新，成功弥合了稀疏表示与密集表示之间的性能差距，甚至实现了超越。

1.1 核心贡献

本文的核心贡献主要体现在以下三个方面：

提出了一种针对稀疏地图特征提取的专用网络架构，优化了特征聚合和表示学习过程，能够更好地捕捉地图任务所需的大面积覆盖特征。
设计了一种稀疏 - 密集辅助分割监督方法，通过融合实例级监督和场景级分割任务，弥补了稀疏范式中缺乏明确 BEV 特征的不足，有效提升了语义和几何信息的利用效率。
引入了基于物理先验的查询去噪策略（PPDN），通过生成符合物理约束的噪声类型，增强了预测结果的稳定性和鲁棒性，解决了稀疏检测任务中的查询不一致问题。

1.2 性能亮点

在 nuScenes 数据集上的实验结果表明，SparseMeXt 取得了当前最先进的性能：

SparseMeXt-Tiny（ResNet-18 骨干网络）在 32 帧 / 秒（fps）的速度下实现了 55.5% 的平均精度（mAP）；
SparseMeXt-Base（ResNet-50 骨干网络）达到 65.2% 的 mAP，同时保持 25.4 fps 的推理速度；
进一步扩展骨干网络和解码器后，SparseMeXt-Large（ResNet-101）在超过 20 fps 的速度下实现了 68.9% 的 mAP，建立了稀疏表示在高清地图构建中的新基准。

如图 1 所示，SparseMeXt 在效率和准确性之间实现了卓越的平衡，不仅显著优于 SparseDrive 等其他稀疏方法，甚至超越了 MapTRv2 等密集表示方法，充分证明了稀疏表示在高清地图构建中的巨大潜力。

二、相关工作

2.1 高清地图构建

高清地图构建方法的发展可以分为三个阶段：

传统方法：依赖人工标注和 SLAM 技术，成本高且维护困难，难以适应动态环境。
基于线特征先验的方法：通过前视图像直接检测车道线等地图元素，提升了构建效率，但受限于单视角信息，精度和鲁棒性不足。
基于 BEV 表示的学习方法：这是当前的主流方向，主要分为两类：
- 栅格化方法：如 HDMapNet，通过逐像素分割生成矢量化地图，依赖密集 BEV 特征，计算成本高；
- 矢量化方法：如 VectorMapNet 和 MapTR 系列，将地图元素表示为点序列或采用 DETR-like 范式直接预测矢量地图，效率更高，但仍需维护密集的 BEV 特征空间。

近年来，StreamMapNet 通过融合时间信息提升了矢量地图的时间一致性，但上述方法均存在计算复杂度与感知范围正相关的问题，限制了其在资源受限设备上的部署。

2.2 3D 稀疏感知

稀疏感知方法的发展为解决密集 BEV 的计算效率问题提供了关键思路：

DETR 引入了基于集合的损失和 Transformer 架构，直接预测稀疏检测结果，开创了稀疏检测范式；
DETR3D 作为稀疏方法的代表性工作，基于稀疏参考点进行特征采样和融合；
Sparse4D 系列通过可变形 4D 聚合模块，无需依赖密集视图转换和全局注意力，实现了高效的 3D 检测，更适合边缘设备部署；
SparseDrive 和 SparseAD 将检测、跟踪和在线地图构建统一到时间解码器框架中，首次实现了基于全稀疏场景表示的高清地图构建，但性能仍落后于密集表示方法。

现有稀疏感知方法在 3D 目标检测中取得了显著进展，但在在线高清地图构建任务中的系统性研究仍不足，导致其性能难以与密集 BEV 方法竞争。本文正是针对这一研究空白，通过对稀疏网络设计的系统性优化，提升了稀疏表示在高清地图构建中的性能。

三、方法详解

SparseMeXt 采用稀疏编码器 - 解码器框架，专门针对地图矢量化任务设计。其整体架构如图 2 所示，主要包括图像编码器、查询存储库、去噪时间稀疏地图解码器和稀疏 - 密集辅助分割任务四个核心部分。

3.1 架构优化

现有稀疏方法（如 SparseDrive）的架构主要为 3D 目标检测设计，未能充分适配高清地图构建任务的特点（如地图元素空间覆盖范围大、时间不变性强等）。为此，本文从四个方面对架构进行了针对性优化：

3.1.1 现代图像骨干网络

骨干网络的预训练数据集对下游任务性能有显著影响。现有方法通常使用 ImageNet 预训练权重，但 ImageNet 的目标中心图像与驾驶场景存在较大领域差异，且其优化目标（分类）与地图构建任务（定位敏感）不匹配。

本文通过实验对比了不同预训练数据集的影响，结果如表 1 所示：

使用 DD3D 深度数据集预训练时，性能反而下降 1.2%，这是因为深度估计任务与地图构建的特征需求差异较大；
使用 nuImages 数据集（驾驶场景）结合 Cascade R-CNN 进行预训练时，mAP 提升了 1.5%，这是因为该预训练任务与地图构建任务的特征需求更匹配。

因此，SparseMeXt 采用在 nuImages 上预训练的 ResNet-50 作为骨干网络，最小化领域差异，提升特征表示能力。

3.1.2 重新思考高清地图构建任务中的图像编码器颈部结构

传统的特征金字塔网络（FPN）采用多输入多输出（MiMo）结构，通过多尺度特征融合和分而治之策略提升目标检测性能。但对于高清地图构建任务，这种结构存在两个关键问题：

FPN 限制了每个骨干网络层级只能检测特定尺度范围的目标，而地图元素（如车道线、道路边界）通常占据较大的图像区域，更接近大目标检测任务，多尺度融合的收益有限；
FPN 的主要优势在于解决密集目标检测中的优化挑战，而非多尺度特征融合（YOLOF 已验证这一点）。

为此，SparseMeXt 借鉴 YOLOF 的单输入多输出（SiMo）结构，仅使用 ResNet-50 的 C5 特征作为输入，不进行多尺度特征融合，简化了颈部结构。实验结果如表 2 所示，SiMo 结构不仅将计算量（Flops）从 193.6 降至 96.0，参数量从 85.8M 降至 39.7M，还使 mAP 提升了 4.25%，充分证明了该结构对地图构建任务的适配性。

3.1.3 调整阶段计算比例

SparseDrive 采用 1 个非时间感知阶段和 5 个时间融合阶段的结构，这种设计适合 3D 目标检测任务（目标多样性高，需要更多时间融合）。但地图任务具有以下特点：

地图元素类别少（仅行人过街、车道分隔线、道路边界三类）；
几何位置具有较好的时间不变性，过多的时间融合阶段会导致参数冗余和过拟合。

本文通过实验系统探索了非时间阶段和时间阶段的最佳组合，结果如表 3 所示：

1 个非时间阶段 + 4 个时间阶段的配置效果最佳，平均 mAP 提升 0.07%；
减少时间阶段数量（如 1+3）会导致性能显著下降（-2.2%）；
增加非时间阶段数量（如 2+4）也会降低性能（-0.8%）。

这一结果验证了地图任务对时间融合的需求低于 3D 目标检测，合理的阶段比例设计能够避免参数冗余，提升模型效率和泛化能力。

3.1.4 解耦解码器

分类和回归任务在特征敏感性上存在本质冲突：分类任务关注目标的语义信息，而回归任务关注目标的几何边界信息。现有方法（如 SparseDrive）通过在实例特征级别引入解耦细化层缓解了这一问题，但在图像特征点提取阶段仍不可避免地存在特征冲突。

为解决这一问题，本文提出了基于可变形特征聚合层的任务解耦方法（Decouple-DFA），如图 3 所示。该方法在特征提取阶段为分类和回归任务构建独立的特征采样点，实现了特征空间的解耦：

分类分支的采样点聚焦于富含类别信息的区域；
回归分支的采样点聚焦于对边界定位至关重要的区域。

这种空间分离的特征提取方式使每个任务分支能够独立优化，互不干扰。实验结果如表 4 所示，与基线相比，Decouple-DFA 使 mAP 提升了 0.6%，有效缓解了分类和回归的任务冲突。

3.2 实例和场景辅助分割

MapTRv2 等密集方法通过 BEV 上的辅助前景分割任务，利用深度监督引导骨干网络学习 3D 几何信息，提升了地图构建性能。但稀疏架构的设计理念与密集 BEV 空间相冲突，直接构建并行的密集 BEV 空间会导致训练参数大幅增加，且无法带来显著性能提升。

为此，本文设计了一种以查询为中心的稀疏 - 密集重建模块，如图 4 所示，其核心思路是在不引入推理阶段额外计算开销的前提下，为稀疏架构提供全局前景监督：

以 SparseMeXt 的实例特征为输入，通过上采样卷积层将其转换为 BEV 密集表示；
拼接多个实例特征，整合空间和上下文信息；
输出分割图，提供逐像素分类监督；
推理阶段禁用该模块，不增加计算成本。

实验结果如表 5 所示，引入该辅助分割任务后，模型的 mAP 提升了 0.9%，证明了其在增强语义和几何信息利用方面的有效性。

3.3 基于物理先验的查询去噪（PPDN）

DN-DETR 通过向真实边界框添加噪声，训练模型重建原始框，提升了检测性能。但地图元素（如车道线、道路边界）通常为曲线结构，直接向每个点添加随机噪声会破坏其几何一致性，不利于模型收敛。

针对这一问题，本文基于地图元素的物理特性（静态性、几何规律性），设计了四种符合物理约束的噪声类型（如图 2 所示），确保噪声扰动不会违反现实世界的物理规律：

旋转噪声：以线段所有点的平均点为锚点，添加随机旋转角度 θ；
位置噪声：基于上述锚点，向线段所有点的 x 和 y 方向添加相同的噪声；
尺度噪声：对线段所有点的 x 和 y 坐标施加随机缩放噪声；
曲率噪声：通过计算连续点切线的差值与欧氏距离的比值（二阶导数）确定车道曲率，基于曲率添加噪声，并调整每个点的位移。

需要注意的是，道路静态元素的位置和类别关系具有强相对依赖性，因此本文不采用类别噪声。实验结果如表 6 所示，PPDN 使模型的 mAP 提升了 0.5%，有效提升了预测的稳定性和鲁棒性。

四、实验

4.1 实验设置

4.1.1 数据集

实验基于 nuScenes 地图数据集，包含三类地图元素：

线形状：车道分隔线（lane divider）、道路边界（road boundary）；
多边形形状：行人过街（pedestrian crossing）。

数据集按照官方划分，训练集 / 验证集 / 测试集分别包含 700/150/150 个场景。基础检测范围为 x 轴 30m、y 轴 60m；为验证长距离感知性能，本文还生成了长距离数据集，将 x 轴和 y 轴范围分别扩展至 60m 和 90m。

4.1.2 训练细节

输入图像分辨率：704×256；
框架：PyTorch，采用自动混合精度（AMP）训练；
硬件：4 块 NVIDIA A100 GPU；
批量大小：每块 GPU 16；
训练轮数：100 个 epoch；
优化器：AdamW，权重衰减 0.01，梯度 L2 范数裁剪至 35；
学习率：初始学习率 0.006，采用半余弦衰减策略；骨干网络学习率乘以 1/10（因已预训练）；
感知范围：基础范围（x：-15~15m，y：-30~30m）；长距离范围（x：-30~30m，y：-45~45m）。

4.1.3 推理细节

推理过程：直接预测 100 个地图元素及其置信度分数，选择分数最高的预测结果，无需额外后处理；
硬件：单块 NVIDIA GeForce RTX 3090 GPU；
批量大小：1。

4.2 定量结果

4.2.1 与现有方法的对比

表 7 展示了 SparseMeXt 与当前最先进方法在 nuScenes 验证集上的性能对比。可以看出：

SparseMeXt-Tiny（ResNet-18）以 55.5% 的 mAP 显著优于 MapTR-Nano（45.9%）和 MapTRv2-Tiny（52.3%），且推理速度达到 32.9 fps，远超同类方法；
SparseMeXt-Base（ResNet-50）的 mAP 达到 65.2%，优于 MapTR-Tiny（58.7%）和 MapNeXt-Tiny（63.0%），速度为 25.4 fps；
SparseMeXt-Large（ResNet-101）的 mAP 达到 68.9%，超越了所有对比方法，包括 MapTRv2-Base（68.7%）和 SparseDrive-B（56.2%），同时保持 20.2 fps 的实时推理速度。

这一结果充分证明了 SparseMeXt 在性能和效率上的双重优势，打破了稀疏表示性能落后于密集表示的固有认知。

4.2.2 中心线检测任务

中心线检测为下游运动预测和路径规划提供方向和连通性信息，而 SparseDrive-map 未考虑该任务。表 8 展示了 SparseMeXt 在中心线任务上的性能：

SparseMeXt-Base 的平均 AP 达到 58.8%，显著优于 MapTRv2（54.0%）；
这一结果表明 SparseMeXt 不仅在地图元素检测上表现出色，还能为端到端规划提供有力支持。

4.2.3 长距离高清地图构建

自动驾驶对长距离感知有迫切需求，表 9 展示了 SparseMeXt 在 60×90m 感知范围下的性能：

SparseMeXt-Base 的 mAP 达到 47.6%，比 MapTR (R50) 高出 7.4%；
这一结果证明 SparseMeXt 在长距离场景下仍能保持优异性能，具有更强的实际应用价值。

4.3 消融实验

为验证各创新模块的有效性，本文以 SparseDrive-Map 为基线（mAP=57.4%），进行了逐步消融实验，结果如表 10 所示：

调整阶段比例：mAP 提升 0.07%，验证了阶段比例设计的合理性；
引入 SiMo 颈部结构：mAP 提升 4.25%，是性能提升的关键因素之一；
加入 Decouple-DFA 解耦解码器：mAP 提升 0.6%，缓解了分类与回归的任务冲突；
使用 nuImages 预训练骨干网络：mAP 提升 1.5%，证明了任务相关预训练的重要性；
引入辅助分割损失：mAP 提升 0.9%，增强了语义和几何信息利用；
加入 PPDN 去噪模块：mAP 提升 0.5%，提升了预测稳定性。

所有模块协同作用后，SparseMeXt-Base 的 mAP 达到 65.2%，比基线提升了 10.1%，同时推理速度提升了 14 fps，充分证明了各创新模块的有效性和协同性。

4.4 定性结果

图 5 展示了 SparseMeXt 与 SparseDrive 在不同场景下的定性对比：

在常规场景中，SparseMeXt 能够更准确地检测出车道分隔线、道路边界和行人过街区域，减少了漏检（FN）和误检；
在长距离场景中，SparseMeXt 能够稳定检测远距离的道路元素，而 SparseDrive 的检测效果明显下降；
在中心线检测任务中，SparseMeXt 预测的中心线更贴合真实道路结构，为下游规划任务提供了更可靠的输入。

这些定性结果进一步验证了 SparseMeXt 在复杂驾驶场景、长距离感知和中心线检测中的优势。

五、结论

本文提出了 SparseMeXt，一种基于稀疏表示的高效高清地图构建框架，通过架构优化、辅助分割监督和物理先验去噪三大核心创新，成功实现了稀疏表示对密集表示的超越。在 nuScenes 数据集上的实验表明，SparseMeXt 在性能和效率之间取得了卓越的平衡，为在线高清地图构建提供了一种更具部署价值的解决方案。

SparseMeXt 的成功证明了稀疏表示在高清地图构建中的巨大潜力，打破了密集 BEV 特征的垄断地位。未来的研究方向可以包括：

进一步优化长距离感知性能，适应更复杂的驾驶场景；
融合多传感器信息（如激光雷达、毫米波雷达），提升模型的鲁棒性；
探索端到端自动驾驶框架，将地图构建与运动预测、路径规划深度融合。

我们相信，SparseMeXt 的提出将为自动驾驶领域的高清地图构建技术带来新的发展方向，推动更安全、更高效的自动驾驶系统的落地。