news 2026/6/3 10:35:46

DEIM:革新实时目标检测,让 DETR 又快又准

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
DEIM:革新实时目标检测,让 DETR 又快又准

一句话概括

DEIM 是一个针对 DETR 系列实时目标检测器的训练加速框架,通过Dense O2O(密集一对一匹配)增加监督信号密度,配合MAL(匹配质量感知损失)优化低质量匹配,实现收敛速度翻倍 + 精度提升,且不增加任何推理开销。


视频讲解:DEIM:超越 YOLO,快准双绝!DEIM:让 DETR 告别慢收敛,开启实时检测新纪元_哔哩哔哩_bilibili

DEIM:超越 YOLO,快准双绝!带你了解如何在自己的数据集上面跑DEIM_哔哩哔哩_bilibili

代码:tgf123/YOLOv8_improve

背景:DETR 的收敛困境

DETR 用匈牙利算法做一对一(O2O)匹配,天然无需 NMS,端到端。但 O2O 带来两个致命问题:

问题原因后果
监督稀疏每个目标只配一个正样本(O2M 通常配 4-10 个)正样本数严重不足,收敛慢,尤其小目标表现差
低质量匹配300 个随机初始化 query 缺乏空间先验,大量匹配 IoU 极低但置信度偏高模型对低质量框缺乏惩罚,难以自我纠正

实验数据:SimOTA(O2M)每图正样本可达 80+,Hungarian(O2O)峰值集中在 <10,极端情况下 O2M 的正样本是 O2O 的10 倍


DEIM 做了什么:两个核心组件

1. Dense O2O — 密集一对一匹配

核心思想:不改变 O2O 匹配结构,而是增加每张图的目标数量,从而间接增加正样本数。

实现方式:用经典数据增强拼图——

  • Mosaic:4 张图拼成 1 张 → 目标数 ×4

  • Mixup:2 张图按随机比例叠加 → 目标数增加

以 Mosaic 为例:原始 1 张图有 1 个目标、1 个正样本;4 张图拼成 1 张后有 4 个目标、4 个正样本。匹配方式不变(仍是一对一),但监督密度接近 O2M。

关键优势

  • 不需要额外 decoder 或辅助 head(对比 Group DETR 需要 K 组独立 decoder,Co-DETR 需要辅助检测头)

  • 零额外推理开销(Mosaic/Mixup 只在训练时使用)

  • 实现极简,只需在训练 pipeline 中开启标准增强

训练策略:训练前 50% epoch 开启 Dense O2O,后 50% 关闭(回归正常训练),最后 2 个 epoch 关闭所有数据增强。前 4 个 epoch 还有 DataAug Warmup,简化注意力学习。

2. MAL — 匹配质量感知损失(Matchability-Aware Loss)

Dense O2O 增加了正样本,但也引入大量低质量匹配——query 和 GT 的 IoU 很低(比如 0.05),但分类置信度却很高(比如 0.9)。模型在"我很有信心,但我框歪了"的状态下缺乏纠正信号。

现有损失函数的问题:

Focal Loss:只看置信度,完全不管框的质量。置信度 0.9 + IoU 0.05 和置信度 0.9 + IoU 0.95,损失一样。

VFL:引入了 IoU 作为目标标签,比 FL 进了一步,但对低质量匹配几乎无感——当 IoU=0.05、置信度=0.9 时,VFL 的损失值极小且几乎不变(loss landscape 接近水平面),等于放任不管。

所以 MAL 要解决的核心问题是:让损失函数对低质量匹配产生足够强的梯度信号,同时不破坏高质量匹配的优化效果

MAL 公式

p:分类置信度;q:预测框与GT的IoU;γ:超参数(最优1.5)。

固定 p=0.9,γ=1.5:

目标标签 + 两项拆解

MAL 正样本:-q^γ · log(p) - (1 - q^γ) · log(1-p)

  • 第一项-q^γ · log(p):惩罚"置信度不够高",目标标签越大 → 惩罚越重 (term1)

  • 第二项-(1 - q^γ) · log(1-p):惩罚"置信度不该高却高",目标标签越小 → 这项越大 → 惩罚越重(term2)

场景term1 做什么term2 做什么净效果
IoU 高 + 置信度高鼓励维持高置信度几乎不干预保持现状,很好
IoU 高 + 置信度低推高置信度不管纠正:好框该自信
IoU 低 + 置信度高不管重罚,压低置信度纠正:歪框别自信
IoU 低 + 置信度低不管鼓励保持低置信度保持现状,正确

低质量匹配(IoU=0.05,q^1.5 = 0.0112)

pVFL term1:q²·log(p)MAL term1 :q^1.5·log(p)VFL term2 :q(1-q)·log(1-p)MAL term2 :-(1-q^1.5)·log(1-p)VFL totalMAL totalVFL ΔMAL ΔΔ比
0.10.00580.02570.00500.10420.01080.1299
0.30.00300.01350.01690.35270.02000.3661+0.0092+0.236225.7×
0.50.00170.00770.03290.68540.03470.6931+0.0147+0.327022.2×
0.70.00090.00400.05721.19050.05811.1945+0.0234+0.501421.4×
0.90.00030.00120.10942.27680.10962.2780+0.0516+1.083521.0×

高质量匹配(IoU=0.95,q^1.5 = 0.9259)

pVFL term1 -q²·log(p)MAL term1 -q^1.5·log(p)VFL term2 -q(1-q)·log(1-p)MAL term2 -(1-q^1.5)·log(1-p)VFL totalMAL totalVFL ΔMAL ΔΔ比
0.12.07812.13210.00500.00782.08312.1399
0.31.08661.11480.01690.02641.10351.1412-0.9796-0.99861.0×
0.50.62560.64180.03290.05130.65850.6931-0.4450-0.44811.0×
0.70.32190.33030.05720.08920.37910.4194-0.2794-0.27371.0×
0.90.09510.09760.10940.17050.20450.2681-0.1746-0.15130.9×
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/3 10:25:22

Arduino ESP32连接GY39传感器,数据上传到ThingsBoard物联网平台教程

ESP32与GY39传感器数据上云全指南&#xff1a;从硬件连接到ThingsBoard可视化 在智能农业、环境监测或工业物联网项目中&#xff0c;如何将传感器数据可靠地传输到云端并实现可视化一直是开发者面临的挑战。ESP32作为一款兼具Wi-Fi和蓝牙功能的低成本开发板&#xff0c;配合GY…

作者头像 李华
网站建设 2026/6/3 10:24:12

c#从零开始:基于卷影复制的轻量级版本管理实现

在软件开发的过程中&#xff0c;我们时常要面对批量文件变更的场景&#xff1a;部署前对配置做批量替换、用脚本迁移资源路径、对素材库做大规模重构……这些操作一旦出错&#xff0c;回滚代价极高甚至不可行。我们曾经尝试过各种方案&#xff1a;系统还原点太粗糙、通用版本控…

作者头像 李华
网站建设 2026/6/3 10:24:08

Speller100:零样本多语言拼写纠错系统的架构设计与工程实践

1. 项目概述&#xff1a;当拼写纠错遇上百种语言 在自然语言处理&#xff08;NLP&#xff09;的日常工作中&#xff0c;拼写纠错&#xff08;Spelling Correction&#xff09;一直是个看似基础、实则暗藏玄机的任务。无论是搜索引擎的查询建议、聊天应用的输入提示&#xff0c;…

作者头像 李华
网站建设 2026/6/3 10:22:17

0 行业洞察篇__数字孪生IOC的“双渲染引擎”架构:端渲染与流渲染如何协同支撑智能运营

行业洞察篇 | 数字孪生IOC的“双渲染引擎”架构&#xff1a;端渲染与流渲染如何协同支撑智能运营 从“好看”到“好用”&#xff1a;数字孪生IOC单渲染模式的尴尬与现实落差 前阵子参加一个智慧城市的项目评审会&#xff0c;甲方负责人对着屏幕上流光溢彩的城市大屏连连点头&am…

作者头像 李华