YOLO11 改进 | C3k2_TSSA Token 统计自注意力替换 C3k2 全流程指南
- 一、本文简介
- 二、模块原理详解
- 2.1 模块层级结构总览
- 2.2 核心模块:AttentionTSSA_Meta(Token 统计自注意力)
- 2.3 MetaFormerBlock(统一的 Token Mixer 容器)
- 2.4 C3k_TSSA(深层精度增强模式)
- 2.5 C3k2_TSSA(最终模块)
- 三、改进思想与创新点
- 3.1 背景与动机
- 3.2 核心创新点
- 3.3 与现有注意力改进方案的对比
- 3.4 在 YOLOv11 框架中的适配设计
- 四、完整代码
- 五、手把手配置步骤
- Step 1:确认 `block.py` 已正确导入
- Step 2:确认 `tasks.py` 已注册 C3k2_TSSA
- Step 3:训练
- 六、YAML 配置文件(多种改进形式)
- 形式一:全面替换(Backbone + Head 全部用 C3k2_TSSA)
- 形式二:仅替换 Backbone(Head 保留原版 C3k2)
- 形式三:全 C3k 精度优先模式(c3k=True,注意力最强)
- 形式四:混合模式(浅层 MetaFormerBlock + 深层 C3k_TSSA)
- 形式五:P2 四尺度分割版(适合小目标)
- 七、常见问题
- 八、总结
专栏系列:YOLOv11 注意力机制改进实战
改进点:将 Backbone 与 Head 中的C3k2模块替换为基于Token 统计自注意力(TSSA)的C3k2_TSSA,在 MetaFormer 框架下用统计量驱动注意力,以极低的额外开销显著增强特征判别能力,适合高精度实例分割场景。
一、本文简介
C3k2是 YOLOv11 的核心特征提取模块,但其内部的标准 Bottleneck 仅依赖局部卷积操作,缺乏对全局上下文的感知能力。在实例分割任务中,密集目标的区分、遮挡场景的处理都需要更强的全局关系建模能力。
本文引入发表于ICLR 2025的Token Statistics Transformer(ToST)中的核心注意力机制AttentionTSSA_Meta,将其嵌入 C3k2 框架,构造出C3k2_TSSA模块。
核心改动:
- 将 C3k2 内部的 Bottleneck 替换为MetaFormerBlock,采用
AttentionTSSA_Meta作为 Token Mixer;