news 2026/5/25 14:02:33

SCCLIP

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
SCCLIP

SCCLIP

动机

“anomaly tokens emerge during the forward pass, drawing excessive attention from normal patch tokens, thereby diminishing spatial awareness” (Bai 等, 2024, p. 1) (pdf) 🔤在前向传递过程中出现异常令牌,引起正常补丁令牌的过度关注,从而削弱空间意识🔤

引入额外骨干的网络往往意味着计算成本高,没有充分发掘CLIP本身的潜质。
中间特征表现出良好的语义一致性,并没有被充分利用。
中间层的特征相似度图表现良好,说明其空间定位能力不错,但中间层特征的语义信息较少

方法

异常token减少

只针对倒数第二层输出检查异常token
根据空间一致性原则,某异常token将会被3X3卷积进行插值,确保语义一致性。

特征聚合

使用中间层的特征增强深层特征。
利用中间层的相似度矩阵来强化深层特征的空间一致性。(强化周围patch的交互)

深层特征作者使用倒数第二层和最后一层
分别使用第9层和第4层作为相似度矩阵用于特征聚合。

作者认为KK这些自注意力激活仍然不够,所以使用中间层的相似度矩阵+KK自注意力作为最后一层的注意力分数

多级特征融合

作者发现直接使用多级中间特征融合不行,原因是与最后一层输出的相似度太低
作者发现使用最后一层的参数就可以很好的避免这一问题。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/26 6:54:42

Flutter 应用保活与后台任务:在 OpenHarmony 上实现定时上报

前言 在 OpenHarmony 生态中,许多应用场景(如健康监测、设备状态上报、位置追踪)要求应用即使在退到后台或屏幕关闭后,仍能周期性执行任务。然而,出于系统资源与电池优化的考虑,OpenHarmony 对后台进程有严…

作者头像 李华
网站建设 2026/5/26 9:25:01

【RL】verl 数据处理

您的 Eurus-2-RL-Data 数据集需要做两个主要适配:文件格式转换和字段映射配置。 快速解决方案 1. 转换文件格式(推荐) 将 arrow 文件转换为 parquet 格式: from datasets import load_dataset import os# 加载原始数据 ds lo…

作者头像 李华
网站建设 2026/5/26 5:54:14

Product Hunt 每日热榜 | 2025-12-13

1. Gemini Deep Research Agent 标语:最优秀的研究助手现已向开发者开放! 介绍:Gemini深度研究助手现在可以通过互动API提供给开发者使用。它由Gemini 3.0 Pro驱动,能够自主规划、执行和综合多步骤的研究任务。 产品网站&#…

作者头像 李华
网站建设 2026/5/26 5:54:44

Python内置函数:你以为你很熟,但这些用法90%的人不知道

你好,我是你的技术朋友。今天我想和你聊聊那些每天都在用,却可能只用了十分之一功能的Python内置函数。 想象一下,你家厨房有一套顶级厨刀,但平时只用它切切西红柿。直到有天看到大厨用同一把刀雕出一朵萝卜花,你才恍然…

作者头像 李华
网站建设 2026/5/25 17:19:39

python_基于主视频删减片段并插入镜头视频

python_基于主视频删减片段并插入镜头视频 import pyJianYingDraft as draft from pyJianYingDraft import trange, ClipSettings,timdef create_jianying_draft_from_clips(draft_name,main_video_path,delete_ranges,lens_info_dict,draft_folder_path):# 时间格式转换函数(处…

作者头像 李华