news 2026/5/28 23:37:22

大模型也需要睡觉!让AI打个盹,醒来更聪明

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
大模型也需要睡觉!让AI打个盹,醒来更聪明
闻乐 发自 凹非寺
量子位 | 公众号 QbitAI

7×24,AI也吃不消。

卡内基梅隆大学和马里兰大学发了篇论文,《Language Models Need Sleep》——

大模型处理长上下文的时候,硬撑着不休息,真的会累傻。

这项研究的灵感源自人脑运作机制。

人睡觉的时候海马体会把白天的短期记忆一遍遍回放,巩固进皮层突触,变成长期知识。

研究团队认为模型也可以这样,设计了一个睡眠机制,让大模型上下文窗口快满的时候别硬撑了,打个盹把最近的上下文反复咀嚼几遍,压缩进长期权重,清空缓存,醒了再接着干。

测试发现,合理增加“睡眠”迭代轮次,能明显提升模型在深度推理类任务上的表现。

尤其是那些需要一步接一步推导的难题,越复杂,模型越需要多睡一会儿。

咋回事?

大模型到底怎么了,非要睡觉

Transformer的核心是注意力机制,但注意力有一个天生的短板就是,上下文越长,算力平方级往上蹿,KV缓存也线性往上涨。

同样是推理任务,8K上下文窗口和128K上下文窗口的算力成本差距极大,多出的算力基本都消耗在了历史信息的关联计算上。

所以现在的做法两种:

要么就硬扛,扛不住了就把老信息踢出缓存,但踢出去的东西,模型就当没发生过;

另一类就是两年流行的SSM+Attention混合架构,比如Samba、Qwen3.5。

混合架构是想了个折中方案,把老信息压缩进快速权重fast weight,不占缓存,同时保留信息的可调用能力。

这确实缓解了一部分内存压力,但团队发现即便快速权重还有充足容量,当推理步骤变多、逻辑链条变长时,模型依旧会出现性能失效的问题。

也就是说当下的瓶颈并非信息存储能力不足,而是深度推理能力跟不上

历史信息被移出KV缓存前,模型仅有一次前向传播的机会完成信息内化,单次处理根本不足以支撑复杂逻辑的拆解与推导。

这一点和人脑比较像,你白天经历了一大堆事情,不是当场全消化掉的,而是大脑等你睡着了再处理。

海马体在睡眠期间一遍遍回放白天的重要片段,把短期记忆巩固进皮层突触,变成长期知识。

但这个过程必须离线,也就是你得先睡着,把外部刺激暂时关掉,大脑才能集中算力干消化这件事。

而且它不是回放一遍就完,得多放几遍。

模型的睡眠长什么样

团队把人脑这一整套逻辑搬到了模型上。

他们的设计是当模型上下文窗口快满的时候,不硬撑了,直接让大模型睡觉。

这里的睡觉是指暂停接收新token,进入纯离线状态,针对已积累的全部上下文,执行多轮递归前向传播

依靠可学习的局部规则,反复对信息进行提炼整合,逐步更新SSM模块内的快速权重,完成信息的深度压缩与消化。

消化完了就清空KV缓存,带着更新后的权重醒来,接着干活。

从算力分配来看,额外的计算开销全部集中在“睡眠”阶段,型苏醒后的正常推理流程和常规模型保持一致,只需要一次前向传播。

这里的“睡眠时长”,本质上就是信息迭代处理的轮次,轮次越多,代表模型对上下文内容的梳理、打磨次数越充分。

团队选用元胞自动机、多跳图检索、GSM-Infinite无限数学推理三类任务开展测试,因为这几类任务可以精准控制推理深度记忆负载两大变量。

测试结果清晰印证提升睡眠迭代轮次,模型整体性能稳步提升,而且性能提升主要体现在高难度深度推理任务上。

也就是说简单的题醒着就能秒了,难的题需要睡一觉,得经过多轮梳理,才能理清思路。

只能说,摸鱼休息确实是提升效率的妙招,有时候停下来才能好好思考(doge)。

论文地址:https://arxiv.org/abs/2605.26099

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

专属AI产品从业者的实名社群,只聊AI产品最落地的真问题扫码添加小助手,发送「姓名+公司+职位」申请入群~

进群后,你将直接获得:

👉 最新最专业的AI产品信息及分析 🔍

👉 不定期发放的热门产品内测码 🔥

👉 内部专属内容与专业讨论 👂

🌟 点亮星标 🌟

科技前沿进展每日见

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/28 23:30:17

2026年三维可视化开发,我只推荐这 5大 3D渲染引擎

本文将为您深入剖析并推荐5款在三维可视化领域各具优势的3D渲染引擎,助您在技术选型时效率翻倍。Three.js Web端三维图形的基石与门户 作为WebGL技术最成功的封装库之一,Three.js极大地降低了在浏览器中创建和展示三维内容的门槛。它通过精心设计的JavaS…

作者头像 李华
网站建设 2026/5/28 23:29:36

PLM上线3年了,为什么图纸还在邮件/微信里流动?

一、重复上演的日常早上8点半,张工打开PLM系统,准备查一个图号的历史版本。页面转圈。5秒,10秒,20秒。他去接了杯水,回来还在转。试了第三次,终于点进去了——但文档预览是一片灰。他放弃了。打开微信&…

作者头像 李华
网站建设 2026/5/28 23:26:01

初创团队如何利用Taotoken统一管理多项目AI调用成本

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 初创团队如何利用Taotoken统一管理多项目AI调用成本 对于初创团队而言,快速迭代产品、验证想法是核心要务。在这个过程…

作者头像 李华
网站建设 2026/5/28 23:20:47

200 SMART G2无线通讯,用一次就回不去了

测试设备与参数PLC型号:S7-200 smart G2(ST32)*2台PLC无线通讯终端:达泰DTD426M3N*2块主从关系:1主1从通讯接口:Rj45接口供电:12-24VDC通讯协议:Profinet传输距离:2KM本方案以西门子S7-200SMART…

作者头像 李华
网站建设 2026/5/28 23:10:04

Spring Bean作用域以及生命周期

前言在之前已经有几篇文章来讲解过Bean的创建和依赖注入等相关内容,这篇文章补充一下关于Bean的一些重要内容:Bean作用域和生命周期一、Bean作用域1.定义作用域 Spring 容器创建 Bean 的「实例数量」和「存活范围」它决定了:整个项目有几个这…

作者头像 李华
网站建设 2026/5/28 23:09:08

黎阳之光人员无感技术,引领矿山矿洞安全管理新变革

矿山行业作为国民经济重要支撑,安全生产始终是不可逾越的红线。随着智慧矿山建设加速推进,传统依赖人工与穿戴设备的安全管理模式,已无法适配矿山矿洞复杂极端环境与精细化管控需求。黎阳之光科技有限公司以技术创新为驱动,推出人…

作者头像 李华