news 2026/5/25 6:27:23

Ring-flash-2.0:6.1B激活MoE模型推理破百B性能

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Ring-flash-2.0:6.1B激活MoE模型推理破百B性能

Ring-flash-2.0:6.1B激活MoE模型推理破百B性能

【免费下载链接】Ring-flash-2.0项目地址: https://ai.gitcode.com/hf_mirrors/inclusionAI/Ring-flash-2.0

近日,inclusionAI正式开源高性能思维模型Ring-flash-2.0,该模型基于MoE(Mixture of Experts,混合专家)架构,在仅激活6.1B参数的情况下实现了媲美百亿级模型的复杂推理能力,同时通过创新的IcePop算法解决了MoE模型强化学习训练不稳定的核心难题。

当前大语言模型领域正面临"性能-效率"的双重挑战:一方面,复杂任务如数学竞赛、逻辑推理等需要模型具备深度思维能力,通常依赖大参数量模型;另一方面,全参数激活的密集型模型(Dense Model)推理成本高昂,难以满足高并发场景需求。MoE架构通过稀疏激活机制实现了参数量与计算效率的平衡,但在强化学习阶段的训练不稳定性一直是行业痛点。根据Gartner最新报告,2025年将有65%的企业AI应用面临推理成本过高的问题,高效能模型成为突破关键。

Ring-flash-2.0在架构设计和训练方法上实现了多重突破。作为Ling-flash-2.0-base的深度优化版本,该模型总参数量达100B,但通过1/32专家激活比例和MTP层等结构优化,每次推理仅激活6.1B参数(其中4.8B为非嵌入参数)。这一设计使模型在四颗H20 GPU上部署时,生成速度可达200+ tokens/秒,大幅降低了高性能思维模型的部署门槛。

如上图所示,该基准测试对比了Ring-flash-2.0与GPT-OSS-120B、Qwen3-32B-Thinking等主流模型在数学竞赛(AIME 25、Omni-MATH)、代码生成(LiveCodeBench)和逻辑推理(ARC-Prize)等任务上的表现。从图中可以清晰看出,Ring-flash-2.0不仅超越了40B以下密集型模型,还在多项指标上媲美更大规模的开源MoE模型和闭源API。

该图展示了Ring-flash-2.0的MoE架构优化细节,包括专家激活机制和MTP层设计。从图中可以看出,极低的激活参数比例(6.1B/100B)是实现高性能与高效率平衡的关键,这种"小激活大模型"的设计思路为行业提供了新的技术参考。

模型性能的跃升得益于inclusionAI自研的IcePop算法,该算法通过"掩码双向截断"技术有效解决了MoE模型强化学习中的训练-推理偏差问题。传统GRPO算法在长序列训练中会出现概率分布偏差累积,当相对差异超过5%时训练即告失败。IcePop算法创新性地同时截断训练概率显著高于和低于推理概率的token,并对差异过大的token进行梯度掩码,使模型能够在长周期RL训练中保持稳定进化。

在训练流程上,Ring-flash-2.0采用"SFT+RLVR+RLHF"三阶段方案:首先通过轻量化Long-CoT SFT(长链思维微调)赋予模型多样化思维模式;然后通过RLVR(带可验证奖励的强化学习)激发推理潜力;最后通过RLHF(基于人类反馈的强化学习)优化通用能力。这种分阶段训练既保证了复杂推理任务的性能,又兼顾了模型的整体可用性。

该截图展示了Ring-flash-2.0创新的两阶段RL训练 pipeline。从图中可以看出,研发团队对比了联合训练与分阶段训练两种方案,最终选择的分阶段方案在工程效率和生成质量平衡上表现更优,尤其减少了长尾生成问题。

Ring-flash-2.0的开源将加速高效能思维模型的产业化应用。在金融风控领域,其逻辑推理能力可用于复杂交易规则的实时解析;在教育场景,数学竞赛级别的解题能力能够赋能个性化辅导系统;而200+ tokens/秒的生成速度使其具备高并发服务能力,有望推动AI客服、智能创作等场景的体验升级。随着模型部署生态的完善(已支持vLLM和SGLang推理框架),预计将有更多开发者基于该架构探索低成本高性能的AI应用。

未来,随着IcePop算法的进一步优化和多阶段训练流程的迭代,MoE模型有望在保持高效率优势的同时,逐步逼近甚至超越同量级密集型模型的综合能力。Ring-flash-2.0的技术路径表明,稀疏激活与强化学习的深度融合,可能是实现"千卡训练、百卡部署、超千卡性能"的关键所在,这将为大语言模型的可持续发展提供新的方向指引。

【免费下载链接】Ring-flash-2.0项目地址: https://ai.gitcode.com/hf_mirrors/inclusionAI/Ring-flash-2.0

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/25 13:04:26

Linly-Talker支持语音唤醒功能吗?类似Siri体验

Linly-Talker 能否实现“说一句就醒”的语音唤醒体验? 在智能音箱普及的今天,我们早已习惯了对设备喊一声“嘿 Siri”或“小爱同学”,就能立刻唤醒一个随时待命的数字助手。这种“始终在线、听觉优先”的交互方式,正悄然成为人机沟…

作者头像 李华
网站建设 2026/5/25 19:44:15

DeepSeek-V3.1:混合思维模式提升效率与智能

DeepSeek-V3.1:混合思维模式提升效率与智能 【免费下载链接】DeepSeek-V3.1-Base-BF16 项目地址: https://ai.gitcode.com/hf_mirrors/unsloth/DeepSeek-V3.1-Base-BF16 大语言模型领域再迎新突破——DeepSeek-V3.1正式发布,通过创新的混合思维模…

作者头像 李华
网站建设 2026/5/25 1:56:00

Emu3.5:原生多模态模型的世界建模革命

导语:BAAI团队推出的Emu3.5模型以"统一世界建模"为核心,通过原生多模态架构和创新推理技术,重新定义了AI理解与生成视觉-文本内容的能力边界。 【免费下载链接】Emu3.5 项目地址: https://ai.gitcode.com/BAAI/Emu3.5 行业…

作者头像 李华
网站建设 2026/5/25 14:46:21

41、PowerShell实用扩展与事件处理

PowerShell实用扩展与事件处理 1. PowerShell社区扩展(PSCX) 1.1 活动目录用户删除 作为域管理员,在活动目录中删除用户时需格外小心。例如,删除名为 ADSITEST2 的用户,可使用以下命令: PS> del ADSITEST2 PS> 需要注意的是,此操作不会有确认提示,所以操作…

作者头像 李华
网站建设 2026/5/24 11:02:34

Linly-Talker支持WebSocket双向通信吗?

Linly-Talker 的实时交互架构:WebSocket 是否不可或缺? 在智能对话系统日益普及的今天,用户早已不再满足于“输入问题、等待回复”的静态交互模式。无论是企业客服、在线教育,还是虚拟主播和数字员工,人们对低延迟、高…

作者头像 李华
网站建设 2026/5/25 5:24:39

Linly-Talker能否生成儿童音色?亲子教育场景潜力巨大

Linly-Talker能否生成儿童音色?亲子教育场景潜力巨大 在智能教育设备日益普及的今天,越来越多家庭开始期待AI不仅能“讲知识”,还能“像人一样陪伴孩子成长”。尤其对于3-6岁的幼儿而言,语言风格、声音特质和表情互动直接影响他们…

作者头像 李华