news 2026/6/1 4:29:42

反哺RAG,SkillGraph把skill组装起来了

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
反哺RAG,SkillGraph把skill组装起来了

现有的 Agent 技能库就像一个没有目录的文件柜——你往里面塞了很多技能,用的时候只能靠语义相似度去翻。翻出来的技能有没有先后顺序?谁是谁的前置条件?没人知道。

中科大和阿里巴巴团队提出了 SkillGraph,把文件柜变成了一张有方向的地图:技能之间谁依赖谁、谁增强谁、谁经常一起出现,都标得清清楚楚。更关键的是,这张地图会随着 Agent 训练自动长出新路、砍掉死路。

结果?7B 开源模型在 ALFWorld 上碾压 GPT-4o 42.6 分。

扁平技能库的两个致命伤

当前主流的 Agent 技能管理方式,不管是 Voyager、ExpeL 还是 SkillRL,本质上都是一个扁平列表。存技能的时候只记内容和分类,检索的时候只看语义相似度。这带来两个问题:

第一,检索不组合。复杂任务需要按顺序执行多个技能。比如 ALFWorld 里的"加热并放置"任务,你得先找到物品、再拿起来、再加热、再放到目标位置。扁平检索可以返回一堆相关技能,但没法告诉你先做哪个后做哪个。

第二,维护没结构。技能存多了就乱:冗余的技能挤占 context,过粗的技能覆盖不了细分场景,过时的技能拖低成功率。但系统没有结构性线索来判断什么时候该合并、拆分还是淘汰。

根源在于:技能之间的依赖关系本身就是知识,而扁平库把这种知识丢了。

SkillGraph 的结构

SkillGraph 的核心思路很简单:把技能组织成有向图,节点是技能,边是关系。但关键不只是建图,而是让这张图和 Agent 策略一起进化,形成闭环。

图构建:三种关系,一开始就说清

从 Agent 的交互轨迹里蒸馏出两类技能:通用技能(跨任务可用的推理策略)和任务特定技能(某类任务的专有策略)。然后建三种边:

  • Prerequisite(前置依赖):技能 A 必须在技能 B 之前执行。比如"找到物品"是"拿起物品"的前置。
  • Enhance(增强):通用技能 A 能让任务特定技能 B 效果更好。比如"验证每个子目标"能增强"检查微波炉"的效果。
  • Co-occur(共现):两个技能经常在成功的轨迹里一起出现。

每条边有权重,初始根据结构先验设定,后面训练中动态调整。每个节点记录使用次数、成功次数和经验成功率。

图感知检索:不是一堆卡片,是一条路径

这才是 SkillGraph 和扁平库的本质区别。给定一个新任务:

  1. 选种子:从当前激活的技能里,选出通用技能 + 匹配任务类型的技能作为起点。
  2. 向后扩展:沿前置依赖边做 BFS,找回种子依赖但可能属于其他类别的基础技能。
  3. 向前扩展:沿出边做 beam search,找到种子可能引导的后续技能。
  4. 拓扑排序:把扩展出来的技能按依赖关系排序,输出一条从简到繁的技能执行路径。

Agent 拿到的不是"这几个技能可能有用",而是"先做 A、再做 B、然后做 C"。这个区别在多步骤任务上是决定性的——消融实验证明,去掉图感知检索,ALFWorld 直接掉了 31.2 分。

图进化:节点增删改 + 边的强化与修剪

静态的图跟不上不断进步的策略。SkillGraph 在每次验证步执行图进化:

节点层面:

  • 插入:Agent 在现有技能覆盖不到的任务上失败 → 教师模型分析失败轨迹,生成新技能
  • 合并:两个技能的图邻居高度重叠(Jaccard ≥ 0.85)→ 大概率是冗余,合二为一
  • 拆分:一个技能使用多但成功率中等(15%-40%)→ 可能过粗,拆成更聚焦的子技能
  • 淘汰:使用多但成功率极低(< 15%)→ 废弃,不再检索

边层面:

  • 路径强化:成功轨迹经过的边权重增加,验证过的依赖路径更容易被未来检索到
  • 共现发现:两个技能在同一成功轨迹里出现但还没连边 → 加一条 co-occur 边
  • 衰减修剪:所有边权重的衰减因子 γ=0.99,低于阈值的边直接删掉。旧关系不会永远赖着不走

渐进解锁:这是个巧妙的设计。一开始只有 level-0(没有前置依赖的基础技能)是激活的。当第 L 层技能的平均成功率超过 60%,才解锁第 L+1 层。Agent 先学走路再学跑步,高级技能不会在基础没打牢时出来添乱。

闭环训练

策略用 GRPO 优化,技能图在每个验证步进化。更好的策略产生更丰富的轨迹 → 轨迹驱动图进化 → 更好的图提供更精准的技能路径 → 加速策略学习。数据验证了这个闭环:SkillGraph 大约 50 步训练后就超越 SkillRL,而且 prompt 更短——因为图遍历只返回拓扑相关的技能,不是所有语义相似的条目。

实验

ALFWorld(家居操作)

方法整体成功率
GPT-4o48.0%
Gemini-2.5-Pro60.3%
GRPO(无技能)77.6%
SkillRL(扁平技能库)89.9%
SkillGraph90.6%

Clean 和 Heat 子任务都达到 100%——这两个任务恰好是最需要按严格顺序执行前置动作的。7B 模型比 GPT-4o 高 42.6 分,比 Gemini-2.5-Pro 高 30.3 分。

WebShop(网页购物)

方法得分成功率
SkillRL85.272.7%
SkillGraph91.584.4%

比 SkillRL 高 11.7 分。WebShop 的任务顺序相对灵活,所以图进化(保持高质量技能集)比检索排序更重要——去掉图进化掉 14.1 分,去掉图结构掉 11.7 分。

搜索增强 QA

只在 NQ 和 HotpotQA 上训练,零样本泛化到 5 个没见过的数据集,平均 48.9 分,所有方法最高。

消融实验的关键发现

  • ALFWorld:图感知检索最关键(-31.2),因为任务需要严格的技能顺序
  • WebShop:图进化最关键(-14.1),因为任务需要持续维护高质量技能集
  • 冷启动 SFT:两个场景都是基础(-17.2),没有好的初始化 RL 收敛不了

小扬总结

SkillGraph 目前依赖强教师模型(o3)做技能蒸馏和图操作,推理成本不低。技能图也只在单环境内构建和进化,跨环境迁移还没验证。但核心洞察已经清晰:技能之间的依赖关系是可以自动发现和进化的知识,把它显式表达出来,比让模型在扁平列表里自己猜要高效得多。

从"存技能"到"组织技能",这可能是 Agent 经验管理从量变到质变的关键一步。

学AI大模型的正确顺序,千万不要搞错了

🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!

有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!

就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!

我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/1 4:24:20

源地ESP32-S2核心板 vs 乐鑫官方板:引脚兼容性实测与选型指南

ESP32-S2核心板深度对比&#xff1a;源地工作室版与乐鑫官方开发板实战评测最近在物联网开发领域&#xff0c;ESP32-S2系列芯片凭借其出色的性价比和丰富的外设接口&#xff0c;成为众多开发者的首选。然而面对市面上琳琅满目的开发板&#xff0c;特别是像源地工作室出品的兼容…

作者头像 李华
网站建设 2026/6/1 4:23:02

PHP全文搜索引擎与索引优化

PHP全文搜索引擎与索引优化 全文搜索是应用的核心功能。从数据库全文索引到Elasticsearch&#xff0c;PHP有多种搜索方案。今天说说PHP中全文搜索引擎的构建和索引优化。 先看MySQL全文索引的使用和优化。 php class FulltextSearch { private PDO $pdo; public function _…

作者头像 李华
网站建设 2026/6/1 4:17:31

从切角到枝节:用HFSS一步步优化圆极化微带天线的轴比与匹配

从切角到枝节&#xff1a;用HFSS一步步优化圆极化微带天线的轴比与匹配在无线通信系统中&#xff0c;圆极化微带天线因其结构紧凑、易于集成和良好的极化特性而备受青睐。然而&#xff0c;设计一个同时满足轴比和阻抗匹配要求的天线并非易事。本文将带您深入探索从初始设计到最…

作者头像 李华