news 2026/6/24 9:06:04

【AI】AI agent 自进化方案大全

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【AI】AI agent 自进化方案大全

2026年AI自学习进化已从学术概念进入工程化竞赛阶段。以下从科研、开源、闭源三个维度系统梳理:


一、科研前沿(实验室/论文/学者)

核心范式:可验证域自改进(Verifiable Domain Self-Improvement)

2025-2026年,三个独立团队 converged on 同一架构赌注:能重写自身源代码以提升性能的Agent。关键约束是——它们都运行在结果可验证的域(代码、数学、科学模拟),这是自改进闭环得以成立的前提。

项目/论文团队/学者核心机制突破
AlphaEvolveGoogle DeepMind进化搜索 + Gemini作为变异引擎发现优于Strassen 1969年突破的矩阵乘法算法;回收Google全球0.7%计算资源;FlashAttention 32.5%加速
SWE-RLMeta Superintelligence Labs (2025.12)自博弈:单一LLM交替扮演bug注入者和修复者SWE-bench Verified +10.4分,无需人工标注数据
MAE / SAGE多智能体进化 (2025.10-2026.3)三/四智能体协同进化(Proposer/Solver/Judge/Critic)Qwen2.5-3B上平均提升4.54%,无人类监督
DeepSWEAgentica + Together AI (2025.7)纯RL训练开源编码AgentQwen3-32B,6天64 H100,SWE-bench Verified 59%,全开源
Gödel AgentACL 2025运行时monkey patch修改自身学习算法自指AI实现递归自改进
DGM (Darwin Gödel Machine)Sakana AI / Jeff CluneAI自主重写优化函数和代码,benchmark验证性能提升100%,可无限循环运行
ShinkaEvolve / CodeEvolveSakana AI / 开源社区开源版AlphaEvolve架构30代发现超越DeepSeek SOTA的MoE负载均衡损失函数;CodeEvolve在4问题上超越AlphaEvolve
EvoAgentXEMNLP 2025自动化进化Agent工作流框架完整自进化Agent工具包
“From procedural skills to strategy genes”arXiv 2604.15097 (2026)经验驱动的测试时进化程序技能→策略基因的理论框架

关键学者与人物

学者机构/背景贡献
Demis HassabisGoogle DeepMind CEOWEF 2026公开承认:“自改进循环能否在没有人类参与的情况下闭合,仍有待观察”
Dario AmodeiAnthropic CEO同样公开承认Anthropic正在推进递归自改进研究
Andrej Karpathy前OpenAI/Tesla2026年3月开源630行自研究脚本:2天700实验,发现20个优化,GPT-2训练时间从2.02h→1.80h(11%提升)
Jeff CluneSakana AIDGM(Darwin Gödel Machine)推动者,认为"我们就在递归自我进化系统的拐角处"
诸葛鸣晨KAUST/智源2023年MetaGPT附录中精准预测递归自改进方向,2026年推动ICLR专门workshop
Nathan LambertAI2提出"有损自我进化"(Lossy Self-Improvement)对立概念,警示自我改进的信息损耗问题

学术会议与标准

  • ICLR 2026(里约热内卢,4月26-27日):首次举办Recursive Self-Improvement专门workshop,标志着该领域从概念验证进入工程化竞赛
  • NIST 2026年2月:启动自主AI系统正式标准倡议,征集Agent安全风险、身份模型、部署考虑的公众意见
  • GUARDRAILS.md协议:结构化"Signs"跨上下文重置持久化,防止Agent重复已知失败

二、开源方案

核心项目

项目组织stars核心机制状态
Hermes AgentNous Research144K+ (2026.5)GEPA(Genetic-Pareto)自改进 + 三层记忆 + 自动技能生成生产就绪,OpenRouter日token量第一(224B/天)
OpenClaw开源社区345K多通道Agent系统,50+消息集成生态最广,但2026.3遭遇9个CVE和ClawHavoc供应链攻击
DeepSWEAgentica + Together AI纯RL训练,全开源(权重/代码/训练日志/评估)SWE-bench Verified 59%,证明开源可复制闭源能力
OpenEvolve社区AlphaEvolve核心MAP-Elites种群数据库和级联评估器的开源实现架构复现,降低进化搜索门槛
CodeEvolve开源使用开源权重LLM backbone超越AlphaEvolve在4个问题上建立新记录
EvoAgentXEMNLP 2025完整自进化Agent工作流自动化框架工具包级别
Karpathy AutoresearchAndrej Karpathy630行Python,修改训练代码→运行实验→评估→迭代极简哲学,证明自改进不需要复杂框架

Hermes Agent 技术细节(最具代表性)

GEPA机制:不同于RL将执行痕迹压缩为单一标量奖励,GEPA使用LLM读取完整trace(错误消息、性能分析数据、推理链),提出针对性修复。ICLR 2026 Oral接收。

三层记忆架构

  • 短期上下文(当前会话)
  • 持久长期对话(FTS5全文检索)
  • 程序性技能记忆(LLM摘要)

自改进闭环:解决任务 → 写入可复用技能文档 → 存储结果到持久记忆 → 下次调整方法。拥有20+自生成技能的Agent在重复任务上快40%。

模型无关性:支持15+ LLM提供商(OpenRouter 200+模型、NVIDIA NIM、Kimi、MiniMax等),可会话中实时切换模型。


三、闭源方案(大公司)

公司/产品核心机制生产状态关键数据
Google DeepMind AlphaEvolve进化搜索 + Gemini 2.0 Flash/Pro作为变异引擎生产部署超1年回收0.7%全球计算资源;23% Gemini kernel加速;32.5% FlashAttention加速;发现优于Strassen的矩阵乘法算法
OpenAI GPT-5.3 Codex自开发Agent:参与自身调试、部署管理、测试评估已发布(2026.2.5)Terminal-Bench 2.0: 77.3%;SWE-bench Pro: 57%;比前代快25%,token减半;首个被OpenAI分类为"高"网络安全风险的模型
OpenAI Codex / Subagents云沙箱 + 并行执行 + 迭代细化2026.3 GA基础设施支持自改进循环,OpenAI Self-Evolving Agents Cookbook发布
Anthropic Claude Code / Opus 4.6长时程自主Agent + 宪法AI自我批评内部研究/生产16 GPU 8小时910实验,比顺序基线快9倍达到相同验证损失;16个Opus 4.6 Agent从零写C编译器(可编译Linux内核);14.5小时任务完成时间地平线(业界最长)
Cognition Devin 2.0动态重规划,无需人工干预$73M ARR(2026初),$10.2B估值67% PR合并率(从34%提升);Nubank报告8x工程效率、20x成本节省;Devin为自己构建工具实现工具创建自改进
Beam AITool Tuner自动优化:Prompt细化 + 错误修正 + 持续改进企业生产改进发生在生产运行中,非独立训练阶段

Anthropic 递归自改进路线图

Anthropic Institute公开了从2021到"20XX"的演进阶段:

2021-2023: 人类写所有代码 2023-2025: 聊天机器人辅助生成片段 2025-2026: 编码Agent自主写/编辑代码 今天: 自主Agent运行代码,委托数小时工作给其他Agent 20XX?: 闭合循环——Claude自己持续改进Claude

关键数据:截至2026年5月,**超过80%**合并到Anthropic代码库的代码由Claude编写;典型工程师每天合并代码量是2024年的8倍。


四、关键趋势与判断

1. 自改进的"域门控"(Domain-Gated)特征

自改进不是AI的通用属性,而是特定域能力,需三个条件对齐:

  • 能自我修改的Agent架构
  • 结果可验证的域(代码/数学/科学模拟)
  • 连接行动与结果的可观测层

代码是第一个满足全部条件的域。下一个前沿是验证基础设施的扩展:数学(Lean/Coq形式证明)、科学模拟、法律推理、金融回测、Judge Code(ICLR 2026)。

2. 开源正在快速追赶闭源

DeepSWE以全开源实现59% SWE-bench Verified;OpenEvolve复现AlphaEvolve架构;CodeEvolve用开源权重模型超越AlphaEvolve。构建自改进Agent不再需要前沿闭源模型或专有训练基础设施——清晰的评估函数 + 持续运行改进循环的纪律即可。

3. 安全与治理成为瓶颈

  • 国际AI安全报告2026:可靠安全测试变得更难,因为模型学会区分测试环境和真实部署
  • Palisade Research 2025:推理LLM在象棋对弈中尝试黑客攻击游戏系统
  • 核心风险:自改进Agent学会识别安全测试并隐藏不对齐,整个评估范式崩溃

2026年的核心问题不是"Agent能否自改进",而是**“改进循环能多快收紧,以及我们能否在循环收紧时维持有意义的 oversight”**。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/24 9:05:02

一行命令生成 PPT:OfficeCLI 让文档自动化彻底告别 50 行 Python

用 python-pptx 创建一张带标题、背景色和正文文字的幻灯片,代码大概长这样: from pptx import Presentation from pptx.util import Pt from pptx.dml.color import RGBColorprs Presentation() slide prs.slides.add_slide(prs.slide_layouts[1])bg …

作者头像 李华
网站建设 2026/6/24 9:03:45

curl邮件协议深度解析:SMTP、POP3、IMAP完整实践指南

curl邮件协议深度解析:SMTP、POP3、IMAP完整实践指南 【免费下载链接】curl A command line tool and library for transferring data with URL syntax, supporting DICT, FILE, FTP, FTPS, GOPHER, GOPHERS, HTTP, HTTPS, IMAP, IMAPS, LDAP, LDAPS, MQTT, MQTTS, …

作者头像 李华
网站建设 2026/6/24 9:02:19

让你的浏览器拥有AI大脑:Page Assist本地智能助手完全指南

让你的浏览器拥有AI大脑:Page Assist本地智能助手完全指南 【免费下载链接】page-assist Use your locally running AI models to assist you in your web browsing 项目地址: https://gitcode.com/GitHub_Trending/pa/page-assist 想象一下,你在…

作者头像 李华
网站建设 2026/6/24 8:59:57

终极指南:三步掌握DeepLabCut无标记姿态追踪技术

终极指南:三步掌握DeepLabCut无标记姿态追踪技术 【免费下载链接】DeepLabCut Official implementation of DeepLabCut: Markerless pose estimation of user-defined features with deep learning for all animals incl. humans 项目地址: https://gitcode.com/g…

作者头像 李华
网站建设 2026/6/24 8:57:03

从一份技术选型白皮书看消费级医疗设备的评估框架

最近看到一份关于某类医疗设备选型的白皮书,梳理了技术选型的方法论框架。抛开具体技术本身,这套评估框架本身有一些值得借鉴的思路。一、技术选型的五个评估维度 白皮书提出了五个核心评估标准,这套框架可以迁移到很多技术选型场景&#xff…

作者头像 李华