企业智能体已进入真实业务流程,但传统“提示词+Naive RAG”导致高幻觉(28%)、高成本。破局关键在于:以评估体系为核心的Agentic Workflow + 知识编译层。通过规划-检索-验证-反思循环和混合知识索引,幻觉率降至4%以下,Token消耗降低95%。同时需用场景沙盒与轨迹评估替代传统单点测试。提示词工程正被边缘化,真正的护城河在知识编译、评估设计与多Agent治理。
上周,Meta正式推出了Meta Business Agent及配套平台,能够在WhatsApp、Messenger、Instagram上直接回答客户问题、推荐产品,甚至完成成交,订阅制也即将全面铺开。几乎在同一时间,OpenAI悄然上线了“Lockdown Mode”,针对企业账号禁用Agent Mode、网络浏览等功能,以强化安全控制。
这两件事撞在一起,让我这个带队做企业智能体落地的老兵心里一沉。2026年了,Agentic AI早已不是实验室里的玩具,而是真正跑在业务流程里——接单、管库存、审合同,样样都来。但“能用”和“敢大规模用”之间,隔着一条血淋淋的坑。
我选择的是企业级智能体落地,核心观点很直接:传统“提示词 + Naive RAG”的范式已经过时了,必须转向以评估体系为核心的Agentic Workflow,并叠上一层知识编译层。这不是追新,而是过去半年,我们团队在两家头部制造企业和一家金融机构客户身上反复踩坑后,拿血泪换出来的结论。
第一个大坑:幻觉不是模型问题,是架构问题
去年底,我们帮一家汽车零部件供应商做智能体,处理供应链异常。一开始走经典路线:RAG加长提示词。演示效果还行——查库存、看供应商历史、找物流延误记录,最后生成处置建议。
真上线测了一个月,数据不太好看。单次任务平均吃掉85万到120万Token,响应时间经常40秒往上。更麻烦的是幻觉率在复杂场景下到了28%。有一次把已经停产的旧规格物料当成现货推了,下游采购差点签错合同。
今年5月我们把架构整个拆了重做。换成Agentic RAG的流程——规划、检索、验证、反思,来回循环。底层自己搭了一层知识编译,把ERP里的结构化数据、PDF合同、邮件链提前编译成一套可执行的Ontology和向量混合索引。
同一个供应链异常任务,现在跑下来:单次Token降到3.8万到4.2万,响应8秒以内,幻觉率掉到4%以下。而且方案质量,人工盲测反而比以前更高。
上周二我们做了一次并行对比。老架构和新架构同时跑同一批20个历史异常案例。老架构总Token 1870万,新架构不到78万;正确处置率从65%提到92%。
客户运维负责人当时说了句很实在的话:这不是省钱,这是敢上线了。
第二个大坑:测试不能再是“写几条Prompt测幻觉”
传统AI测试,很多团队还在“人工造100条case,看输出对不对”。这套做法放到Agentic时代,完全不够用。
智能体本质上是分布式系统:Planner、Tool Caller、Memory Manager、Executor、Verifier,多个环节一起协作,任何一个环节发生漂移,结果就可能雪崩。OpenAI这次推Lockdown Mode,说白了就是承认——Agent自主行动带来的风险,已经不是靠“模型对齐”就能兜住的了。
我们现在的做法,是构建一套“场景沙盒 + 轨迹评估”体系:
用历史真实业务数据重放,不靠人工编toy case;
记录完整的Agent轨迹,每一步的思考、工具调用、中间结果都保留;
做多维度评分:功能正确性、成本效率、安全合规、用户可解释性;
引入对抗性扰动,模拟数据漂移、工具故障、恶意输入。
上个月在金融客户那边做反欺诈智能体,就发现了一个隐蔽问题。正常流程下准确率99%,但一旦外部API延迟超过3秒,Agent会错误地反复重试,最后自己组合出一条虚假交易链。传统单点测试根本抓不到这种问题。新评估体系跑了一周就定位到了,然后通过守卫规则加备用知识路径修复了。
Azure最近给知识库加了File knowledge source、Azure SQL source和freshness weighting,本质上也在印证这个方向——企业需要的是可控、可审计的检索,而不是一个纯向量的黑箱。
我越来越觉得,下一代企业智能体的胜负手不在模型大小,而在“知识编译”能力。就是把企业沉淀下来的规则、流程、历史案例,编译成一种既能被Agent快速检索、又能被逻辑验证的结构化形式——Ontology、图、向量、可执行规则,混着来。
说noRAG完全不用检索,现阶段在企业场景里还站不住。数据太碎,规则太善变。我们走的是“Hybrid Compilation”路线:核心规则和高频路径编译成可执行代码或图,边缘知识保留向量检索,再由Agent动态决定走哪条路径。
这套东西做起来确实不轻松。前期投入大,团队里得有人既懂业务又懂AI工程。但一旦跑通,边际成本压得很低,安全性也更好控制,迭代起来顺手。
我的判断是:提示词工程正在快速被边缘化。真正的价值在评估体系设计、知识编译、多Agent治理这三块上面。谁今天还把精力全砸在调Prompt上,2026下半年大概率会被甩开。
当然,这条路争议不小。知识编译要不要标准化?Agent评估指标能不能行业统一?安全边界到底由谁定——厂商、客户,还是监管?
欢迎聊聊。你们团队在企业Agent落地中最头疼的是什么?成本、幻觉、可解释性,还是治理?传统RAG你们觉得还有救吗,还是直接All in Agentic Workflow?
声明:图片由AI辅助生成