news 2026/6/2 19:26:53

AI智能体领域术语乱象终结者!超全词汇表帮你秒懂Harness、Scaffold、Agent等核心概念!

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
AI智能体领域术语乱象终结者!超全词汇表帮你秒懂Harness、Scaffold、Agent等核心概念!

当一个领域快速发展时,其词汇的演变往往快于人们的共识。术语开始变得模糊、在不同的语境中被重用,或者成为从未被完全阐明的概念的代名词。目前,我们正在 AI Agent(智能体)领域看到这种情况:概念混杂在一起,有些被重新命名,还有些在广泛使用几个月后便悄然消失。

对于新手,甚至对于那些试图跟上最新进展的从业者来说,这都可能让人不知所措。在 ICLR 2026 (国际学习表征会议)之后,我们中的一员(@ariG23498)提出了一个很好地捕捉了这种困惑的问题:

“在 Agent 的语境中,‘harness’和‘scaffold’这两个词到底是什么意思?我在 ICLR 听到了很多解释,但我无法理解为什么它们没有收敛到一个统一的解释。”

本词汇表旨在为这些不断出现但缺乏清晰、一致解释的术语奠定基础。它并不是要做成该领域所有术语的百科全书。相反,我们专注于那些经常被混淆、以不同方式重用或被误认为是不言自明的概念。

无论你是正在构建 Agent、部署 Agent,还是仅仅在使用诸如 Claude Code、Codex 或 Hermes Agent 这样的工具,这些术语中的大多数都会出现。最后一节涵盖了特定于模型训练的概念,如果你在模型训练方面工作,这些概念会更具相关性。

其中许多术语目前还没有得到普遍接受的定义,不同的框架对同一个词的用法也各不相同。这里的目的不是强求使用某一个绝对正确的词汇,而是提供一个实用的思维模型,使讨论更容易理解。

让我们开始吧。


目录

  • 模型 (Model)
  • 脚手架 (Scaffolding)
  • Harness(执行套件)
  • 智能体 (Agent)
  • 上下文工程 (Context Engineering)
  • 策略 (Policy)
  • 工具使用 (Tool Use)
  • 技能 (Skills)
  • 子智能体 (Sub-agents)
  • 训练相关术语 (Training)
  • 强化学习环境 (RL Environment)
  • 训练器 (Trainer)
  • Rollout(采样轨迹)
  • 奖励 (Reward)
  • 了解更多 (Learn More)

模型 (Model)

模型指的是大语言模型(LLM):它接收文本输入并输出文本(例如 Claude、Qwen、GPT、Kimi、DeepSeek 等)。就其本身而言,模型在多次调用之间没有记忆,也没有循环(loop)。模型可以表达调用工具的意图,但它需要一个 Harness 来实际执行该工具。它回答一个提示词(Prompt)后就会停止。将其用 Scaffolding(脚手架)和 Harness(执行套件)包裹起来,它就变成了一个 Agent。

脚手架 (Scaffolding)

围绕模型的“行为定义层”:包括系统提示词(System Prompt)、工具描述、模型响应的解析方式,以及它在不同步骤之间记住的内容(上下文管理)。它塑造了模型如何看待世界并在其中采取行动,无论是在训练期间还是在推理(Inference)期间。

像 Claude Code、Codex 和 Antigravity CLI 这样的产品将这整个外围部分称为 Harness。Claude Code 自己的文档就直接写道:“Claude Code 充当围绕 Claude 的智能体化 Harness(agentic harness)。”这是广义的用法:Harness 指的是除模型之外的一切。只有当需要将它们分开单独推导时(例如在训练流水线中),Scaffold 与 Harness 的区别才最重要。你还会听到“Scaffold”被更广泛地用于涵盖 Harness 所依赖的任何基础设施:钩子(hooks)、运行时配置,甚至目录结构。

某些产品(如 Claude Code 和 Codex)与其提供商的模型紧密耦合。而其他产品(如 Antigravity CLI 和 Hermes Agent)则允许你接入任何模型。

Harness(执行套件)

Agent 内部的“执行层”:它负责调用模型、处理工具调用,并决定何时停止。Harness 是让 Agent 运行起来的关键。上面定义的 Scaffolding 是模型工作的依据:它的指令、它的工具、它的格式;而 Harness 则是负责驱动这一切的引擎。

Harness 工程(Harness engineering)是一门精心设计该执行层的学科:决定 Agent 何时应该停止、如何处理错误,以及使用什么护栏(guardrails)使其保持在正确的轨道上。它同时适用于训练和推理阶段。Addy Osmani 的文章以及 OpenAI 关于使用 Codex 进行构建的阐述都从推理侧涵盖了这一点。

在评估(Evaluation)阶段,相同的模式表现为评估套件(Eval Harness):它不是为了收集训练数据,而是在模型检查点(checkpoint)上运行一组固定的场景,并记录指标而不是更新权重。

一些框架使用编排器(Orchestrator)来指代协调多个 Agent 之间工作的高级控制器。与通过执行循环驱动模型的 Harness 不同,编排器将 Agent 作为独立单元进行管理,每个 Agent 运行自己的 Harness(参见下文的“子智能体”)。

智能体 (Agent)

该术语源自强化学习(Reinforcement Learning),在强化学习中,智能体(Agent)只是一个接收观察(Observation)并返回动作(Action)的函数。环境(Environment)接收该动作并返回一个新的观察,如此循环往复。该循环仍然是 LLM Agent 工作方式的核心。

在 LLM 领域,这个词的内涵已经扩大。Agent 指的是模型以及围绕它的一切使其能够“付诸行动”而非“仅仅做出回应”的系统。它将原始的文本生成转化为可以在循环中运行的内容:接收信息、决定做什么并根据结果采取行动。

以一个编码智能体(Coding Agent)为例。系统提示词、工具描述以及模型遵循的输出格式构成了Scaffolding(脚手架)。而调用模型、处理其工具调用并决定何时停止的循环则是Harness(执行套件)。在训练时,Harness 还会并行运行许多此类循环,并将结果反馈以更新模型。

(注:在社区中,通常用公式表达为:Agent = Model + Harness。如果你不是模型,你就是 Harness。上述两节所讨论的正是造成大多数困惑的 Harness 与 Scaffold 之间的微妙区别。)

当人们谈论 Claude Code、Codex 或 Cursor 等产品时,他们指的是建立在特定模型之上的特定 Harness,二者经过了共同的设计和优化。使用相同底层模型的两个产品可能会给人完全不同的体验,因为它们的 Harness 做了不同的选择。同样,在相同的 Harness 中换入一个更好的模型也会改变体验。模型、Harness 和产品是三个不同的东西。

上下文工程 (Context Engineering)

设计进入 Agent 上下文窗口(Context Window)的内容:模型在每一步看到的内容、系统提示词、工具描述、对话历史、检索到的知识等。这并不是一次性的决定:随着模型的运行,前几轮的对话会塑造进入未来调用中的内容,而 Harness 会在整个运行过程中主动管理这一点。它同样适用于训练和推理,但出错的代价大不相同。在训练时,模型看到的内容会塑造其学到的知识,如果弄错了,你就必须重新训练。在推理时,它只是文本:修改提示词并重新部署即可。Hugging Face 的《上下文工程课程》深入涵盖了这一点。

记忆(Memory)是这一图景的一部分。短期记忆(Short-term memory)是指在单次运行期间保留在上下文窗口中的内容:对话历史、工具结果、先前的推理。长期记忆(Long-term memory)则跨会话持久存在,存储在外部并按需检索,然后在相关时重新注入到上下文中。

策略 (Policy)

策略是 Agent 遵循的行为方式:在任何特定情况下,它定义了采取每种可能动作的概率。在 LLM 系统中,该策略的一部分是在模型权重中习得的,但其行为还取决于周围的 Scaffolding 和 Harness。同一个模型在不同的提示词、工具、记忆和执行循环下,表现可能会截然不同。

策略并不等于 Agent。策略定义了行为;而 Agent 是在环境中运行的完整系统。将一个检查点(Checkpoint)包裹在 Scaffolding 和 Harness 中并进行部署,你就会得到一个行为符合该策略的 Agent。

工具使用 (Tool Use)

Agent 如何向外延伸其能力:API、代码解释器、数据库、网络搜索、文件系统。模型以结构化格式表达使用工具的意图。现代推理 API 将其作为一等对象(first-class object)呈现:Harness 直接接收调用并将其路由到正确的函数。结果被反馈回上下文中,循环继续。

技能 (Skills)

支持多步骤任务的可重用、结构化知识包。工具是一种动作(例如“运行此命令”),而技能则打包了达成目标所需的一切(例如“调查此 Bug、提出假设、编写修复程序”)。它们可以跨 Agent 移植并按需加载。工具、技能和子智能体之间的界限在不同的框架中会有所变化。Hugging Face 的《上下文工程课程》深入涵盖了技能。

子智能体 (Sub-agents)

由另一个 Agent 调用以处理特定子任务的 Agent。它拥有自己的模型和 Scaffold,进行独立推理并返回结果。调用它的 Agent 不需要知道它内部是如何工作的。这也是子智能体与工具(函数调用)或技能(打包的知识)的区别所在:子智能体本身可以进行推理、使用工具并调用更深层的子智能体。调用它的 Agent 有时被称为编排器(Orchestrator)。


训练相关术语 (Training)

上述术语无论在训练还是部署时都适用。以下四个术语则特定于训练阶段,在训练中,Agent 运行任务、获得评分,并更新其模型的权重。针对 LLM 的每个强化学习(RL)训练系统都围绕相同的流水线构建:

强化学习环境 (RL Environment)

环境是你可以与其交互的任何事物:一个具有状态的对象,它接收动作作为输入,更新其内部状态,并返回一个观察(Observation)。在 LLM 的语境中,动作通常是工具调用。文件系统是一个简单的例子:动作touch foo.txt通过创建文件来更新状态,而观察可能是更新后的文件列表。不同框架的定义有所不同。

我们最近发布了一份专门的指南,请参阅《强化学习环境终极指南》(The Ultimate Guide to RL Environments)以获取类型、框架和示例的完整拆解。

训练器 (Trainer)

训练器是让 Agent 变得更好的核心:它运行许多 Agent 的 Episode(片段/回合),对结果进行评分,并使用这些评分来更新内部模型的权重。TRL 的GRPOTrainer就是一个具体的例子:一个处理 Episode 生成、奖励评分和权重更新的单一类(Class)。

Rollout(采样轨迹/展开)

一个 Rollout 是指 Agent 从头到尾的一次完整运行:包括 Agent 在每一步看到了什么、做了什么以及获得了什么奖励。根据语境的不同,它也被称为轨迹(Trajectory)或追踪(Trace)。这是强化学习算法借以学习的原始数据。

奖励 (Reward)

告诉训练算法模型是否在变好的分数。它可以是可验证的(测试通过/失败、答案匹配),也可以是习得的(人类偏好、LLM 作为裁判/LLM-as-judge);可以是稀疏的(在 Episode 结束时给出一个分数),也可以是稠密的(在每一步都给出一个分数)。这是训练器实际用于更新内部模型权重的依据。如需深入了解每种类型,请参阅 Adithya 指南中的“奖励架构(Reward Architecture)”部分。

评价量表(Rubrics)将奖励分解为具有权重的显式维度,而不是单一的数字。OpenEnv 和 Verifiers 将评价量表实现为可以组合的对象(如WeightedSumSequentialGate)。

​最后

我在一线科技企业深耕十二载,见证过太多因技术更迭而跃迁的案例。那些率先拥抱 AI 的同事,早已在效率与薪资上形成代际优势,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。

我整理出这套 AI 大模型突围资料包:

  • ✅AI大模型学习路线图
  • ✅Agent行业报告
  • ✅100集大模型视频教程
  • ✅大模型书籍PDF
  • ✅DeepSeek教程
  • ✅AI产品经理入门资料

完整的大模型学习和面试资料已经上传带到CSDN的官方了,有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇
​​

为什么说现在普通人就业/升职加薪的首选是AI大模型?

人工智能技术的爆发式增长,正以不可逆转之势重塑就业市场版图。从DeepSeek等国产大模型引发的科技圈热议,到全国两会关于AI产业发展的政策聚焦,再到招聘会上排起的长队,AI的热度已从技术领域渗透到就业市场的每一个角落。


智联招聘的最新数据给出了最直观的印证:2025年2月,AI领域求职人数同比增幅突破200%,远超其他行业平均水平;整个人工智能行业的求职增速达到33.4%,位居各行业榜首,其中人工智能工程师岗位的求职热度更是飙升69.6%。

AI产业的快速扩张,也让人才供需矛盾愈发突出。麦肯锡报告明确预测,到2030年中国AI专业人才需求将达600万人,人才缺口可能高达400万人,这一缺口不仅存在于核心技术领域,更蔓延至产业应用的各个环节。

​​

资料包有什么?

①从入门到精通的全套视频教程⑤⑥

包含提示词工程、RAG、Agent等技术点

② AI大模型学习路线图(还有视频解说)

全过程AI大模型学习路线

③学习电子书籍和技术文档

市面上的大模型书籍确实太多了,这些是我精选出来的

④各大厂大模型面试题目详解

⑤ 这些资料真的有用吗?

这份资料由我和鲁为民博士共同整理,鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位,在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利,同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。

所有的视频教程由智泊AI老师录制,且资料与智泊AI共享,相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。


智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念‌,通过动态追踪大模型开发、数据标注伦理等前沿技术趋势‌,构建起"前沿课程+智能实训+精准就业"的高效培养体系。

课堂上不光教理论,还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作,把课本知识变成真本事‌!

​​​​

如果说你是以下人群中的其中一类,都可以来智泊AI学习人工智能,找到高薪工作,一次小小的“投资”换来的是终身受益!

应届毕业生‌:无工作经验但想要系统学习AI大模型技术,期待通过实战项目掌握核心技术。

零基础转型‌:非技术背景但关注AI应用场景,计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能 ‌突破瓶颈:传统开发者(Java/前端等)学习Transformer架构与LangChain框架,向AI全栈工程师转型‌。

👉获取方式:

😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓**

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/2 19:26:03

Buck 滑模变结构控制(SMC)仿真

目录 一、SMC 原理(Buck 电压控制) 1.1 状态 & 滑面 1.2 Reaching Law & 控制量 二、系统参数 三、Simulink 建模(手把手)** 3.1 Step 1️⃣ —— Buck 功率级 3.2 Step 2️⃣ —— 滑面 s计算 3.3 Step 3️⃣ —— SMC 占空生成(PWM‑SMC 版,推荐) 方…

作者头像 李华
网站建设 2026/6/2 19:26:01

学Simulink--交错并联 Buck 变换器的均流控制与热应力分析仿真

### 手把手教你学Simulink--交错并联 Buck 变换器的均流控制与热应力分析仿真#### 摘要本研究旨在通过对交错并联 Buck 变换器进行均流控制与热应力分析仿真,提升变换器性能与可靠性。随着电力电子技术的发展,交错并联 Buck 变换器凭借其高效率、低纹波电…

作者头像 李华
网站建设 2026/6/2 19:25:02

华硕笔记本性能控制新选择:5个核心场景下的GHelper实战指南

华硕笔记本性能控制新选择:5个核心场景下的GHelper实战指南 【免费下载链接】g-helper Lightweight Armoury Crate alternative for Asus laptops with nearly the same functionality. Works with ROG Zephyrus, Flow, TUF, Strix, Scar, ProArt, Vivobook, Zenboo…

作者头像 李华
网站建设 2026/6/2 19:21:58

介绍网络编程中的Select

我认为现在用select更多是作为没有epoll的情况下才用,因为epoll相比于select,能支持更高的并发量同时对系统的负担也小,不过select因为在任何系统下都可以用,所以在面对并发量不高且短连接同时不是必须用epoll的情况下也可以适当用…

作者头像 李华
网站建设 2026/6/2 19:17:14

Arduino交通信号灯项目:从电路原理到代码实现的嵌入式开发入门

1. 项目概述与核心价值几年前,当我第一次尝试用Arduino点亮一个LED时,那种“代码驱动物理世界”的奇妙感觉至今难忘。从那个闪烁的小灯开始,我逐渐深入到各种嵌入式项目中,而交通信号灯模型,几乎是我向每一个想入门硬件…

作者头像 李华