第一部分:快速理解 Agent![]()
Agent = 会“自己想 → 自己干 → 自己检查”的 AI 助手
不只是回答你一句话,而是能连续做事。
普通大模型:
你问一句 → 它答一句
到此结束。
Agent:
你给一个目标 → 它会:
1)拆任务
2)决定下一步做什么
3)调用工具(搜索、写代码、跑脚本、看图片等)
4)检查结果,不行就重来
5)直到完成目标或卡住
👉 重点:它有“行动能力”和“流程意识
第二部分: Agent 的核心组成(记住这 4 个词)
1)大模型(大脑)
比如:Qwen3-Max / Qwen3-VL
负责思考、规划、判断。
2)工具(手脚)
比如:
搜索网页
调 API
运行代码
操作文件 / 表格
看图、点界面(GUI)
3)记忆(上下文)
当前任务进度
历史步骤
中间结果
4)规划器(流程)
先做什么
后做什么
什么时候停
第三部分:一个超直观的例子
你说:
> 帮我做一个「小红书爆款选题分析表
普通模型:
直接给你一段分析文字。
Agent:
1️⃣ 搜索近期爆款笔记
2️⃣ 提取标题、关键词、互动数据
3️⃣ 归类选题类型
4️⃣ 自动生成表格
5️⃣ 检查有没有缺数据
6️⃣ 输出 Excel / 表格总结
👉 这是“完成任务”,不是“回答问题”
第四部分:Agent 在千问体系里怎么体现
结合你前面看的内容:
Qwen3-Max
→ 通用 Agent 大脑(规划 + 推理 + 工具调用)
Qwen3-VL
→ 视觉 Agent
能看界面、看图、识别按钮、理解文档截图
Qwen3-Code
→ 代码 Agent
自动写代码、调试、跑脚本
Qwen3-Omni
→ 多模态交互型 Agent
能“听你说话 + 看画面 + 回答”
第五部分:Agent 现在最常见的 5 种用法
1)办公自动化(整理资料、写报告、做表)
2)编程助手(从需求到代码到测试)
3)内容创作(选题 → 结构 → 初稿 → 优化)
4)数据分析(找数据 → 分析 → 可视化)
5)视觉操作(看网页 / App 帮你点)
总结
Agent ≠ 一个模型
Agent = 模型 + 工具 + 流程设计
所以你会看到:
同一个 Qwen 模型
在不同 Agent 框架里
能力差距非常大
市面主流 Agent 一览表
一、通用型 Agent(“一个人顶一个小团队”)
特点:能拆任务、调用多工具,适合复杂目标
1️⃣ OpenAI ChatGPT(GPT-4/4.1 + Agent 模式)
能力:规划 → 工具调用 → 多步执行
常见用途:写方案、数据分析、代码、办公自动化
特点:成熟、稳定、生态最好
典型代表:ChatGPT 的“高级工具/自动化能力”
2️⃣ Claude(Anthropic)
能力:超长上下文 + 稳定推理
常见用途:长文档分析、合规/审阅、复杂写作
特点:安全性和文本理解强,Agent 更偏“智囊型”
二、开发者/框架型 Agent(“自己搭 Agent”)
特点:不是成品,是“造 Agent 的工具箱”
3️⃣ LangChain
定位:最早、最流行的 Agent 框架之一
能干啥:
工具调用
记忆管理
多 Agent 协作
适合人群:开发者、工程团队
4️⃣ LlamaIndex
定位:数据型 Agent 框架
强项:
文档/数据库/知识库接入
RAG + Agent
常见用途:企业知识助手
三、自动化 & 多 Agent 系统(“AI 团队”)
特点:多个 Agent 分工合作
5️⃣ Auto-GPT
定位:最早火的“全自动 Agent”
能力:
给目标 → 自己跑很久
优点:理念先锋
缺点:不稳定、成本高
意义:启蒙了整个 Agent 赛道
6️⃣ CrewAI
定位:多 Agent 协作框架
玩法:
产品经理 Agent
开发 Agent
测试 Agent
适合:流程明确的复杂任务
四、办公/知识/企业级 Agent
特点:贴近真实工作流
7️⃣ Microsoft Copilot
定位:办公 Agent
能力:
Word / Excel / PPT / Outlook
优点:企业落地最强
场景:写文档、做表、发邮件
8️⃣ Notion AI
定位:知识管理 Agent
能力:
总结
规划
内容生成
场景:个人/团队知识库
五、编程 Agent(“AI 工程师”)
特点:专为写代码设计
9️⃣ GitHub Copilot Workspace
能力:
从需求 → 代码 → 测试
定位:工程级代码 Agent
适合:中大型项目
🔟 Cursor
定位:IDE 级 Agent
能力:
直接在代码库里改代码
自动调试
特点:对程序员极友好
六、视觉 / 界面 Agent(新热点)
特点:能“看屏幕干活”
1️⃣1️⃣ UI-TARS / Web Agent(研究 & 商用)
能力:
看网页
点按钮
填表单
场景:自动化操作网站/App
1️⃣2️⃣ Browser-Use / WebGPT 类 Agent
定位:浏览器操作 Agent
能力:
搜索
浏览
抽取信息
agent家族“人话总结”
ChatGPT / Claude:最成熟的通用 Agent
LangChain / LlamaIndex:造 Agent 的“乐高”
Auto-GPT / CrewAI:多 Agent 自动跑
Copilot / Notion AI:办公生产力
Cursor / Copilot Workspace:程序员专属
UI Agent:下一波爆点(看屏幕做事)
如果你是:
普通用户 → 先用 ChatGPT / 千问 Agent
内容/办公 → Copilot / Notion AI
开发者→ LangChain + 千问 / GPT
想玩前沿 → 多 Agent(CrewAI)+ 视觉 Agent