AI 学习路线 01:一文讲清 AI、机器学习、深度学习和大模型的关系
前言
现在 AI 很火,但很多人刚开始学的时候,最容易被一堆概念绕晕:
- AI 是什么?
- 机器学习和深度学习有什么区别?
- 大模型和 ChatGPT 是一回事吗?
- 模型、参数、训练、推理到底是什么意思?
- 为什么说大模型不是数据库?
- 普通人、开发者、企业分别应该怎么用 AI?
这篇文章是我的 AI 学习系列第一篇,目标不是一上来就讲复杂公式,而是先建立一个清晰的知识地图。
如果你刚开始学习 AI,建议先把这篇看完。后面再学 Python、机器学习、深度学习、Prompt、RAG、Agent,会顺很多。
一、先看整体关系
AI、机器学习、深度学习、大模型之间,可以理解成一层套一层的关系:
人工智能 AI ├─ 规则系统:人手写规则 └─ 机器学习 Machine Learning ├─ 传统机器学习:分类、回归、聚类、推荐 └─ 深度学习 Deep Learning └─ 大模型 Large Model ├─ 大语言模型 LLM └─ 多模态模型一句话概括:
AI 是目标,机器学习是实现 AI 的重要方法,深度学习是机器学习的一个分支,大模型通常是深度学习发展到大规模之后的结果。
分别解释一下。
1. AI:人工智能
AI 是最大的概念。
只要机器表现出某种类似“智能”的能力,都可以归到 AI 这个大范围里,例如:
- 看懂图片
- 听懂语音
- 理解文本
- 进行推理
- 自动规划
- 生成文章
- 写代码
- 辅助决策
所以,AI 不等于 ChatGPT。ChatGPT 只是 AI 发展到大模型阶段后的一个典型应用。
2. 机器学习:让机器从数据中学习规律
机器学习的核心是:
不完全依赖人手写规则,而是让模型从数据中学习规律。
比如以前做客服系统,可能会写规则:
如果用户消息中包含“退款”,就进入退款流程。 如果用户消息中包含“发票”,就进入发票流程。这种方式简单直接,但真实用户不会总按关键词说话。
用户可能会说:
我买错了,能不能退? 这个订单不想要了。 钱什么时候能回来?这些句子里不一定出现“退款”两个字,但意思仍然是退款。
机器学习的做法是收集很多历史样本:
| 用户表达 | 标签 |
|---|---|
| 我买错了,能不能退? | 退款 |
| 钱什么时候回来? | 退款 |
| 帮我开票 | 发票 |
| 发票抬头怎么改? | 发票 |
模型通过这些样本学习:哪些表达更像退款,哪些表达更像发票。
这就是从“人写规则”变成“模型学规律”。
3. 深度学习:用神经网络学习复杂模式
深度学习是机器学习的一个重要分支。
它的核心是多层神经网络,适合处理更复杂的数据和模式,比如:
- 图像识别
- 语音识别
- 机器翻译
- 文本生成
- 视频理解
传统机器学习很多时候需要人工设计特征,而深度学习更擅长从原始数据中自动学习特征。
4. 大模型:规模更大的深度学习模型
大模型通常“大”在几个方面:
- 参数规模大
- 训练数据多
- 算力消耗高
- 任务能力更通用
普通模型可能只会完成一个任务,比如判断邮件是不是垃圾邮件。
大模型则可以完成很多任务:
- 问答
- 总结
- 翻译
- 写作
- 写代码
- 分析数据
- 生成计划
- 识别图片
- 调用工具
大语言模型,也就是 LLM,是大模型的一种,主要处理文本。现在很多模型已经发展成多模态模型,不只看文字,也能处理图片、音频、视频和屏幕内容。
二、从规则系统到机器学习
为了更直观理解,可以看下面这个对比。
规则系统: 人写规则 -> 程序执行规则 -> 输出结果 机器学习: 样本数据 -> 模型训练 -> 学到规律 -> 输入新问题 -> 输出预测结果规则系统适合规则明确、变化不大的场景。
例如:
如果金额大于 10000 元,需要主管审批。这个规则很明确,用 if-else 就够了。
但如果问题是:
判断这段评论是正面还是负面。 判断这个用户是否可能流失。 判断这张图片里有没有缺陷。这类问题很难完全靠人写规则,因为表达方式太多、情况太复杂。
这时候机器学习就更适合。
三、模型、参数、训练、推理是什么
学习 AI 时,有几个词一定要先搞清楚:
| 概念 | 通俗解释 | 例子 |
|---|---|---|
| 模型 | 根据输入产生输出的系统 | 输入文章,输出摘要 |
| 参数 | 模型内部可以被学习和调整的数字 | 神经网络中的权重 |
| 训练 | 用数据调整参数 | 让模型学会识别垃圾邮件 |
| 推理 | 使用训练好的模型 | 输入一封新邮件,判断是否垃圾邮件 |
| 损失函数 | 衡量预测结果和正确答案差多远 | 预测 80 分,真实 100 分 |
| 优化器 | 决定参数怎么调整 | 梯度下降、Adam |
训练是什么?
训练可以理解成:
给模型一个样本 模型先猜一个答案 和正确答案比较 发现错了多少 调整内部参数 重复很多次也就是:
数据 -> 预测 -> 计算误差 -> 调整参数 -> 再预测举个垃圾邮件识别的例子。
训练数据可能是:
| 邮件内容 | 标签 |
|---|---|
| 恭喜你中奖了 | 垃圾邮件 |
| 免费领取大奖 | 垃圾邮件 |
| 明天下午开会 | 正常邮件 |
| 项目报价单见附件 | 正常邮件 |
模型一开始可能判断不准,但经过大量样本训练后,内部参数会不断调整,逐渐学会哪些表达更像垃圾邮件。
推理是什么?
推理就是使用已经训练好的模型。
比如训练完成后,来了一封新邮件:
输入:限时领取现金红包 输出:垃圾邮件这时候模型一般不再更新参数,只是使用已经学到的参数做判断。
训练和推理的区别可以总结成:
| 对比 | 训练 | 推理 |
|---|---|---|
| 目的 | 学会规律 | 使用规律 |
| 是否调整参数 | 通常会 | 通常不会 |
| 数据量 | 通常很大 | 可以只有一个输入 |
| 成本 | 高 | 相对低 |
| 例子 | 用百万邮件训练模型 | 判断一封新邮件 |
四、AI 为什么能学习
AI 的学习不是有意识地理解世界,而是通过数据和反馈调整参数。
核心链路是:
输入数据 -> 模型预测 -> 计算误差 -> 调整参数 -> 重复很多次1. 损失函数:告诉模型错得多远
损失函数可以理解成“扣分器”。
例如预测房价:
| 真实房价 | 预测房价 | 误差 |
|---|---|---|
| 300 万 | 200 万 | 100 万 |
| 300 万 | 250 万 | 50 万 |
| 300 万 | 295 万 | 5 万 |
误差越小,模型表现越好。
训练的目标,就是让损失越来越小。
2. 梯度下降:告诉模型往哪改
知道错了还不够,还要知道参数应该怎么改。
梯度可以先理解成:
参数往哪个方向调整,损失会下降得更快。
梯度下降就是:
沿着让损失变小的方向,一步步调整参数。
可以用“下山”来类比:
| 下山类比 | AI 中的概念 |
|---|---|
| 山的高度 | 损失 |
| 你当前的位置 | 当前参数 |
| 往下走的方向 | 梯度方向 |
| 每次走多远 | 学习率 |
| 山谷 | 损失较小的位置 |
3. 泛化:真正有用的是会做新题
如果模型只是记住训练样本,那意义不大。
真正有价值的是:
模型能从训练数据中学到规律,并在没见过的新数据上表现良好。
这叫泛化能力。
反过来,如果模型在训练集上表现很好,但遇到新数据就不行,这叫过拟合。
| 情况 | 表现 |
|---|---|
| 欠拟合 | 训练集和新数据都差 |
| 正常学习 | 训练集好,新数据也不错 |
| 过拟合 | 训练集很好,新数据差 |
五、大模型不是数据库
这是学习大模型时非常重要的一个误区。
很多人会以为:
大模型见过很多数据,所以它应该像数据库一样,能准确查出所有答案。
但实际上,大模型不是数据库。
| 数据库 | 大模型 |
|---|---|
| 精确存储数据 | 参数中压缩了大量统计规律 |
| 适合查询确定信息 | 适合理解、生成、归纳、迁移 |
| 查询结果通常稳定 | 输出可能受上下文和采样影响 |
| 数据更新明确 | 训练后的知识可能过时 |
| 权限边界清晰 | 需要额外设计权限和安全 |
数据库更像:
问:订单 123 的金额是多少? 查表:订单 123 = 98 元 答:98 元大模型更像:
基于训练中学到的语言模式和上下文 生成一个可能合理的回答所以大模型擅长生成、总结、改写、推理,但也可能出现:
- 回答过时
- 编造信息
- 不知道企业内部资料
- 对细节不够可靠
如果企业想让 AI 回答内部制度,正确思路通常不是让模型猜,而是使用 RAG。
RAG 的核心流程是:
用户问题 -> 检索企业内部文档 -> 取出相关片段 -> 交给大模型生成回答 -> 输出带引用的答案这样模型回答时有资料依据,可靠性会更高。
六、普通人、开发者、企业分别怎么用 AI
不同角色使用 AI 的方式不一样。
1. 普通人:提高个人效率
普通人用 AI,核心是提高学习、写作、办公和信息处理效率。
常见场景:
| 场景 | AI 可以做什么 |
|---|---|
| 学习 | 解释概念、出题、批改、制定学习计划 |
| 写作 | 写文章、润色、改标题、生成大纲 |
| 办公 | 总结会议、整理待办、写邮件 |
| 信息处理 | 总结长文、对比资料、提取重点 |
| 语言 | 翻译、改写、调整语气 |
| 创意 | 起名、头脑风暴、脚本、图片创意 |
普通人使用 AI 的关键能力是提问能力,也就是后面会学的 Prompt Engineering。
差的提问:
帮我写个总结。更好的提问:
请把下面这段会议记录整理成: 1. 会议结论 2. 待办事项 3. 负责人 4. 截止时间 要求语言简洁,输出 Markdown 表格。2. 开发者:把 AI 接入产品和流程
开发者使用 AI,不只是聊天,而是把模型接入软件系统。
常见方向:
| 方向 | 例子 |
|---|---|
| 模型 API 调用 | 问答、总结、翻译、分类 |
| Prompt 编排 | 为不同任务设计稳定提示词 |
| RAG | 让 AI 读取企业文档、产品手册、知识库 |
| Agent | 让 AI 调用工具完成多步骤任务 |
| 数据处理 | 信息抽取、文本分类、自动标注 |
| AI 编程辅助 | 代码生成、生成测试、解释代码 |
| LLMOps | 评估、日志、监控、成本控制 |
开发者要关注的不只是“模型答得好不好”,还要关注:
稳定性 成本 延迟 权限 安全 错误处理 可观测性 可评估性例如企业知识库问答系统,不是直接调用一次大模型就结束,而是:
用户问题 -> 权限判断 -> 检索相关文档 -> 拼接 Prompt -> 调用模型 -> 输出答案 -> 展示引用来源 -> 记录日志 -> 收集用户反馈3. 企业:解决业务问题
企业用 AI,核心不是炫技,而是解决业务问题。
常见目标:
降本 提效 增收 控风险 改善体验常见场景:
| 部门 | AI 应用 |
|---|---|
| 客服 | 智能客服、工单总结、自动回复 |
| 销售 | 销售话术、客户画像、线索评分 |
| 市场 | 文案生成、广告创意、竞品分析 |
| 人力 | 简历筛选、面试题生成、培训助手 |
| 财务 | 发票识别、报销审核、异常检测 |
| 法务 | 合同审查、条款提取、风险提示 |
| 研发 | 代码助手、需求分析、测试生成 |
| 运营 | 数据分析、用户分群、活动复盘 |
| 管理 | 会议纪要、知识管理、决策辅助 |
企业落地 AI 时,最重要的不是“选哪个模型最强”,而是这些问题:
| 问题 | 说明 |
|---|---|
| 数据在哪里 | 是否有可用、可信、合规的数据 |
| 流程在哪里 | AI 应该嵌入哪个业务流程 |
| 谁来审核 | 高风险输出是否需要人工确认 |
| 怎么评估 | 准确率、召回率、满意度、成本、时延 |
| 怎么上线 | 权限、日志、监控、回滚、兜底 |
| ROI 如何 | 投入成本和业务收益是否匹配 |
七、真实应用里怎么选技术
面对一个 AI 需求,不要一上来就问“用哪个大模型”。
更好的问题是:
这个问题的核心是什么?
可以按下面方式判断:
| 问题类型 | 常见方案 |
|---|---|
| 让模型按要求回答 | Prompt |
| 需要接入私有知识 | RAG |
| 需要执行多步骤任务 | Agent 或工作流 |
| 需要固定风格或稳定任务模式 | 微调 |
| 表格预测、风险评分、销量预测 | 传统机器学习 |
| 图片、语音、视频理解 | 深度学习或多模态模型 |
举几个例子:
| 场景 | 更常见方案 |
|---|---|
| 写文章、总结、翻译 | Prompt |
| 企业知识库问答 | RAG |
| 自动查资料并生成报告 | Agent 或工作流 |
| 固定客服话术风格 | Prompt 或微调 |
| 预测用户是否流失 | 传统机器学习 |
| 图片缺陷检测 | 深度学习或视觉模型 |
八、面试中可以怎么回答
1. AI、机器学习、深度学习、大模型是什么关系?
可以这样回答:
AI 是目标,机器学习是实现 AI 的重要方法。 机器学习强调从数据中学习规律,而不是完全依赖人工规则。 深度学习是机器学习的一个分支,核心是多层神经网络。 大模型通常是深度学习模型在数据、参数和算力上扩大后的结果。 大语言模型是大模型的一类,主要处理文本;多模态模型可以同时处理文本、图片、音频、视频等信息。2. 训练和推理有什么区别?
可以这样回答:
训练是用大量数据调整模型参数,让模型学到规律。 推理是使用训练好的模型处理新输入,通常不会再更新参数。 比如用历史邮件训练垃圾邮件模型是训练;用训练好的模型判断一封新邮件是不是垃圾邮件是推理。3. AI 为什么能学习?
可以这样回答:
AI 的学习本质上是通过数据、误差反馈和参数调整完成的。 模型先根据输入做预测,再用损失函数衡量预测和正确答案之间的差距。 优化器根据误差方向调整参数,重复很多轮后,模型会逐渐学到数据中的规律。 真正有价值的模型不只是记住训练集,而是能泛化到没见过的新数据。4. 大模型和数据库有什么区别?
可以这样回答:
数据库适合精确存储和查询确定数据。 大模型不是逐条查询答案,而是通过参数学习数据中的统计规律,擅长理解、生成和迁移。 因此大模型可能生成不准确或过时的信息。 如果要回答企业内部制度这类问题,通常要结合 RAG,把可靠资料检索出来再交给模型回答。5. 企业落地 AI 时,为什么不能只看模型强不强?
可以这样回答:
AI 项目能否成功,不只取决于模型能力。 还要看数据是否可用,业务流程是否适合接入 AI,输出是否可评估,权限和安全是否可控,成本和延迟是否能接受。 企业最终关注的是降本、提效、增收、控风险和改善体验,而不是单纯使用最热门的模型。九、常见误区
| 误区 | 更准确的理解 |
|---|---|
| AI 等于 ChatGPT | ChatGPT 是 AI 应用的一种,不等于整个 AI |
| 大模型什么都知道 | 它可能不知道私有知识,也可能知识过时 |
| 模型就是数据库 | 模型是参数化系统,不是精确查询系统 |
| 推理时模型还在学习 | 大多数情况下,推理不更新参数 |
| Prompt 写好就万能 | 复杂业务还需要 RAG、工具、评估、权限和工程化 |
| 大模型一定比传统机器学习好 | 表格预测、小数据、强解释场景中传统机器学习仍然有价值 |
| 选最强模型就能成功 | AI 项目还依赖数据、流程、评估、安全、成本和组织落地 |
十、自测题
下面这些题目来自本篇核心知识点,适合看完后快速检查自己是否真正理解。
题目
Q1. AI、机器学习、深度学习、大模型的关系,哪项最准确?
A. 深度学习包含机器学习,机器学习包含 AI
B. AI 包含机器学习,机器学习包含深度学习,大模型通常建立在深度学习之上
C. 大模型包含 AI,AI 包含机器学习
D. 它们完全无关
Q2. “如果用户消息包含退款,就进入退款流程”更像什么?
A. 规则系统
B. 机器学习
C. 深度学习预训练
D. 多模态模型
Q3. “参数”在模型中通常指什么?
A. 用户输入的问题
B. 模型内部可以被训练调整的数字
C. 数据库里的表名
D. 程序的页面颜色
Q4. 下面哪个过程更像“训练”?
A. 给已经训练好的模型输入一篇文章,让它生成摘要
B. 用大量标注样本反复调整模型参数,让预测更接近正确答案
C. 用户点击提交按钮
D. 把模型文件复制到另一个文件夹
Q5. 下面哪个过程更像“推理”?
A. 用历史数据调整模型参数
B. 设计损失函数
C. 给训练好的垃圾邮件模型输入一封新邮件,让它判断是否垃圾邮件
D. 清洗训练集里的重复数据
Q6. 损失函数的主要作用是什么?
A. 保存训练数据
B. 衡量模型预测和正确答案之间的差距
C. 控制网页颜色
D. 删除错误样本
Q7. 过拟合指什么?
A. 训练集表现差,新数据表现好
B. 训练集表现很好,但新数据表现差
C. 训练和测试都完全无法运行
D. 模型没有任何参数
Q8. 企业想让 AI 回答内部制度问题,优先应该怎么做?
A. 让通用大模型直接猜
B. 把内部资料接入检索或知识库流程,让模型基于资料回答
C. 只换一个更长的 Prompt
D. 只训练图片识别模型
Q9. 开发者使用 AI 时,除了模型效果,还应该重点关注什么?
A. 稳定性、成本、延迟、权限、安全、错误处理和可评估性
B. 只关注回答是否看起来长
C. 只关注页面颜色
D. 不需要日志和监控
Q10. 为什么说“选最强模型”不等于“AI 项目一定成功”?
A. 因为项目还依赖数据质量、业务流程、评估、安全、成本、用户体验和组织落地
B. 因为模型强就一定不能用
C. 因为 AI 项目不需要业务目标
D. 因为企业只需要 Prompt,不需要系统设计
答案与解析
| 题号 | 答案 | 解析 |
|---|---|---|
| Q1 | B | AI 是最大概念,机器学习是方法,深度学习是机器学习的重要分支,大模型通常建立在深度学习之上。 |
| Q2 | A | 关键词触发流程是典型人工规则,不是模型从数据中学出来的规律。 |
| Q3 | B | 参数是模型内部可学习、可调整的数字。 |
| Q4 | B | 训练的核心是用数据调整参数,让预测更接近正确答案。 |
| Q5 | C | 推理是使用训练好的模型处理新输入。 |
| Q6 | B | 损失函数用于衡量预测和正确答案之间的差距。 |
| Q7 | B | 过拟合是训练集表现很好,但新数据表现差。 |
| Q8 | B | 企业内部知识通常需要 RAG 或知识库检索,让模型基于资料回答。 |
| Q9 | A | 开发 AI 应用要关注稳定性、成本、安全、权限、日志、监控和评估。 |
| Q10 | A | AI 项目成功依赖数据、流程、评估、安全、成本和组织落地,不只是模型能力。 |
十一、本篇小结
这篇文章先建立了 AI 学习的总体认知。
可以记住这几句话:
- AI 是最大概念,机器学习、深度学习、大模型是逐层展开的技术路径。
- 机器学习的核心是从数据中学习规律,而不是完全靠人写规则。
- 深度学习用多层神经网络学习复杂模式。
- 大模型通过海量数据、大量参数和工程训练获得更通用的能力。
- 模型是输入到输出的系统,参数是模型内部可学习的数字。
- 训练是调整参数,推理是使用训练好的模型。
- AI 学习的核心链路是预测、计算误差、调整参数。
- 大模型不是数据库,企业知识问答通常需要 RAG。
- 普通人用 AI 提效,开发者用 AI 构建系统,企业用 AI 改造业务流程。
- AI 落地不能只看模型强不强,还要看数据、流程、安全、成本和 ROI。
十二、下一篇预告
下一篇准备进入 AI 学习的基础能力:
AI 学习路线 02:学习 AI 前,需要掌握哪些 Python 和数据处理基础?
会重点讲:
- Python 基础要学到什么程度
- NumPy、Pandas、Matplotlib 分别做什么
- 为什么真实 AI 项目里数据处理非常重要
- 数据清洗、探索和可视化的基本流程