news 2026/5/28 2:21:32

大语言模型到底是怎么工作的?从数学角度彻底讲清楚

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
大语言模型到底是怎么工作的?从数学角度彻底讲清楚

当你和ChatGPT对话的时候,你有没有想过一个问题:它到底是怎么"理解"你说的话,然后给出回答的?

很多人把大语言模型(Large Language Model, LLM)想象成一个超级聪明的大脑。但真相可能比你想象的更简单,也可能更令人震撼——它本质上就是一个数学函数,一个预测"下一个词"的函数

今天我想从数学和工程的角度,把LLM的工作原理彻底讲清楚。不需要你有很深的数学背景,但我会尽量做到准确,不搞模糊的比喻。

最基本的概念:预测下一个词

假设你看到这样一段话:

“To be or not to ___”

你会填什么?大概率是"be"。这就是一个"预测下一个词"的任务。

大语言模型做的就是这件事——给定前面的所有文字,预测下一个最可能出现的词(更准确地说是"token",可能是词、词的一部分或标点符号)。

但它不是简单地预测一个词,而是给所有可能的下一个词分配一个概率。比如:

  • • “be” → 99.2%
  • • “see” → 0.3%
  • • “the” → 0.1%
  • • ……(成千上万个选项)

然后根据这些概率进行采样,选出下一个词。把这个过程重复几百次、几千次,就生成了一段完整的文字。

聊天机器人是怎么工作的?

你可能会想:“不对啊,ChatGPT不是一个对话机器人吗?它怎么只是预测下一个词?”

好问题。答案其实很巧妙。

当你和ChatGPT对话时,系统会构造一个"剧本",大概是这样的:

用户:请帮我解释一下量子物理。 AI助手:

然后把这个"剧本"喂给模型,让它预测"AI助手:"之后的第一个词。预测完第一个词后,把这个词加入剧本,再预测下一个。如此反复,直到生成完整的回答。

所以,聊天机器人的"对话能力"本质上就是文本补全能力。模型并不是真的在"理解"你的问题,它只是在做一件非常擅长的事——预测接下来应该出现什么词。

这也是为什么模型有时候会"一本正经地胡说八道"——它并不是在思考真相,而是在预测"在这种上下文中,最可能出现的词序列是什么"。

模型是怎么学会预测的?

关键问题来了:这个"预测函数"是怎么来的?答案是:通过海量文本训练出来的

训练数据通常来自互联网——维基百科、新闻、书籍、论坛、代码……各种各样的文本。GPT-3的训练数据量,如果让一个人不停阅读,需要超过2600年才能读完。而更新的模型训练数据量更大。

训练过程的核心思想很简单:

    1. 取一段训练文本,比如"The cat sat on the mat"
    1. 把前面的词(“The cat sat on the”)输入模型
    1. 让模型预测下一个词
    1. 把模型的预测和真实答案(“mat”)进行比较
    1. 调整模型的参数,使得模型更倾向于预测正确的词

这个"调整参数"的过程叫做反向传播(Backpropagation),是深度学习的核心算法。

经过数万亿次这样的"预测-比较-调整"循环,模型的参数被逐步优化,使得它在各种文本上都能给出相当准确的预测。

参数:模型的"记忆"

模型的行为完全由它的参数(parameters,也叫weights)决定。参数就是一组连续的数字——可以理解为模型内部无数个"旋钮",每个旋钮的位置影响着模型的行为。

GPT-3有1750亿个参数。GPT-4据传有超过1万亿个参数。这些参数没有人手动设置,它们全部是通过训练自动学习到的。

你可以把训练过程想象成调整一架巨型钢琴上的数十亿个旋钮——每个旋钮的微小调整都会改变钢琴演奏出的"旋律"(即模型的预测行为)。训练的目标就是找到一组旋钮的位置,使得钢琴在各种输入下都能演奏出"正确"的旋律。

一个有趣的问题是:没有人真正知道这些参数为什么会导致特定的行为。我们知道模型能写出流畅的文章、解答数学题、翻译语言,但我们无法解释"第47,832,191号参数为什么值是0.0037"。模型的智能是"涌现"出来的,而不是被设计出来的。

Transformer:让一切成为可能的架构

2017年之前,语言模型大多是一个词一个词地处理文本——先看第一个词,再看第二个,再看第三个。这种方式效率很低,很难并行化,也很难捕捉长距离的语义关系。

2017年,Google的研究团队发表了一篇改变世界的论文:《Attention Is All You Need》。他们提出了一种全新的架构——Transformer

Transformer的核心创新在于:它不按顺序读文本,而是一次性"看到"所有的词,然后让这些词互相"交流"

这个"交流"的机制叫做注意力(Attention),它是Transformer的灵魂。

注意力机制:词与词之间的对话

在Transformer中,每个词都会被编码成一个向量(一列数字)。注意力机制的作用是:让每个向量根据上下文来调整自己的含义

举个例子:

  • • “I went to the bank to deposit money”(银行)
  • • “I went to the bank to catch fish”(河岸)

"bank"这个词在两个句子中的含义完全不同。注意力机制会让"bank"的向量根据周围的词(“deposit money"还是"catch fish”)来调整,从而编码出正确的含义。

具体来说,注意力机制会给每一对词计算一个"注意力分数",表示这两个词之间的关联强度。然后用这些分数来加权组合所有词的信息,更新每个词的表示。

这个过程是并行的——所有词对之间的注意力分数可以同时计算。这就是Transformer比之前的架构快得多的原因。

多层处理:从词义到语义

Transformer不是只做一次注意力计算,而是把注意力层和前馈神经网络层反复堆叠几十次甚至上百次。

每一层都在做类似的事情:让词与词之间交流信息,然后通过一个小型神经网络进一步处理。随着层数的增加,每个词的向量会编码越来越丰富的信息——从基本的词义,到语法关系,到语义理解,到世界知识。

到了最后一层,最后一个位置的向量就包含了对整个输入文本的"理解",以及对下一个词的预测依据。模型用这个向量来计算所有可能的下一个词的概率。

训练的规模:超乎想象

训练一个大型语言模型需要的计算量是惊人的。假设你每秒能做10亿次加法和乘法运算,要完成最大型语言模型的训练,需要的时间不是几年,而是超过1亿年

这就是为什么训练大语言模型需要成千上万块GPU(图形处理单元)并行工作,花费数月甚至数年的时间,消耗数百万美元的电力和计算资源。

GPU之所以适合这个任务,是因为它天生擅长做大量重复的并行运算。矩阵乘法——深度学习中最核心的运算——正好是GPU的强项。

预训练之后:对齐人类偏好

预训练(用海量文本训练)只是第一步。预训练后的模型虽然能预测下一个词,但它并不知道怎么做一个"好的助手"。它可能会续写暴力内容、生成错误信息,或者用不合适的方式回答问题。

为了让模型变得"有用且安全",需要进行第二阶段的训练:基于人类反馈的强化学习(Reinforcement Learning from Human Feedback, RLHF)。

这个过程大致是:

    1. 让模型生成多个回答
    1. 由人类标注员对这些回答进行排序(哪个更好)
    1. 训练一个"奖励模型"来模拟人类的偏好
    1. 用这个奖励模型来进一步调整语言模型的参数

经过RLHF训练后,模型变得更加"听话"——它学会了以有帮助、诚实、安全的方式回答问题。

Transformer的局限性

尽管Transformer非常强大,但它有一些固有的局限性:

上下文窗口限制:模型一次能"看到"的文本长度是有限的(上下文窗口)。虽然这个窗口在不断扩大,但仍然存在上限。超出窗口的内容,模型就"忘记"了。

没有真正的"记忆":每次对话,模型都是从零开始的。它不记得之前的对话(除非你把之前的对话内容重新输入)。所谓的"记忆"功能,本质上是把历史对话拼接到输入中。

推理能力有限:虽然模型在某些推理任务上表现出色,但它并不是一个真正的"推理引擎"。它的"推理"更多是基于模式匹配,而不是逻辑推导。这也是为什么有时候它会犯一些很"蠢"的逻辑错误。

幻觉问题:模型有时候会生成听起来很有道理但实际上是错误的内容。这是因为它在预测"什么词最可能出现",而不是在验证"什么是真的"。

从预测到理解:涌现的能力

最令人惊叹的是,一个简单的"预测下一个词"的目标,竟然能涌现出如此丰富的"智能"。

模型能写诗、编程、翻译、做数学题、模拟不同人格的角色……这些能力没有一个是被明确编程的,它们全部从"预测下一个词"这个目标中涌现出来。

这引发了一个深刻的哲学问题:当一个系统在预测下一个词上做得足够好时,它是否就"理解"了语言?这个问题目前没有定论,但有一点是确定的——无论我们怎么定义"理解",这些模型的能力都在快速逼近人类水平。

对我们的启示

理解LLM的工作原理,不是为了成为AI专家,而是为了更好地使用和评判这些工具。当你知道它本质上是一个"预测函数",你就能:

  • • 理解它为什么会犯特定类型的错误
  • • 更好地设计提示词(prompt)来引导它
  • • 对它的输出保持合理的怀疑
  • • 看到它的潜力和局限

AI的发展速度超出了大多数人的预期。也许在不远的将来,我们会回头看今天的大语言模型,就像今天的人们回头看1990年代的互联网一样——知道它很重要,但无法想象它最终会变成什么样子。

你觉得大语言模型的"理解"和人类的理解,本质上是一样的吗?还是说,它只是在模拟理解,而真正的理解需要更多?

传统产品经理,正在成为下个被淘汰的“传统岗位”。

过去画原型、写 PRD、跟进度的“传统技能包”,在AI时代正迅速贬值。63% 的企业转型做 AI 产品!当下的问题不再是“要不要学 AI ”,而是“如何构建 AI 产品”。

前段时间还跟字节、腾讯的资深 AI 产品经理沟通,他们反馈:在大量招人,只要有 AI 相关的项目经验,基本都能拿到面试机会,而且领导很舍得给钱,涨薪 40-60% 很正常!

01

接下来的产品人,得卷AI能力了!

如今AI大火,行业极速发展的背后,懂AI 产品人才却严重稀缺。这不是要你转技术岗,而是要掌握构建 AI 产品的核心方法:

  • 如何将你的领域知识,转化为 AI 产品的核心竞争力?
  • 如何用 AI 技术实现你的产品需求?
  • 如何设计真正懂用户的 AI 交互体验?
  • ……

懂AI,就是产品经理的“救命稻草”!

风口之下,与其焦虑被行业淘汰

不如先人一步享受AI技术带来的红利!

我把AI产品经理的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

(不限年龄!不限岗位!没有代码基础也能学!)

🎁现在扫码,完课还送:

《AI产品面试题库》《AI大模型应用案例集》

02

掌握技术+实战,快速转型!

想成为一名卓越的AI大模型产品经理,需要从技术、到项目实战的全方位转型指南!

**1)**AI产品应用原理解析,产品经理也能听懂!

对于产品经理来说,如果你不懂技术,做不了业务和AI大模型技术衔接、定义不了数据需求,是没法完整的落地一个产品的!

本次课程,专门面向产品经理人群,解析当下最热门的AI产品应用的必备的「大模型」、「多模态」的实际应用和算法原理!解析AI产品应用技术,积累大模型能力!简单易懂,不需要会代码,小白也能掌握!

  • 大模型微调:掌握主流大模型(如DeepSeek、Qwen等)的微调技术,针对特定场景优化模型性能。学习如何利用领域数据(如制造、医药、金融等)进行模型定制
  • AI Agent智能体搭建:学习如何设计和开发AI Agent,实现多任务协同、自主决策和复杂问题解决。构建垂类场景下的智能助手产品(如制造业中的设备故障诊断Agent、金融领域的投资分析Agent等)

2)超全行业案例解析!

课程详细讲解现阶段,大模型在各个行业和领域的应用现状!包括:零售与电商、教育、医疗、泛娱乐、法律等等10大行业!

详细讲解案例的思路、应用场景,以及背后的技术原理、核心技术!揭秘各个行业、场景的真实现状,和未来产品的发展与机遇!

可以说,讲解完一个案例,就能积累一个AI产品实践的经验!

课程中所涉及到的实战项目,都可以直接在自己的工作中使用,让自己的产品/项目有可借鉴的成功案例!

3)AI产品经理求职专项辅导

课程中会系统的帮助大家拆解字节、腾讯、百度等大厂AI PM岗位JD关键词,掌握AI PM高频面试题型与回答框架;展示 AI 相关能力的关键技巧:Prompt设计、模型评估、A/B测试、成本意识、与算法/工程协作经验;

  • To B类AI产品经理:突出“行业理解 + 技术落地 + 商业闭环”能力的简历结构设计,展示项目成果;从客户需求洞察到技术方案设计,展现端到产品思维;如何评估To B AI产品的可行性、客户付费意愿与实施成本
  • To C类AI产品经理:拆解头部公司岗位JD,将过往尽力转化为AI产品叙事逻辑;从行业趋势、产品设计题、案例分析&数据分析题、技术理解边界等全流程辅导面试;避免无效海投、锁定最适合的AI产品岗位;

03

本次课程,全程直播讲解,能直接对话大佬和专业助教,不懂就问,超详细的案例,小白也能轻松get!

完课后,还赠送《AI产品经理面试题库》、《AI大模型应用案例集》!不断更新中……

适合人群:

  • 想转型AI产品经理、AI项目管理专家、AI产品解决方案等岗位
  • 想进行AI产品创业的创业者
  • 想成为制作AI产品的程序员
  • 想利用AI解决企业问题的管理岗
  • 想在AI方向寻找就业方向的毕业生
  • AI方向前景广阔、待遇好!

目前,很多产品人已经通过完整学习拿到大厂高薪offer,收入嗷嗷涨!

我把AI产品经理的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/28 2:20:36

GD32F407硬件IIC主机模式中断驱动实战:告别阻塞轮询

1. 为什么需要中断驱动的硬件IIC主机模式 在嵌入式开发中,IIC总线是最常用的通信接口之一。GD32F407作为一款高性能MCU,提供了硬件IIC控制器,但官方提供的示例代码都是基于while循环的阻塞式实现。这种实现方式在实际项目中存在几个致命问题&…

作者头像 李华
网站建设 2026/5/28 2:20:35

从零到一:在Vivado中构建并优化MicroBlaze嵌入式系统

1. 初识MicroBlaze与Vivado开发环境 MicroBlaze是Xilinx推出的32位RISC软核处理器,它最大的特点就是能像乐高积木一样灵活配置。想象一下,你正在组装一台电脑,MicroBlaze就是那个可以自由选择配件的主板——要多大内存、用什么显卡、装几个硬…

作者头像 李华
网站建设 2026/5/28 2:19:37

告别Keil!在Ubuntu 20.04上用VSCode+GCC玩转国产HC32L110单片机

在Linux生态中重构HC32L110开发流:VSCodeGCC全链路实战 当Keil的License弹窗第N次打断你的调试节奏时,或许该重新审视嵌入式开发的工具选择。国产HC32L110这类Cortex-M0内核芯片的开发,早已不必困在Windows商业IDE的围城里。本文将带你用VSCo…

作者头像 李华
网站建设 2026/5/28 2:18:41

哈夫曼数 。

#include <iostream> #include <fstream> #include <string.h> using namespace std; #define MaxSize 1024 // 读入文件的上限 #define OK 1 #define ERROR 0 typedef int Status;typedef struct wordcnt{ // 统计字符和对应的次数 char ch;int cnt 0; …

作者头像 李华