news 2026/5/25 11:02:19

AIGC大语言模型之词元和嵌入向量

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
AIGC大语言模型之词元和嵌入向量

AIGC大语言模型之词元和嵌入向量


前言

词元和嵌入向量是人工智能生成内容(AIGC)中使用LLM的两个核心概念。

一、LLM的分词

1、分词器

是在模型处理文本之前, 分词器会将文本分解成词或者子词。这个是根据特定的方法和训练过程进行的。

2、分词器如何分解文本

3、开源分词器

分词器/库核心思想/算法标志性特点主要使用者
OpenAI BPE(tiktoken)Byte-level BPE直接在字节流上操作,高效压缩GPT-2,GPT-3,GPT-4,GPT-40, GPT-5
SentencePieceBPE, Unigram语言无关,无需预分词,空格视为LLaMA, T5,多语言模型
WordPieceMax-Likelihood需要预分词,词中片段用 ## 标记BERT 及其家族
Hugging FacetokenizersBPE, WordPiece,Unigram…集大成者,高性能Rust 实现,完整流水线Hugging Face 生态所有模型

4、词级、子词级、字符级与字节级分词

二、词元嵌入向量

语言是词元的序列,如果我们子啊足够大的词元集上训练一个足够好的模型,它就会开始捕获训练数据集中出现的复杂模式:

1、文本嵌入(用于句子和整篇文档)

虽然词元嵌入是LLM运作的关键, 但许多LLM应用需要处理完整的句子,段落甚至文本文档,这催生了一下特殊的语言模型,他们能够生成文本嵌入-- 用单个向量来表示长度超过一个词元的文本片段。

我们可以这样理解文本嵌入模型:它接收一段文本, 最终生成单个向量, 这个向量以某种形式表示该文本并捕获其含义.生成文本嵌入有多种方法。常见的方法之一是对模型生成的所有词元嵌入的值取平均值,然而,高质量的文本嵌入模型往往是专门为文本嵌入任务训练的

2、这边我们自己预训练文本词

  1. 准备预训练数据集(清洗、去重、tokenizer)
  2. Tokenizer设置(词元、分词策略)
  3. 输出模型
# 导入 SentencePiece 库:用于无监督训练子词(BPE/Unigram)模型以及后续编码/解码 import sentencepiece as spm def train(input_file, vocab_size, model_name, model_type, character_coverage): """ 重要说明(官方参数文档可查): https://github.com/google/sentencepiece/blob/master/doc/options.md 参数含义: - input_file: 原始语料文件路径(每行一句,SentencePiece 会做 Unicode NFKC 规范化) 支持多文件逗号拼接:'a.txt,b.txt' - vocab_size: 词表大小,如 8000 / 16000 / 32000 - model_name: 模型前缀名,最终会生成 <model_name>.model 和 <model_name>.vocab - model_type: 模型类型:unigram(默认)/ bpe / char / word 注意:若使用 word,需要你在外部先分好词(预分词) - character_coverage: 覆盖的字符比例 * 中文/日文等字符集丰富语言建议 0.9995 * 英文等字符集小的语言建议 1.0 """ # 这里使用“字符串命令”式的调用来指定训练参数 # 固定 4 个特殊符号的 id:<pad>=0, <unk>=1, <bos>=2, <eos>=3 # 这与下游 Transformer 常用配置一致,便于对齐 input_argument = ( '--input=%s ' '--model_prefix=%s ' '--vocab_size=%s ' '--model_type=%s ' '--character_coverage=%s ' '--pad_id=0 --unk_id=1 --bos_id=2 --eos_id=3 ' ) # 将传入参数填充到命令字符串 cmd = input_argument % (input_file, model_name, vocab_size, model_type, character_coverage) # 开始训练;会在当前工作目录下生成 <model_name>.model / <model_name>.vocab spm.SentencePieceTrainer.Train(cmd) # ===== 英文分词器配置 ===== en_input = 'data/data.txt' # 英文语料:一行一句 en_vocab_size = 32000 # 词表大小:翻译任务常见为 16k/32k en_model_name = 'eng' # 输出前缀:会生成 eng.model / eng.vocab en_model_type = 'bpe' # 使用 BPE(也可尝试 unigram) en_character_coverage = 1.0 # 英文字符集小 → 用 1.0 train(en_input, en_vocab_size, en_model_name, en_model_type, en_character_coverage)

总结

https://chensongpoixs.github.io/

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/25 9:17:54

【分析式AI】-带你搞懂SVM工具

1. SVM&#xff08;支持向量机&#xff09;的基本思想 SVM是一种用于分类和回归分析的监督学习模型。其核心思想是找到一个超平面&#xff08;在二维空间中即为一条直线&#xff09;&#xff0c;使得不同类别的数据点能够被该超平面尽可能清晰地分开。对于线性不可分的问题&…

作者头像 李华
网站建设 2026/5/26 6:25:20

26、系统完成问题与传感器、执行器模型在分布式参数系统控制中的作用

系统完成问题与传感器、执行器模型在分布式参数系统控制中的作用 1. 系统完成问题 在系统设计中,常常需要解决系统完成问题,即找到缺失的输入或输出,以创建一个具有期望传输零点位置的方阵或平方化系统。以下将针对不同情况进行讨论。 1.1 (p = m) 且 (\rho(D) = 0) 的情…

作者头像 李华
网站建设 2026/5/25 14:52:08

云端UML设计革命:PlantUML Editor如何重塑你的建模工作流

云端UML设计革命&#xff1a;PlantUML Editor如何重塑你的建模工作流 【免费下载链接】plantuml-editor PlantUML online demo client 项目地址: https://gitcode.com/gh_mirrors/pl/plantuml-editor 在软件开发的世界里&#xff0c;UML建模往往是设计环节中最令人头疼的…

作者头像 李华
网站建设 2026/5/26 7:21:41

Vite与React-InlineSVG的完美结合:解决SVG引入问题

引言 在现代Web开发中,React和Vite已经成为了许多开发者的首选工具。React-InlineSVG库提供了一种便捷的方式来在React应用中内联SVG文件。然而,在使用Vite构建工具时,引入SVG文件可能会遇到一些问题。本文将详细介绍如何在Vite环境下使用react-inlinesvg库,并通过一个实际…

作者头像 李华
网站建设 2026/5/26 5:24:37

巧妙利用泛型方法打印表格数据

在编程中,如何将一个对象列表以表格形式打印出来是一个常见的问题。例如,我们可能需要将一组具有相同属性但值不同的对象显示成类似Excel表格的形式。本文将介绍如何使用C#中的泛型方法来实现这个功能。 问题描述 假设我们有一个Header类,包含BlNo(提单号)、Descr(描述…

作者头像 李华
网站建设 2026/5/26 6:08:41

52、无权重图的增长模型

无权重图的增长模型 1. 无权重图增长模型概述 在图论中,无权重图的增长模型是一类重要的研究对象。这类模型的特点是节点数量和边的数量会随时间变化(通常是增长)。在选择图的表示方法时,需要考虑到这种动态变化。而且,在时间 $t$ 时,新到达的节点 $i$ 与现有节点 $j$ …

作者头像 李华