news 2026/6/1 5:58:12

深度解析 Max-Min 语义分块策略对 RAG 的重构与优化

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
深度解析 Max-Min 语义分块策略对 RAG 的重构与优化

摘要

在检索增强生成(RAG)系统的构建过程中,文档分块(Chunking)的质量直接决定了检索的精度与生成内容的连贯性。传统的固定长度或基于结构的分割方法,往往因忽略文本内在语义逻辑而导致上下文断裂或噪声引入。今天一起看下论文《Max–Min semantic chunking of documents for RAG application》,看下动态语义分块算法——Max-Min 语义分块,如何作用提升 RAG 性能的底层优化。


1. RAG 的分块困境

RAG 系统的高效运行依赖于一个核心假设:检索到的 Top-K 文档片段应包含回答问题所需的完整且纯净的语义信息。然而,实现这一假设的基石——文档分块,却长期面临以下技术挑战:

  • 语义断裂 (Semantic Fragmentation):固定长度(如每 500 tokens 一块)的分割,往往在句子中间或逻辑转折处生硬切断,导致检索到的片段失去关键上下文。
  • 上下文噪声 (Contextual Noise):过大的块虽然包含更多背景,但也引入了大量不相关信息,干扰 LLM 的注意力。
  • 固定窗口的局限 (Fixed-Window Limitations):现有的语义分块方法(如 LlamaIndex 的语义切分器)通常采用固定大小的滑动窗口来比较句子组,难以处理插入语、引用或脚注等非线性的文本结构。

2. 超越固定窗口:语义分块的范式演进

为了解决上述问题,业界提出了语义分块 (Semantic Chunking)。其演进路径如下:

  1. 基于相似度的滑动窗口:通过滑动窗口计算相邻句子间的余弦相似度,相似度低于阈值时切分。
  2. 百分比/分位数切分:不再依赖固定阈值,而是根据文档整体相似度分布的百分位来决定边界。
  3. Max-Min 动态聚类(本文重点):将分块视为一种尊重时间顺序的动态聚类问题。它不再使用固定窗口,而是通过评估新句子与当前已形成分块(Cluster)的整体契合度,动态决定边界。

3. 深度解析:Max-Min 语义分块设计方案

Max–Min 语义分块的核心在于:它不仅考虑新句子与前一个句子的局部相似度,更考虑其与当前分块内所有句子的全局一致性。

3.1 核心思想:作为动态聚类的分块

算法将分块过程抽象为:按顺序处理句子s1,s2,…,sns_1, s_2, \dots, s_ns1,s2,,sn,对每个句子sks_ksk,决定是将其加入当前分块CCC,还是开启一个新分块。这种方法保留了文档的线性结构(Temporal Nature),确保分块内的句子是连续的。

3.2 逻辑结构:Max-Min 相似度策略

算法通过两个关键指标进行决策:

  1. 块内最小相似度 (min_sim(C)min\_sim(C)min_sim(C))
    衡量当前块CCC内最不相似的两个句子之间的距离,代表了该块的“容忍度底线”。
    min_sim(C)=min⁡s,t∈Csimcos⁡(E(s),E(t))min\_sim(C) = \min_{s,t \in C} \text{sim}_{\cos}(E(s), E(t))min_sim(C)=s,tC

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/29 19:55:39

【python大数据毕设实战】双十一淘宝美妆数据可视化与分析系统、Hadoop、计算机毕业设计、包括数据爬取、数据分析、数据可视化、机器学习、实战教学

🍊作者:计算机毕设匠心工作室 🍊简介:毕业后就一直专业从事计算机软件程序开发,至今也有8年工作经验。擅长Java、Python、微信小程序、安卓、大数据、PHP、.NET|C#、Golang等。 擅长:按照需求定制化开发项目…

作者头像 李华
网站建设 2026/6/1 4:33:20

英雄联盟智能助手:League Akari完整使用教程

英雄联盟智能助手:League Akari完整使用教程 【免费下载链接】League-Toolkit 兴趣使然的、简单易用的英雄联盟工具集。支持战绩查询、自动秒选等功能。基于 LCU API。 项目地址: https://gitcode.com/gh_mirrors/le/League-Toolkit 还在为繁琐的游戏操作烦恼…

作者头像 李华
网站建设 2026/5/29 17:13:48

65.【.NET8 实战--孢子记账--从单体到微服务--转向微服务】--新增功能--账本合并

有时我们需要把几个账本合并到一个账本中,这样就可以在一个账本中查看所有的交易记录。那么,在本片文章中我们就来一起实现这个功能。 一、需求分析 用户需要能够将多个账本中的交易记录合并到一个目标账本中,以便在统一的视图下管理和查看所…

作者头像 李华
网站建设 2026/5/31 14:59:21

“Zookeeper Java客户端全解析:面试必知!”

文章目录Zookeeper的Java客户端都有哪些?引言:为什么我们要聊ZooKeeper的Java客户端?第一部分:官方推荐——Curator1.1 Curator是什么?1.2 Curator的特点1.3 Curator的使用示例1.4 Curator的优缺点第二部分&#xff1a…

作者头像 李华
网站建设 2026/5/30 22:02:34

选它还是它?Chubby与ZooKeeper深度对比

文章目录Chubby 是什么?和 ZooKeeper 比,你觉得怎么看待它们?一、Chubby 是什么?1. Chubby 的设计理念2. Chubby 的核心功能3. Chubby 的优缺点优点:缺点:二、ZooKeeper 是什么?1. ZooKeeper 的…

作者头像 李华
网站建设 2026/5/29 20:06:11

2024年WPS365版-模拟训练系统-中级模拟二

2024年WPS365版-模拟训练系统-中级模拟二 单选题 1/33 在 WPS 文档窗口中,要应用一个已有的样式,先选定要应用样式的内容,然后()。 A、单击【插入】选项卡中的【样式】按钮 B、单击【开始】选项卡中的【格式化】按钮 C…

作者头像 李华