news 2026/6/28 2:53:51

什么是RAG?RAG的全面解析。

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
什么是RAG?RAG的全面解析。

RAG(检索增强生成)全面解析

什么是RAG?

RAG(Retrieval-Augmented Generation,检索增强生成)是一种将检索生成相结合的AI技术框架。它通过从外部知识库中检索相关信息,来增强大语言模型(LLM)的回答质量和准确性。

简单来说,RAG就像是给AI配了一个"图书馆",让它在回答问题时可以查阅相关资料,而不是仅凭记忆回答。


RAG的核心原理

工作流程

用户提问 → 查询向量化 → 检索相关文档 → 构建Prompt → LLM生成回答

详细步骤

  1. 文档预处理

    • 将文档切分为适当大小的片段(chunks)
    • 使用Embedding模型将文本转换为向量
    • 将向量存储到向量数据库中
  2. 查询处理

    • 将用户问题转换为向量表示
    • 在向量数据库中检索最相关的文档片段
  3. 上下文增强

    • 将检索到的相关文档与用户问题组合
    • 构建增强后的Prompt
  4. 生成回答

    • LLM基于增强的上下文生成更准确、更有依据的回答

RAG的技术架构

核心组件

组件功能常用技术
文档加载器加载各种格式的文档LangChain, LlamaIndex
文本分割器将文档切分为小块RecursiveCharacterTextSplitter
Embedding模型文本向量化OpenAI Ada, BGE, GTE
向量数据库存储和检索向量FAISS, Milvus, Chroma, Pinecone
检索器相似度检索向量检索, BM25
LLM生成回答GPT-4, Claude, Qwen

系统架构图

┌─────────────────────────────────────────────────────────────┐ │ RAG 系统架构 │ ├─────────────────────────────────────────────────────────────┤ │ │ │ ┌──────────────┐ ┌──────────────┐ ┌──────────────┐ │ │ │ 文档库 │ │ 向量数据库 │ │ 用户界面 │ │ │ │ (PDF/Word/ │───▶│ (FAISS/ │◀───│ (Web/API) │ │ │ │ Web等) │ │ Milvus) │ │ │ │ │ └──────────────┘ └──────┬───────┘ └──────┬───────┘ │ │ │ │ │ │ │ ▼ ▼ ▼ │ │ ┌──────────────┐ ┌──────────────┐ ┌──────────────┐ │ │ │ 文档处理 │ │ 检索引擎 │ │ 查询处理 │ │ │ │ 分块+向量化 │ │ (相似度匹配) │ │ (向量化) │ │ │ └──────────────┘ └──────┬───────┘ └──────────────┘ │ │ │ │ │ ▼ │ │ ┌──────────────┐ │ │ │ LLM 生成 │ │ │ │ (增强回答) │ │ │ └──────────────┘ │ │ │ └─────────────────────────────────────────────────────────────┘

RAG vs 传统LLM

对比维度传统LLMRAG增强LLM
知识来源仅训练数据训练数据 + 外部知识库
时效性知识截止日期前可实时更新
准确性可能产生幻觉基于真实文档,更可靠
可解释性难以追溯来源可提供引用来源
成本需要大量训练无需重新训练

RAG的关键技术

1. 文本分块策略

  • 固定大小分块:按字符数或token数切分
  • 语义分块:基于语义边界切分(如段落、章节)
  • 递归分块:逐级细化的分块策略

2. 检索优化

  • 混合检索:结合向量检索和关键词检索(BM25)
  • 重排序(Reranking):对检索结果进行二次排序
  • 查询改写:优化用户查询以提高检索效果

3. 上下文压缩

  • 提取关键信息:从检索文档中提取最相关的内容
  • 摘要生成:对长文档生成摘要后再使用

RAG的应用场景

企业知识问答

  • 内部文档、政策、流程的智能问答
  • 新员工培训助手
  • IT技术支持自动化

智能客服

  • 基于产品文档的自动回复
  • 售前咨询与售后服务
  • 多轮对话支持

专业领域辅助

  • 法律:法规检索、案例分析
  • 医疗:医学文献检索、诊断辅助
  • 金融:财报分析、研报检索

开发者工具

  • 代码库问答(如Cursor、GitHub Copilot)
  • 技术文档检索
  • API使用指南

RAG的演进历程

第一代:Naive RAG

  • 简单的检索 + 生成
  • 问题:检索质量不稳定,容易引入噪声

第二代:Advanced RAG

  • 引入Query改写和扩展
  • 混合检索策略
  • 重排序机制
  • 多轮对话支持

第三代:Modular RAG

  • 模块化设计,灵活组合
  • 自适应检索决策
  • Self-RAG(自我反思检索)

前沿方向:Graph RAG

  • 结合知识图谱
  • 支持复杂关系推理
  • 多跳问答能力

RAG的最佳实践

  1. 文档质量

    • 确保文档内容准确、完整
    • 定期更新知识库
  2. 分块策略

    • 选择合适的分块大小(通常500-1000 tokens)
    • 保持语义完整性
  3. 检索优化

    • 使用混合检索提升召回率
    • 调整相似度阈值
  4. Prompt工程

    • 明确指示模型基于检索内容回答
    • 处理"不知道"的情况
  5. 评估与监控

    • 使用RAGAS等框架评估
    • 监控检索质量和生成质量

总结

RAG技术通过将检索与生成相结合,有效解决了大语言模型的知识时效性和准确性问题。它已成为构建企业级AI应用的核心技术之一。

随着技术的不断发展,RAG正在向更智能、更模块化的方向演进,Graph RAG等新范式也在不断涌现。掌握RAG技术,对于构建可靠、可解释的AI应用至关重要。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/28 2:52:47

HTTP到底是什么?浏览器和服务器之间到底发生了什么

导语很多人第一次学习 HTTP 的时候都会有一个感觉:看起来每个概念都认识,但连在一起之后,却不知道它到底在解决什么问题。浏览器输入一个网址,回车之后页面就出来了,中间没有任何提示,也没有手动操作。这一…

作者头像 李华
网站建设 2026/6/28 2:51:39

数列不是离散数字罗列,是双螺旋分层生长,分段截取的离散节点序列-《全域数学vs传统数学:人类文明进阶200讲》第55讲

《全域数学vs传统数学:人类文明进阶200讲》第55讲 高中通俗版逐字稿 讲次: 第55讲 主题: 数列不是离散数字罗列,是双螺旋分层生长,分段截取的离散节点序列 对标课本知识点: 数列、通项、递推、等差等比数列…

作者头像 李华
网站建设 2026/6/28 2:42:02

每日 AI 研究简报 · 2026-06-27

(本文借助 AI 大模型及工具辅助整理) 一句话总结:OpenAI 发布 GPT-5.6 三款新模型,Google 搜索框迎来25年首次大改版,图像生成与强化学习领域迎来重要技术突破。 🌊 AI 动态与趋势 大模型竞争进入新阶段…

作者头像 李华
网站建设 2026/6/28 2:39:40

为什么需要热加载和热插拔?生产级插件管理的意义

ava 后端开发的日常中,有几个场景几乎每个开发者都会反复遭遇: 开发阶段的"改一行等半天"。 调试一个 FreeMarker 模板的样式问题,每改一次就要重启应用——等待容器初始化、等待依赖注入完成、等待数据库连接池建好。真正有效的修…

作者头像 李华
网站建设 2026/6/28 2:37:30

2026婚恋情感软件横向测评|塔罗测算、正缘预测、情感挽回多平台对比,普通人怎么挑情感咨询APP

2026婚恋情感软件横向测评|塔罗测算、正缘预测、情感挽回多平台对比,普通人怎么挑情感咨询APP 当下年轻人面对单身择偶、情侣矛盾、分手修复等各类情感难题时,更习惯借助线上平台寻求疏导与建议,星座配对、年度爱情运势、塔罗解析…

作者头像 李华