RAG全称是Retrieval-Augmented Generation,中文译为检索增强生成,是当前大语言模型领域广泛应用的技术框架,通过融合外部知识库的检索能力,解决传统大模型幻觉、知识滞后的痛点。
核心逻辑
RAG的核心流程非常简洁:让大模型先去外部知识库检索相关参考资料,再根据检索到的资料生成回答,而非仅依赖自身训练的"记忆"生成内容,相当于给大模型增加了"查资料"的能力,能大幅减少凭空编造错误信息的情况。类比来说,就像医生问诊,先查阅病历再给出诊断,而非全靠记忆判断。
标准工作流程
完整的RAG流程共分为8步,每一步都对应明确功能:
表格
| 步骤 | 核心操作 | 作用 |
|---|---|---|
| 1 | 用户提问 | 获取用户的原始自然语言问题 |
| 2 | 查询预处理 | 将口语化、模糊的问题改写为规范、适合检索的表述 |
| 3 | 查询向量化 | 将文字问题转换为计算机可计算相似度的向量 |
| 4 | 知识库检索 | 在外部向量库中查找相似度最高的文档片段 |
| 5 | 结果重排序 | 按照和问题的相关度重新排序结果,过滤无关内容 |
| 6 | 上下文构建 | 将筛选后的结果整理为清晰的参考上下文,输入给大模型 |
| 7 | 生成回答 | 大模型仅基于参考上下文生成准确回答,不凭空编造 |
| 8 | 后处理 | 对回答添加引用标注、事实校验,优化输出格式 |
核心优势
- 解决幻觉问题:回答严格基于外部知识库内容,可信度大幅提升
- 知识可实时更新:不需要重新训练大模型,只需要更新外部知识库就能引入最新知识,成本更低
- 可溯源可校验:生成回答对应明确的参考片段,方便核查准确性,满足合规要求
- 适配私有场景:能基于企业私有文档、内部资料搭建专属问答系统,数据可控