🌞欢迎来到人工智能的世界
🌈博客主页:卿云阁💌欢迎关注🎉点赞👍收藏⭐️留言📝
📆首发时间:🌹2026年6月3日🌹
✉️希望可以和大家一起完成进阶之路!
🙏作者水平很有限,如果发现错误,请留言轰炸哦!万分感谢!
目录
多模态 RAG 的三种方案
方案 1|多模态向量直接编码(CLIP 类)
方案 2|图片摘要化检索(纯摘要参与回答)
方案 3|摘要检索 + 原图留档(工业最常用)
图文混合文档的检索痛点
优化 - 索引构建
核心原理
技术流程
优化 - 检索结果处理
核心原理
技术流程
多模态 RAG 最终方案总结
核心原理
技术流程
多模态 RAG 的三种方案
多模态 RAG解决图文混排文档(PDF、图表、截图、PPT)的检索问答难题,依托图片编码 / 图
片摘要分化出三类落地架构,核心区别在:检索对象是原图向量还是图片摘要、生成答案阶段是否
传入原始图片。
方案 1|多模态向量直接编码(CLIP 类)
文本、图片统一转成同空间向量,原图入库、直接搜图片。
技术流程:文档拆分图文→图文分别做多模态 Embedding→同库存储→问题编码跨模态检索→原
文 + 原图送入多模态 LLM 作答。
方案 2|图片摘要化检索(纯摘要参与回答)
先用多模态大模型把图片翻译成文字摘要,只存摘要向量,检索、答题全靠摘要,不用原图。
技术流程:提取图片→多模态 LLM 生成图片文本摘要→摘要向量化入库→检索匹配摘要→仅凭摘
要 + 文本回答。
方案 3|摘要检索 + 原图留档(工业最常用)
检索用图片摘要提速,检索命中后调取原始图片,摘要 + 原图一同送入多模态大模型生成答案,
是方案 2 优化版。
技术流程:图片生成摘要→摘要 Embedding 入库(原图本地 / 对象存储留存索引)→问题检索摘
要→命中后拉取原图 + 摘要→多模态 LLM 结合图文作答。
方案一:存图向量,直接搜图
方案二:存摘要,只靠文字答题
方案三:搜摘要,答题再调原图
图文混合文档的检索痛点
图文文档检索核心痛点:绝大多数配图不能独立表意,语义依附图注、标题、前后正文、章节语
境;直接把图片剥离原文单独做向量编码或单独生成摘要,会丢失关键上下文语义,造成图片
Embedding、图片摘要信息片面,最终检索跑偏。
图片单独看不懂,单独检索就不稳
错误处理链路:PDF拆分后图文割裂,图片脱离原文单独向量化/生成摘要、单独入库,丢失图文
位置关联与语义绑定,是检索失效根源;
正确优化思路:文档解析保留图文排版顺序,图片生成摘要后将摘要嵌入所属原文片段,摘要
作为正文的组成部分参与分块、向量化与检索,绑定上下文语义。
两种经典方案各自痛点
1. 多模态向量方案:CLIP等模型仅提取画面视觉特征,图片缺少上下文→向量不含业务/文档
语义→跨模态检索不准;
2. 图片摘要方案:多模态LLM仅凭画面生成摘要,无正文信息→摘要笼统宽泛、缺失专属定义
→依托摘要检索命中率低。
多模态RAG优化重点≠单独处理图片,而是维系图片与文档上下文的关联关系。
画面信息完整、表意独立 → 可单独检索
图表/插图语义依附正文、图注 → 不可单独检索,必须绑定上下文
优化 - 索引构建
核心原理
摒弃孤立给图片建索引的方式,基于文档整体语境构建索引。将图文、表格、标题等关联内容
整合为整体模块,依托完整语义检索,解决配图脱离上下文导致的检索不准问题。
技术流程
1. 解析PDF,拆分出标题、文本、表格、图片等结构化元素;
2. 合并相邻关联元素,形成CompositeElement(综合文档块),保留文档完整结构;
3. 对综合文档块生成全局文本摘要,对摘要做Embedding;
4. 构建摘要向量索引,同时绑定原始文档块映射关系;
5. 检索时通过摘要匹配,精准定位完整图文文档块。
优化 - 检索结果处理
核心原理
放弃图片单独检索,同时不丢失图片信息。检索依靠整体文档摘要保证稳定性,检索命中文档
后,将提前生成的图片摘要精准回填到图片对应位置,补足图片语义。
技术流程
1. 离线预处理
解析PDF提取图片,为每张图片生成专属摘要,建立图片ID、原图路径与图片摘要的映射关系,提前储备图文信息。
2. 在线检索回填
1. 用户提问,检索文档整体摘要,命中完整结构化文档块(CompositeElement);
2. 匹配文档块中的图片ID,调取对应图片摘要;
3. 将摘要精准插回图片原始位置,不集中堆砌;
4. 形成图文融合的增强上下文,送入LLM生成答案。
多模态 RAG 最终方案总结
核心原理
文本负责找,图片负责补。
摒弃图片单独检索、图片摘要单独检索的方式,解决图文文档检索不准、信息丢失的问题。核心逻
辑:检索依靠文档整体语境,回答补充图片细节信息。
先通过文本、表格、文档整体摘要检索定位到完整的结构化文档块,再将提前生成的图片摘要回填
到文档原图位置,让大模型结合图文完整上下文理解内容、生成答案,既规避孤立图片检索的不稳
定性,又不丢失图片核心信息。
技术流程
1. 离线阶段:构建索引、储备图文信息
解析PDF拆分文本、表格、图片等元素,将关联元素合并为CompositeElement(结构化文档
块);对文档块的文本、表格生成整体摘要,做Embedding后存入向量库,绑定与原文档块的映射
关系;同时通过多模态大模型生成所有图片摘要,建立图片ID与图片摘要的映射。最终形成两类存
储:摘要向量库(用于检索)、图文资源库(用于补充信息)。
2. 在线阶段:检索回填、生成答案
用户提问后,检索文本/表格摘要索引,精准命中对应结构化文档块;检测文档块内的图片资源,
根据图片ID调取对应图片摘要,精准回填到图片原始位置,形成图文融合的增强上下文;最后由通
用文本大模型,结合完整上下文生成答案。