大模型|大模型中的多模态RAG-Seo优化-塔城地区网站建设公司

🌞欢迎来到人工智能的世界
🌈博客主页：卿云阁
💌欢迎关注🎉点赞👍收藏⭐️留言📝
📆首发时间：🌹2026年6月3日🌹
✉️希望可以和大家一起完成进阶之路！
🙏作者水平很有限，如果发现错误，请留言轰炸哦！万分感谢！
目录
多模态 RAG 的三种方案
方案 1｜多模态向量直接编码（CLIP 类）
方案 2｜图片摘要化检索（纯摘要参与回答）
方案 3｜摘要检索 + 原图留档（工业最常用）
图文混合文档的检索痛点
优化 - 索引构建
核心原理
技术流程
优化 - 检索结果处理
核心原理
技术流程
多模态 RAG 最终方案总结
核心原理
技术流程

多模态 RAG 的三种方案

多模态 RAG解决图文混排文档（PDF、图表、截图、PPT）的检索问答难题，依托图片编码 / 图

片摘要分化出三类落地架构，核心区别在：检索对象是原图向量还是图片摘要、生成答案阶段是否

传入原始图片。

方案 1｜多模态向量直接编码（CLIP 类）

文本、图片统一转成同空间向量，原图入库、直接搜图片。

技术流程：文档拆分图文→图文分别做多模态 Embedding→同库存储→问题编码跨模态检索→原

文 + 原图送入多模态 LLM 作答。

方案 2｜图片摘要化检索（纯摘要参与回答）

先用多模态大模型把图片翻译成文字摘要，只存摘要向量，检索、答题全靠摘要，不用原图。

技术流程：提取图片→多模态 LLM 生成图片文本摘要→摘要向量化入库→检索匹配摘要→仅凭摘

要 + 文本回答。

方案 3｜摘要检索 + 原图留档（工业最常用）

检索用图片摘要提速，检索命中后调取原始图片，摘要 + 原图一同送入多模态大模型生成答案，

是方案 2 优化版。

技术流程：图片生成摘要→摘要 Embedding 入库（原图本地 / 对象存储留存索引）→问题检索摘

要→命中后拉取原图 + 摘要→多模态 LLM 结合图文作答。

方案一：存图向量，直接搜图

方案二：存摘要，只靠文字答题

方案三：搜摘要，答题再调原图

图文混合文档的检索痛点

图文文档检索核心痛点：绝大多数配图不能独立表意，语义依附图注、标题、前后正文、章节语

境；直接把图片剥离原文单独做向量编码或单独生成摘要，会丢失关键上下文语义，造成图片

Embedding、图片摘要信息片面，最终检索跑偏。

图片单独看不懂，单独检索就不稳

错误处理链路：PDF拆分后图文割裂，图片脱离原文单独向量化/生成摘要、单独入库，丢失图文

位置关联与语义绑定，是检索失效根源；

正确优化思路：文档解析保留图文排版顺序，图片生成摘要后将摘要嵌入所属原文片段，摘要

作为正文的组成部分参与分块、向量化与检索，绑定上下文语义。

两种经典方案各自痛点

1. 多模态向量方案：CLIP等模型仅提取画面视觉特征，图片缺少上下文→向量不含业务/文档

语义→跨模态检索不准；

2. 图片摘要方案：多模态LLM仅凭画面生成摘要，无正文信息→摘要笼统宽泛、缺失专属定义

→依托摘要检索命中率低。

多模态RAG优化重点≠单独处理图片，而是维系图片与文档上下文的关联关系。

画面信息完整、表意独立 → 可单独检索

图表/插图语义依附正文、图注 → 不可单独检索，必须绑定上下文

优化 - 索引构建

核心原理

摒弃孤立给图片建索引的方式，基于文档整体语境构建索引。将图文、表格、标题等关联内容

整合为整体模块，依托完整语义检索，解决配图脱离上下文导致的检索不准问题。

技术流程

1. 解析PDF，拆分出标题、文本、表格、图片等结构化元素；

2. 合并相邻关联元素，形成CompositeElement（综合文档块），保留文档完整结构；

3. 对综合文档块生成全局文本摘要，对摘要做Embedding；

4. 构建摘要向量索引，同时绑定原始文档块映射关系；

5. 检索时通过摘要匹配，精准定位完整图文文档块。

优化 - 检索结果处理

核心原理

放弃图片单独检索，同时不丢失图片信息。检索依靠整体文档摘要保证稳定性，检索命中文档

后，将提前生成的图片摘要精准回填到图片对应位置，补足图片语义。

技术流程

1. 离线预处理

解析PDF提取图片，为每张图片生成专属摘要，建立图片ID、原图路径与图片摘要的映射关系，提前储备图文信息。

2. 在线检索回填

1. 用户提问，检索文档整体摘要，命中完整结构化文档块（CompositeElement）；

2. 匹配文档块中的图片ID，调取对应图片摘要；

3. 将摘要精准插回图片原始位置，不集中堆砌；

4. 形成图文融合的增强上下文，送入LLM生成答案。

多模态 RAG 最终方案总结

核心原理

文本负责找，图片负责补。

摒弃图片单独检索、图片摘要单独检索的方式，解决图文文档检索不准、信息丢失的问题。核心逻

辑：检索依靠文档整体语境，回答补充图片细节信息。

先通过文本、表格、文档整体摘要检索定位到完整的结构化文档块，再将提前生成的图片摘要回填

到文档原图位置，让大模型结合图文完整上下文理解内容、生成答案，既规避孤立图片检索的不稳

定性，又不丢失图片核心信息。

技术流程

1. 离线阶段：构建索引、储备图文信息

解析PDF拆分文本、表格、图片等元素，将关联元素合并为CompositeElement（结构化文档

块）；对文档块的文本、表格生成整体摘要，做Embedding后存入向量库，绑定与原文档块的映射

关系；同时通过多模态大模型生成所有图片摘要，建立图片ID与图片摘要的映射。最终形成两类存

储：摘要向量库（用于检索）、图文资源库（用于补充信息）。

2. 在线阶段：检索回填、生成答案

用户提问后，检索文本/表格摘要索引，精准命中对应结构化文档块；检测文档块内的图片资源，

根据图片ID调取对应图片摘要，精准回填到图片原始位置，形成图文融合的增强上下文；最后由通

用文本大模型，结合完整上下文生成答案。

大模型|大模型中的多模态RAG

多模态 RAG 的三种方案

方案 1｜多模态向量直接编码（CLIP 类）

方案 2｜图片摘要化检索（纯摘要参与回答）

方案 3｜摘要检索 + 原图留档（工业最常用）

图文混合文档的检索痛点

优化 - 索引构建

核心原理

技术流程

优化 - 检索结果处理

核心原理

技术流程

多模态 RAG 最终方案总结

核心原理

技术流程

2. 在线阶段：检索回填、生成答案

3. 方案核心重点
图片摘要不参与主检索，仅作为检索后的上下文补充，平衡检索稳定性与答案完整性。

unpackandroidrom：突破Android ROM解包技术壁垒的全栈解决方案

OData 入门与详解：从基础到企业

STM32F407 Keil工程：纯软件S曲线调速，驱动两相步进电机不丢步

ONNXRuntime CUDA性能优化揭秘：Gather算子如何用fast_divmod干掉除法瓶颈

告别IconFont！用Figma+LVGL Font Converter打造专属嵌入式图标系统

告别环境冲突！在Win11的Anaconda里为Sionna和TensorFlow/PyTorch创建独立工作区

多模态 RAG 的三种方案

方案 1｜多模态向量直接编码（CLIP 类）

方案 2｜图片摘要化检索（纯摘要参与回答）

方案 3｜摘要检索 + 原图留档（工业最常用）

图文混合文档的检索痛点

优化 - 索引构建

核心原理

技术流程

优化 - 检索结果处理

核心原理

技术流程

多模态 RAG 最终方案总结

核心原理

技术流程

2. 在线阶段：检索回填、生成答案

3. 方案核心重点图片摘要不参与主检索，仅作为检索后的上下文补充，平衡检索稳定性与答案完整性。

unpackandroidrom：突破Android ROM解包技术壁垒的全栈解决方案

OData 入门与详解：从基础到企业

STM32F407 Keil工程：纯软件S曲线调速，驱动两相步进电机不丢步

ONNXRuntime CUDA性能优化揭秘：Gather算子如何用fast_divmod干掉除法瓶颈

告别IconFont！用Figma+LVGL Font Converter打造专属嵌入式图标系统

告别环境冲突！在Win11的Anaconda里为Sionna和TensorFlow/PyTorch创建独立工作区

3. 方案核心重点
图片摘要不参与主检索，仅作为检索后的上下文补充，平衡检索稳定性与答案完整性。