news 2026/6/3 15:37:25

大模型|大模型中的多模态RAG

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
大模型|大模型中的多模态RAG

🌞欢迎来到人工智能的世界
🌈博客主页:卿云阁

💌欢迎关注🎉点赞👍收藏⭐️留言📝

📆首发时间:🌹2026年6月3日🌹

✉️希望可以和大家一起完成进阶之路!

🙏作者水平很有限,如果发现错误,请留言轰炸哦!万分感谢!


目录

多模态 RAG 的三种方案

方案 1|多模态向量直接编码(CLIP 类)

方案 2|图片摘要化检索(纯摘要参与回答)

方案 3|摘要检索 + 原图留档(工业最常用)

图文混合文档的检索痛点

优化 - 索引构建

核心原理

技术流程

优化 - 检索结果处理

核心原理

技术流程

多模态 RAG 最终方案总结

核心原理

技术流程

多模态 RAG 的三种方案

多模态 RAG解决图文混排文档(PDF、图表、截图、PPT)的检索问答难题,依托图片编码 / 图

片摘要分化出三类落地架构,核心区别在:检索对象是原图向量还是图片摘要、生成答案阶段是否

传入原始图片。

方案 1|多模态向量直接编码(CLIP 类)

文本、图片统一转成同空间向量,原图入库、直接搜图片。

技术流程:文档拆分图文→图文分别做多模态 Embedding→同库存储→问题编码跨模态检索→原

文 + 原图送入多模态 LLM 作答。

方案 2|图片摘要化检索(纯摘要参与回答)

先用多模态大模型把图片翻译成文字摘要,只存摘要向量,检索、答题全靠摘要,不用原图。

技术流程:提取图片→多模态 LLM 生成图片文本摘要→摘要向量化入库→检索匹配摘要→仅凭摘

要 + 文本回答。

方案 3|摘要检索 + 原图留档(工业最常用)

检索用图片摘要提速,检索命中后调取原始图片,摘要 + 原图一同送入多模态大模型生成答案,

是方案 2 优化版。

技术流程:图片生成摘要→摘要 Embedding 入库(原图本地 / 对象存储留存索引)→问题检索摘

要→命中后拉取原图 + 摘要→多模态 LLM 结合图文作答。

方案一:存图向量,直接搜图

方案二:存摘要,只靠文字答题

方案三:搜摘要,答题再调原图


图文混合文档的检索痛点

图文文档检索核心痛点:绝大多数配图不能独立表意,语义依附图注、标题、前后正文、章节语

境;直接把图片剥离原文单独做向量编码或单独生成摘要,会丢失关键上下文语义,造成图片

Embedding、图片摘要信息片面,最终检索跑偏。

图片单独看不懂,单独检索就不稳

错误处理链路:PDF拆分后图文割裂,图片脱离原文单独向量化/生成摘要、单独入库,丢失图文

位置关联与语义绑定,是检索失效根源;

正确优化思路:文档解析保留图文排版顺序,图片生成摘要后将摘要嵌入所属原文片段,摘要

作为正文的组成部分参与分块、向量化与检索,绑定上下文语义。

两种经典方案各自痛点

1. 多模态向量方案:CLIP等模型仅提取画面视觉特征,图片缺少上下文→向量不含业务/文档

语义→跨模态检索不准;

2. 图片摘要方案:多模态LLM仅凭画面生成摘要,无正文信息→摘要笼统宽泛、缺失专属定义

→依托摘要检索命中率低。

多模态RAG优化重点≠单独处理图片,而是维系图片与文档上下文的关联关系。

画面信息完整、表意独立 → 可单独检索

图表/插图语义依附正文、图注 → 不可单独检索,必须绑定上下文


优化 - 索引构建

核心原理

摒弃孤立给图片建索引的方式,基于文档整体语境构建索引。将图文、表格、标题等关联内容

整合为整体模块,依托完整语义检索,解决配图脱离上下文导致的检索不准问题。

技术流程

1. 解析PDF,拆分出标题、文本、表格、图片等结构化元素;

2. 合并相邻关联元素,形成CompositeElement(综合文档块),保留文档完整结构;

3. 对综合文档块生成全局文本摘要,对摘要做Embedding;

4. 构建摘要向量索引,同时绑定原始文档块映射关系;

5. 检索时通过摘要匹配,精准定位完整图文文档块。


优化 - 检索结果处理

核心原理

放弃图片单独检索,同时不丢失图片信息。检索依靠整体文档摘要保证稳定性,检索命中文档

后,将提前生成的图片摘要精准回填到图片对应位置,补足图片语义。

技术流程

1. 离线预处理

解析PDF提取图片,为每张图片生成专属摘要,建立图片ID、原图路径与图片摘要的映射关系,提前储备图文信息。

2. 在线检索回填

1. 用户提问,检索文档整体摘要,命中完整结构化文档块(CompositeElement);

2. 匹配文档块中的图片ID,调取对应图片摘要;

3. 将摘要精准插回图片原始位置,不集中堆砌;

4. 形成图文融合的增强上下文,送入LLM生成答案。


多模态 RAG 最终方案总结

核心原理

文本负责找,图片负责补。

摒弃图片单独检索、图片摘要单独检索的方式,解决图文文档检索不准、信息丢失的问题。核心逻

辑:检索依靠文档整体语境,回答补充图片细节信息。

先通过文本、表格、文档整体摘要检索定位到完整的结构化文档块,再将提前生成的图片摘要回填

到文档原图位置,让大模型结合图文完整上下文理解内容、生成答案,既规避孤立图片检索的不稳

定性,又不丢失图片核心信息。

技术流程

1. 离线阶段:构建索引、储备图文信息

解析PDF拆分文本、表格、图片等元素,将关联元素合并为CompositeElement(结构化文档

块);对文档块的文本、表格生成整体摘要,做Embedding后存入向量库,绑定与原文档块的映射

关系;同时通过多模态大模型生成所有图片摘要,建立图片ID与图片摘要的映射。最终形成两类存

储:摘要向量库(用于检索)、图文资源库(用于补充信息)。

2. 在线阶段:检索回填、生成答案

用户提问后,检索文本/表格摘要索引,精准命中对应结构化文档块;检测文档块内的图片资源,

根据图片ID调取对应图片摘要,精准回填到图片原始位置,形成图文融合的增强上下文;最后由通

用文本大模型,结合完整上下文生成答案。


3. 方案核心重点
图片摘要不参与主检索,仅作为检索后的上下文补充,平衡检索稳定性与答案完整性。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/3 15:37:23

unpackandroidrom:突破Android ROM解包技术壁垒的全栈解决方案

unpackandroidrom:突破Android ROM解包技术壁垒的全栈解决方案 【免费下载链接】unpackandroidrom 爬虫解包 Android ROM 项目地址: https://gitcode.com/gh_mirrors/un/unpackandroidrom 在Android生态系统的碎片化环境中,ROM格式的多样性已成为…

作者头像 李华
网站建设 2026/6/3 15:36:28

OData 入门与详解:从基础到企业

OData(Open Data Protocol,开放数据协议)是ISO/IEC 20802和OASIS双认证的 RESTful API 国际标准,旨在为结构化数据的创建、查询、更新和删除提供统一的、可互操作的接口规范。它由微软于 2007 年首次提出,目前最新稳定版本为OData V4.01,已成为 SAP、微软、Salesforce 等…

作者头像 李华
网站建设 2026/6/3 15:35:59

STM32F407 Keil工程:纯软件S曲线调速,驱动两相步进电机不丢步

本文还有配套的精品资源,点击获取 简介:直接可用的STM32F407标准HAL库Keil工程,实现步进电机平滑S型加减速控制。核心逻辑在main.c中完成,通过定时器PWM输出精准脉冲,算法按时间分段动态计算每一步的延时间隔&#…

作者头像 李华
网站建设 2026/6/3 15:34:29

ONNXRuntime CUDA性能优化揭秘:Gather算子如何用fast_divmod干掉除法瓶颈

ONNXRuntime CUDA性能优化揭秘:Gather算子如何用fast_divmod干掉除法瓶颈在深度学习推理引擎的优化战场上,每微秒的延迟降低都意味着巨大的商业价值。当开发者使用ONNXRuntime部署模型时,很少有人会注意到底层那些精妙的数学魔术——比如Gath…

作者头像 李华
网站建设 2026/6/3 15:34:22

告别IconFont!用Figma+LVGL Font Converter打造专属嵌入式图标系统

告别IconFont!用FigmaLVGL Font Converter打造专属嵌入式图标系统在嵌入式开发领域,图标系统的构建往往面临两难选择:要么依赖在线服务如阿里巴巴IconFont,牺牲项目安全性和可控性;要么忍受手动管理位图的繁琐。本文将…

作者头像 李华