news 2026/6/30 20:45:33

利用混合语境生成长视频的创新!高效的语境保存和高精度生成

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
利用混合语境生成长视频的创新!高效的语境保存和高精度生成

概述

这项研究旨在解决长时间视频生成中的最大难题:长期上下文保存。

传统的扩散变换器(Diffusion Transformer)基于自注意机制,很难生成数分钟规模的视频,因为计算复杂度会随着序列长度的增加而平方增加。
以前的方法对历史记录进行压缩或固定减薄,但存在细节缺失和重要背景缺失等问题。

因此,作者将视频生成重新表述为一个 "内部信息检索 "问题,并提出了一个框架,该框架只动态引用每次查询的相关历史记录。
在这一框架中,视频被分为帧或镜头,每次查询都会选择最有意义的上下文。

此外,字幕和本地镜头信息始终被用作基本参考点,从而保证了叙事的连续性和主题的一致性。
结果表明,该系统即使在几分钟的长视频中也能保持较高的准确性和一致性,同时大大降低了计算复杂度。

建议的方法

我们提出的方法,即上下文混合法(MoC),是一种动态上下文选择机制,而不是完全计算自我注意力。

首先,视频被分割成语义一致的片段,如帧、镜头和字幕。
然后,每次查询都会计算均值池所代表的块的特征向量和内积,并选择前 k 个最相关的块进行注意力计算。

此外,它还引入了一种设计,即始终将所有字幕标记作为基本链接与同一镜头内的所有标记相连接,从而在确保本地保真度的同时,将计算资源集中在重要的远距离依赖关系上。
此外,通过强制执行时间方向上的因果关系,避免了循环结构,从而使生成过程不会中断。

这种机制减少了 85% 以上的计算浪费,同时保持了主题的一致性和操作的连续性。
与传统的压缩和固定稀疏化相比,它的特点是灵活和可学习的上下文选择。

实验

作者进行了单镜头和多镜头视频生成实验,以证实所提方法 MoC 的有效性。

现有的长文本生成方法 LCT 被用作基础模型,MoC 取代了它的自注意层,以进行比较。
使用 VBench 进行评估,评估指标包括主体一致性、背景一致性、动作流畅性和动态程度。

结果表明,在短视频中保持与密集自我注意相同或更高精度的同时,长视频的计算量减少到了七分之一以下,生成速度提高了 2.2 倍。
特别是在动作的多样性和场景的一致性方面都有所改进,克服了传统方法因信息压缩而导致的性能下降问题。

此外,MoC 在零镜头实验中表现出很高的稳定性,证实了它对其他扩散模型的适用性。
这些结果表明,MoC 在生成长视频方面既高效又富有表现力。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/27 9:20:11

百度网盘直链解析工具:告别龟速下载的终极解决方案

还在为百度网盘几十KB的下载速度而苦恼吗?这款开源直链解析工具正是你需要的救星!它能将普通分享链接转化为真实下载地址,配合专业下载工具实现全速下载,让你真正发挥网络带宽的潜力。 【免费下载链接】baidu-wangpan-parse 获取百…

作者头像 李华
网站建设 2026/6/30 17:35:48

全面讲解Arduino Uno与WiFi模块构建智能插座

用Arduino Uno和WiFi模块亲手打造一个智能插座:从零开始的物联网实战你有没有想过,花不到一百块钱,就能做出一个能用手机控制家里电灯、风扇甚至咖啡机的“智能插座”?听起来像是高科技产品,其实只要一块Arduino Uno、…

作者头像 李华
网站建设 2026/6/29 21:16:44

NVIDIA Profile Inspector实战指南:显卡性能深度调优

NVIDIA Profile Inspector实战指南:显卡性能深度调优 【免费下载链接】nvidiaProfileInspector 项目地址: https://gitcode.com/gh_mirrors/nv/nvidiaProfileInspector 还在为游戏画面撕裂、帧率不稳而困扰吗?想要彻底释放显卡潜力却不知从何下手…

作者头像 李华
网站建设 2026/6/30 17:26:49

LeagueAkari终极指南:5分钟掌握英雄联盟最强辅助工具

想要在英雄联盟中获得更好的游戏体验吗?LeagueAkari这款基于LCU API开发的免费开源工具,为玩家提供了从战绩查询到自动选择的完整解决方案。无论你是职业选手还是休闲玩家,这款功能全面的英雄联盟工具集都能显著提升你的游戏效率。 【免费下载…

作者头像 李华