news 2026/6/29 20:32:38

上海AI Lab:多模态生物基础模型BioMatrix

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
上海AI Lab:多模态生物基础模型BioMatrix

📖标题:BioMatrix: Towards a Comprehensive Biological Foundation Model Spanning the Modality Matrix of Sequences, Structures, and Language
🌐来源:arXiv, 2606.22138

🛎️文章简介
🔸研究问题:如何在单一架构中原生整合分子/蛋白质的序列、结构和自然语言三种模态,实现跨模态跨实体的统一生物智能?
🔸主要贡献:论文提出BioMatrix,在单一decoder-only架构中原生整合分子序列、分子结构、蛋白质序列、蛋白质结构和自然语言五种模态的多模态生物基础模型,在80个任务中的77个达到SOTA或竞争力水平。

📝重点思路
🔸统一多模态分词方案:将分子序列(SMILES和SELFIES)、分子三维结构(基于MolStrucTok的分支解耦解码器+向量量化)、蛋白质序列(氨基酸token)、蛋白质结构(GCP-VQVAE结构编码器+向量量化)和自然语言映射到共享离散token空间,所有模态在统一下一token预测目标下消费和生成,无需外部编码器或适配器。
🔸大规模持续预训练:基于Qwen3(1.7B和4B)构建,使用3044亿token的预训练语料,涵盖通用文本(105.3B)、分子数据(73.7B)、蛋白质数据(77.4B)和跨实体交互数据(48.0B),包括交错生物医学文本和分子-蛋白质/蛋白质-蛋白质相互作用数据。
🔸指令微调统一框架:将80个下游任务分为6大类(分子1D/3D任务、蛋白质1D/3D任务、交互任务),通过统一指令格式和多样化提示词进行微调,使通常架构不同的任务(如描述生成、文本条件设计、折叠、逆折叠等)成为同一下一token目标下的不同条件生成模式。
🔸嵌入初始化策略:对无自然语言对应的新增token(如SELFIES原子token、VQ码本索引),使用原始token字符串自身作为描述进行嵌入初始化,无需额外训练或辅助模型。

🔎分析总结
🔸SMILES与SELFIES互补而非可替代:SELFIES在需要结构有效性的任务(无条件生成、分子优化)中占优,SMILES在需要表面结构锚定的任务(定制分子生成、逆合成)中更强,两者在属性预测等任务中表现相当。
🔸参数扩展效果异质性:从1.7B扩展到4B在知识密集型任务(分子名称转换、文本生成、知识挖掘)上带来显著提升,但在已饱和任务(无条件生成、属性预测)上增益有限,少数小数据任务甚至出现反扩展现象。
🔸原生多模态优势集中体现在跨模态和跨实体任务:在单模态单实体任务上与专用模型持平,但在属性条件构象生成、文本分子生成、序列-结构协同生成、结构约束亲和力预测等跨模态/跨实体任务上显著超越专用基线。
🔸分词是精细3D几何的瓶颈:在分布级或骨架拓扑级任务上匹配或超越扩散模型,但在逐原子几何精度上仍有差距,主要源于有限码本的量化误差和自回归坐标重建,而非语言模型学习能力不足。
🔸蛋白质残基对齐分词使折叠和逆折叠成为严格对称对偶:通过保持氨基酸token与结构token的一对一对应,无需专门架构设计即可在逆折叠上达到SOTA氨基酸恢复率。

💡个人观点
论文实现了分子和蛋白质在序列、结构、语言三种模态上的原生统一建模。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/29 20:29:52

软件追踪管理中的分布式跟踪

在当今复杂的微服务架构中,一个用户请求可能跨越数十个服务节点,传统的单体应用监控方式已无法满足需求。分布式跟踪技术应运而生,它像一张数字地图,完整记录请求在分布式系统中的流转路径,帮助开发者快速定位性能瓶颈…

作者头像 李华
网站建设 2026/6/29 20:25:18

破解成本壁垒:MAZAK CNC数据采集实战指南——从Smart、Smooth到Matrix与640系列

1. 马扎克CNC数据采集的痛点与破解思路 第一次接触马扎克机床数据采集项目时,我被官方8000元的MT协议授权费吓了一跳。这个价格对于中小型企业来说确实是个不小的负担,特别是车间里有好几台不同型号马扎克设备的时候。经过多次实战,我发现其实…

作者头像 李华
网站建设 2026/6/29 20:20:45

Agent OS :五种驯服不确定性的范式

本文核心论点:Agent 面临的不确定性有 6 个来源,其中 3 个——概率性主体、窗口约束、假设腐化——是在传统系统中较少遇见(或者未遇见)的。但好消息是:计算机 70 年历史已在 10 个领域积累了成熟的对抗经验。我们可以…

作者头像 李华