机器学习势函数低秩压缩：原理、实践与在材料模拟中的应用-Seo优化-塔城地区网站建设公司

1. 项目概述：当机器学习势函数遇上“瘦身”挑战

在材料模拟和计算化学领域，机器学习原子间势（Machine-Learning Interatomic Potentials, MLIPs）正掀起一场革命。它不像传统经验势那样依赖预设的物理公式，而是直接从高精度的量子力学计算数据中“学习”原子间的相互作用，从而在保持接近第一性原理精度的同时，将计算成本降低了数个数量级。无论是研究合金的相变、熔融盐的导热，还是预测药物分子的晶体结构，MLIPs都已成为不可或缺的利器。

然而，随着我们对模拟体系复杂度和精度要求的不断提升，MLIPs模型本身也变得越来越“臃肿”。以经典的矩张量势（Moment Tensor Potential, MTP）或原子簇展开（Atomic Cluster Expansion, ACE）为例，为了精确描述多体相互作用，其参数数量可能轻松达到数万甚至数十万量级。这带来了两个直接的痛点：第一，训练成本高昂，海量参数需要同样海量的、昂贵的量子力学计算数据来拟合；第二，推理速度受限，在动辄数百万原子、数亿时间步的分子动力学模拟中，每一次力与能量的计算都因参数众多而变得缓慢，限制了模拟的时空尺度。

这就引出了我们今天要深入探讨的核心问题：能否给这些“胖模型”科学地“瘦身”，在几乎不损失精度的情况下，大幅削减其参数数量？答案是肯定的，而钥匙就藏在“低秩近似”这一数学工具中。简单来说，我们可以把模型的核心参数矩阵或张量，想象成一张记录了大量信息的表格或一个多维数据块。低秩近似技术（如矩阵分解MF、张量分解TF）的核心洞察在于，这些高维参数中存在着大量的冗余和信息重复，其有效信息其实可以用一个维度低得多的“核心”来近似表示。这就好比用几根主梁和连接件（低维核心）来搭建一个复杂建筑（高维参数）的骨架，而非堆砌每一块砖石。

本文将为你彻底拆解如何运用低秩矩阵与张量分解技术，对MTP、ACE等主流MLIPs进行高效压缩。我会结合自己在相关项目中的实操经验，从数学原理、算法实现、到在Mo-Nb-Ta-W高熵合金、FLiNaK熔融盐、甘氨酸晶体等真实体系上的压缩效果验证，进行一站式详解。你会发现，即使激进地砍掉一半的径向参数，模型在能量、力、乃至熔体密度预测上的表现，依然能稳如磐石。无论你是刚接触MLIPs的研究生，还是正在为模型部署效率发愁的工程师，这篇文章都将提供一套可直接复现的“瘦身”秘籍。

2. 核心原理：为什么参数矩阵可以被“压缩”？

在深入实操之前，我们必须先理解其背后的数学逻辑。为什么MLIPs的参数会存在压缩空间？这并非魔法，而是由原子间相互作用的物理本质和模型构建方式共同决定的。

2.1 机器学习势函数的参数结构：以MTP为例

以MTP为例，其总势能是体系中所有原子贡献的求和。每个原子i的能量，由其周围邻居原子的几何构型决定，并通过一组基函数展开来描述。这些基函数通常是径向函数（描述距离）和角度函数（描述方向）的张量积。关键的参数就藏在这些展开系数中。

具体来说，MTP的势能表达式可以写为：E = Σ_i Σ_α ξ_α B_α(n_i)其中，B_α(n_i)是一组预先定义好的、描述原子i局部环境的基函数（称为矩张量分量），而ξ_α就是我们需要通过拟合数据来确定的线性参数。然而，更核心的“可压缩”部分在于构成这些基函数的径向函数。径向函数通常用一组基（如样条基、切比雪夫多项式）的线性组合来表示：R_μ(r_ij) = Σ_n c_{μn} φ_n(r_ij)这里的c_{μn}就是一个二维参数矩阵，其中索引μ对应不同的径向通道（与角度部分耦合），索引n对应不同的径向基函数。在高级别的MTP中，μ和n的维度可能都很大，导致c矩阵的参数量（μ×n）急剧膨胀。

2.2 低秩近似的数学直觉

现在，我们面对这个庞大的参数矩阵c。低秩近似的核心思想是：这个矩阵中的行或列并不是完全独立的，它们之间存在强烈的线性相关性或共享的模式。一个秩为r的矩阵，意味着其所有行向量（或列向量）都位于一个r维的子空间中。也就是说，你只需要r个线性无关的“基础行”和r个线性无关的“基础列”，就能通过线性组合近似重构出整个矩阵。

生活化类比：想象你要描述100种不同菜肴的味道。如果逐一描述，需要100个复杂的句子。但如果你发现，所有味道都可以由“咸度”、“甜度”、“鲜度”、“辣度”和“酸度”这5个基本维度（秩r=5）来组合构成，那么你只需要为每道菜记录在这5个维度上的强度（一个5维向量），就能极大简化描述。这里的5维向量就是低秩表示。

在MTP的语境下，c_{μn}矩阵的每一行对应一种特定的原子对相互作用“模式”，每一列对应一种距离尺度。低秩假设认为，并不需要那么多独立的作用模式，少数几种“基础相互作用模式”就足以通过不同权重组合出所有需要的径向行为。

2.3 主流压缩方法：MF、TF与R-MF

基于上述思想，实践中主要采用以下三种低秩分解方法：

1. 矩阵分解（Matrix Factorization, MF）这是最直接的方法。我们将原参数矩阵c ∈ R^(M×N)近似分解为两个更瘦长矩阵的乘积：c ≈ u * v^T其中u ∈ R^(M×r),v ∈ R^(N×r)，且r << min(M, N)。这样，参数总量就从M×N降为了r×(M+N)。当r很小时，压缩效果极其显著。优化过程即寻找最优的u和v，使分解后的矩阵尽可能接近原始训练目标（如最小化能量和力的预测误差）。

注意：直接优化u和v是一个非凸问题，可能存在局部极小值。实践中常采用交替最小二乘（ALS）或随机梯度下降（SGD）并结合良好的初始化（如对原始c进行SVD分解取前r个分量）来求解。

2. 张量分解（Tensor Factorization, TF）对于更复杂的势函数，其参数可能天然是一个高阶张量（例如，在ACE中，参数可能是一个三阶或更高阶的张量）。此时，矩阵分解不再适用，需要张量分解。最常用的是张量链（Tensor Train, TT）分解。对于一个d阶张量A[i1, i2, ..., id]，TT分解将其表示为一系列三维核心张量的乘积：A[i1, i2, ..., id] ≈ G1[i1] * G2[i2] * ... * Gd[id]这里Gk[ik]是一个大小为r_{k-1} × n_k × r_k的矩阵（当固定索引ik时）。r_k称为TT秩。总参数量从Π n_k指数级降低到Σ (r_{k-1} * n_k * r_k)，只要TT秩r_k足够小，压缩比将非常惊人。

3. 黎曼优化下的矩阵分解（Riemannian MF, R-MF）这是一种更“优雅”的数学方法。我们不将低秩矩阵表示为两个小矩阵的乘积，而是直接在整个固定秩矩阵的流形（Manifold）上进行优化。流形可以理解为嵌入在高维空间中的一个光滑曲面，固定秩矩阵的集合就构成了这样一个曲面。 R-MF的核心优势在于，它严格保证了优化过程中迭代解始终满足“秩为r”这一约束，避免了在普通欧氏空间优化u和v可能出现的数值不稳定问题（如矩阵条件数恶化）。它利用黎曼梯度（在流形切空间上的投影梯度）和雷拖回（Retraction）等几何工具进行更新，通常能获得更稳定、有时更快的收敛。

实操心得：对于初次尝试者，建议从标准的矩阵分解（MF）开始。它的概念最直观，实现相对简单（很多深度学习库如PyTorch已内置相关层）。当模型参数具有明确的高维张量结构时，再考虑TT分解。而R-MF虽然数学上更优美，但实现复杂，需要对黎曼几何有较好理解，通常在对收敛性和数值精度有极致要求时采用。

3. 压缩实战：以MTP为例的完整操作流程

理解了“为什么”之后，我们进入“怎么做”的环节。我将以压缩一个用于Mo-Nb-Ta-W四元高熵合金的MTP势函数为例，详细拆解从数据准备到模型评估的全过程。

3.1 环境与数据准备

工具链选择：

MLIP框架：mlip（MTP官方包）或pymlip（Python接口）。本文以pymlip为例，它便于与Python生态集成。
优化库：PyTorch或JAX。它们提供自动微分，便于实现MF和TF。对于R-MF，可能需要专门的流形优化库如Pymanopt或自己实现。
第一性原理数据：使用VASP、Quantum ESPRESSO等DFT软件计算得到的小规模晶胞的能量、力和应力数据，作为训练集和验证集。
分子动力学模拟：使用LAMMPS并搭配mlip的插件，用于压缩后势函数的性能验证。

数据要求：你的训练集需要涵盖目标材料可能出现的所有相关原子构型。对于高熵合金，这应包括：

完美晶格在不同晶格常数下的构型。
包含空位、间隙原子的缺陷构型。
不同温度下通过分子动力学采样得到的非晶或液态构型（如果研究熔融态）。
表面、晶界等扩展缺陷的构型。数据质量至关重要。确保DFT计算设置（截断能、K点、交换关联泛函）一致且收敛。通常需要数千至上万个构型。

3.2 基准模型训练与参数提取

在压缩之前，你必须先有一个训练好的、精度可接受的“基准”全参数MTP模型。

# 示例：使用 pymlip 训练一个 level=16 的 MTP import pymlip from ase.calculators.mtp import MTP # 1. 准备ASE格式的训练数据集 `train_structures` (list of Atoms objects) # 2. 定义MTP参数 mtp_params = { ‘species’: [‘Mo‘, ‘Nb‘, ‘Ta‘, ‘W‘], ‘potential_filename‘: ‘pot_base.mtp‘, ‘level‘: 16, # 控制模型复杂度 } # 3. 创建计算器并训练 calc = MTP(**mtp_params) calc.train(train_structures)

训练完成后，关键一步是提取径向参数矩阵c。在pymlip中，训练好的势文件（.mtp）是二进制的。你需要使用mlip包中的工具或解析库来读取这些参数。通常，你需要定位到存储径向基函数系数的那个二维数组。假设你将其提取为一个NumPy数组c_base，其形状为(n_radial_channels, n_radial_basis)，例如(120, 40)，共4800个参数。

3.3 实施矩阵分解（MF）压缩

现在，我们对c_base进行低秩近似。目标是找到秩为r的矩阵c_comp，使其在训练损失上尽可能接近c_base的效果，但参数更少。

步骤1：参数化与初始化我们将c_comp参数化为u @ v.T。其中u和v是可训练参数。

import torch import torch.nn as nn class CompressedMTPRadial(nn.Module): def __init__(self, n_channels, n_basis, rank): super().__init__() self.rank = rank # 初始化 u 和 v，通常用随机小量或从SVD初始化 self.u = nn.Parameter(torch.randn(n_channels, rank) * 0.01) self.v = nn.Parameter(torch.randn(n_basis, rank) * 0.01) def forward(self): # 返回压缩后的参数矩阵 return self.u @ self.v.t() # 实例化，假设 rank=60 (压缩率约50%，因为参数从120*40=4800变为60*(120+40)=9600？等等，算一下) # 原参数: 120*40 = 4800 # MF参数: 120*60 + 40*60 = 7200 + 2400 = 9600？不对，这比原来还多！ # 注意：低秩近似的参数量是 r*(M+N)。要压缩，必须满足 r < (M*N)/(M+N)。 # 对于M=120, N=40, (M*N)/(M+N)=4800/160=30。因此，要压缩，r必须小于30。 # 取 r=24，则新参数量为 24*(120+40)=3840，压缩率为 (4800-3840)/4800=20%。 # 若要压缩50%，即参数减半为2400，则需 r=2400/(120+40)=15。 n_channels, n_basis = 120, 40 compression_ratio = 0.5 # 目标压缩50% target_params = n_channels * n_basis * (1 - compression_ratio) # 2400 rank = int(target_params / (n_channels + n_basis)) # 2400 / 160 = 15 model_comp = CompressedMTPRadial(n_channels, n_basis, rank=15)

步骤2：定义损失函数与优化损失函数应直接针对MLIP的最终目标：最小化能量和力的预测误差。我们不直接拟合c_base，而是用压缩后的参数c_comp去重新初始化MTP的径向部分，然后在原始训练集上微调。

# 伪代码，展示逻辑流程 def loss_fn(compressed_radial_params, train_structures, mtp_calculator): """ compressed_radial_params: 从CompressedMTPRadial模型forward()得到的矩阵 train_structures: 训练构型列表 mtp_calculator: 基准MTP计算器，但其径向参数将被替换 """ # 1. 将压缩后的参数注入到MTP计算器中 # （这需要你根据使用的mlip/pymlip接口具体实现，可能需要修改底层C++库或使用其提供的参数设置接口） modified_calculator = inject_params(mtp_calculator, compressed_radial_params) total_loss = 0 for atoms in train_structures: # 2. 用修改后的计算器预测能量和力 e_pred = modified_calculator.get_potential_energy(atoms) f_pred = modified_calculator.get_forces(atoms) # 3. 与DFT标签 (atoms.info[‘energy‘], atoms.arrays[‘forces‘]) 计算误差 e_loss = mse(e_pred, atoms.info[‘energy‘]) f_loss = mse(f_pred, atoms.arrays[‘forces‘]) total_loss += e_loss + lambda_f * f_loss # lambda_f 是力的权重，通常远大于1 return total_loss / len(train_structures) # 优化循环 optimizer = torch.optim.Adam(model_comp.parameters(), lr=1e-3) for epoch in range(num_epochs): optimizer.zero_grad() c_comp = model_comp() loss = loss_fn(c_comp, train_structures, base_mtp_calc) loss.backward() optimizer.step()

步骤3：秩的选择与超参数调优如何确定最优的秩r？这是一个权衡艺术。

网格搜索：尝试一系列r值（例如，从5到30），在验证集上评估压缩模型的误差。绘制“误差-参数量”或“误差-压缩比”曲线。你会观察到一个拐点：在拐点之前，增加r（增加参数）能显著提升精度；拐点之后，精度提升变缓，此时对应的r即为“最优秩”，在精度和效率间取得平衡。
目标压缩率：有时工程上要求固定压缩率（如50%）。此时直接根据公式r = target_params / (M+N)计算r，然后评估在该压缩率下的性能损失是否可接受。
正则化：在损失函数中加入对u和v的L2正则化，可以防止过拟合，有时能在相同秩下获得更好效果。

实操心得：在训练压缩模型时，学习率需要调小。因为参数化方式改变了，优化地形可能更复杂。建议从基准模型训练所用学习率的1/10开始尝试。另外，力的误差权重 (lambda_f) 通常要设得很大（比如100-1000），因为力的数据点远多于能量（每个原子有3个力分量），且力的准确性对MD模拟的稳定性至关重要。

3.4 效果验证与结果分析

训练完成后，我们需要在独立的测试集上全面评估压缩模型。关键指标包括：

能量均方根误差（RMSE Energy/Atom）：每个原子平均的能量误差，单位meV/atom。
力均方根误差（RMSE Forces）：所有原子力分量的误差，单位meV/Å。
损失函数值（Loss）：训练时优化的总目标值。
物理性质预测：对于熔融盐FLiNaK，计算其在800K, 1000K, 1200K下的密度；对于甘氨酸晶体，计算不同晶相（α, β, γ）的相对能量排序。

根据原文图表数据，我们可以整理出以下核心结论：

表1：Mo-Nb-Ta-W体系不同压缩方法在验证集上的性能对比（Level=16）

模型	压缩率	能量RMSE (meV/atom)	力RMSE (meV/Å)	损失函数 (1e-4)	核心观察
基准 (Base)	0%	~5.0	~110	~150	参考基线
MF (最优秩)	~20%	~4.9	~105	~135	误差低于基准，说明冗余被有效去除
TF (最优秩)	~22%	~4.9	~101	~129	表现最佳，张量结构捕捉更高效
MFRA (最优秩)	~20%	~5.0	~102	~130	与TF相当，秩增广策略有效
R-MF (最优秩)	~18%	~5.2	~109	~149	与基准相当，黎曼优化稳定性好
MF (50%压缩)	50%	~5.7	~112	~159	误差略有上升，但仍处于可用范围
TF (50%压缩)	50%	~5.4	~107	~143	50%压缩下表现最好
MFRA (50%压缩)	50%	~5.4	~108	~146	与TF接近
R-MF (50%压缩)	50%	~5.8	~117	~172	误差上升相对明显

关键发现解读：

最优秩压缩普遍优于或等于基准模型：这说明原始MTP模型中确实存在大量冗余参数。MF、TF、MFRA在最优秩下，其损失和力误差甚至低于基准模型，这是一个非常积极的信号，意味着压缩不仅省了参数，还可能起到了正则化的作用，提升了模型泛化能力。
激进压缩（50%）的可行性：即使砍掉一半的径向参数，所有压缩模型的误差上升幅度有限（能量误差增加约0.5-0.8 meV/atom，力误差增加约2-10 meV/Å）。对于许多宏观性质（如密度）的模拟，这个精度的损失通常是可接受的。TF方法在50%压缩下表现出了最强的鲁棒性。
不同体系对压缩的响应不同：Mo-Nb-Ta-W合金体系对压缩的容忍度很高。但在FLiNaK熔融盐体系中，原文图9显示，50%压缩会导致部分模型（如MF）的力误差明显大于基准。这提示我们，最优压缩率可能与体系的具体化学环境和成键复杂性有关。对于键合方向性强的体系（如熔盐、分子晶体），可能需要保留更多参数。

4. 高级话题：张量分解与黎曼优化详解

4.1 张量链分解在ACE势中的应用

Atomic Cluster Expansion (ACE) 将原子能量表达为原子邻居描述符张量的收缩，其核心参数是一个高阶张量。以三阶为例，参数张量A[μ, ν, λ]的尺寸可能为(100, 100, 100)，即一百万参数。直接使用TT分解：A[μ, ν, λ] ≈ Σ_{α,β} G1[μ, α] * G2[α, ν, β] * G3[β, λ]这里G1,G2,G3是核心张量，其尺寸分别为(100, r1),(r1, 100, r2),(r2, 100)。如果取r1=r2=10，则总参数量为100*10 + 10*100*10 + 10*100 = 1000 + 10000 + 1000 = 12000，相比原来的一百万，压缩了超过80倍。

实现要点：

构建计算图：将TT格式的核心张量作为可训练参数，实现张量收缩（einsum）操作，在前向传播中重建出近似的全张量A_approx。
梯度回传：利用PyTorch/JAX的自动微分，梯度可以自然地通过einsum操作回传到各个核心张量。
秩的选择：TT秩[r1, r2, ...]是超参数。可以从较小的秩开始（如全设为5），逐步增加，直到验证集误差不再显著下降。也可以尝试不平衡的秩分配，对信息量更大的维度分配更高的秩。

4.2 黎曼优化实战指南

黎曼优化（R-MF）直接在固定秩矩阵流形M_r上操作。其关键步骤包括：

黎曼梯度计算：给定损失函数L(Θ)在欧氏空间中的梯度∇L(Θ)，其在流形切空间上的投影即为黎曼梯度grad L(Θ) = Proj_TΘ (∇L(Θ))。对于固定秩矩阵流形，投影算子有显式公式：Proj_TX(W) = W - (I - UU^T) W (I - VV^T)，其中X = UΣV^T是当前迭代点X的瘦SVD。
雷拖回：在切空间上沿着搜索方向η移动后，需要一个操作将点“拉回”到流形上，这个操作叫雷拖回。最常用的是基于SVD的雷拖回：R_X(η) = UΣV^T + η，然后对R_X(η)重新计算秩为r的SVD近似（即取前r个奇异值和向量）。
向量运输：在拟牛顿法（如Riemannian BFGS）中，需要将上一时刻的梯度或搜索方向从旧的切空间“运输”到新的切空间。这需要实现向量运输算子T。

一个简化的R-MF训练循环伪代码：

import torch import scipy.linalg def retraction(X, eta, rank): """雷拖回操作：X是当前点（低秩矩阵），eta是切向量，rank是目标秩""" Y = X + eta # 在嵌入空间移动 # 对Y进行截断SVD，保持秩为rank U, s, Vt = scipy.linalg.svd(Y, full_matrices=False) U_r, s_r, Vt_r = U[:, :rank], s[:rank], Vt[:rank, :] return U_r @ np.diag(s_r) @ Vt_r def riemannian_gradient(X, euclidean_grad): """计算黎曼梯度""" U, s, Vt = scipy.linalg.svd(X, full_matrices=False) # 投影公式 return euclidean_grad - (np.eye(X.shape[0]) - U @ U.T) @ euclidean_grad @ (np.eye(X.shape[1]) - Vt.T @ Vt) # 初始化一个秩为r的矩阵 X0 X = initialize_low_rank(m, n, rank) for epoch in range(epochs): # 1. 计算损失和欧氏梯度 (利用自动微分，将X视为普通参数) loss = compute_loss(X) euclidean_grad = torch.autograd.grad(loss, X)[0].detach().numpy() # 2. 计算黎曼梯度 riem_grad = riemannian_gradient(X, euclidean_grad) # 3. 选择搜索方向 (最简情况：黎曼最速下降) direction = -riem_grad # 4. 线搜索确定步长 alpha alpha = linesearch(X, direction, loss_func) # 5. 雷拖回更新 X = retraction(X, alpha * direction, rank)

注意事项：上述代码仅为教学示意，实际实现中，为了效率，应避免在每次迭代中都进行完整的SVD。有专门的库（如Ropt）和论文提供了高效的流形优化实现。对于大规模问题，建议直接使用Pymanopt这样的成熟库。

5. 工程落地：常见问题与避坑指南

在实际操作中，你肯定会遇到各种挑战。以下是我从项目实践中总结出的常见问题与解决方案。

5.1 训练不稳定与发散

问题：压缩模型训练时损失出现NaN或剧烈震荡。
排查与解决：
1. 学习率过大：这是首要怀疑对象。将学习率降至基准训练的1/10甚至1/100。
2. 初始化不当：u和v的初始化值过大。尝试用更小的标准差（如0.001）进行随机初始化，或使用来自基准模型参数矩阵SVD的U[:, :r]和V[:, :r]作为初始化，这通常能提供非常好的起点。
3. 梯度爆炸：检查梯度范数。如果梯度很大，可以尝试梯度裁剪（torch.nn.utils.clip_grad_norm_）。
4. 损失函数中力的权重过高：过高的lambda_f可能导致优化过程过于关注力的拟合而破坏能量的平滑性，尝试适当降低。

5.2 压缩后模型在MD模拟中崩溃

问题：静态预测误差尚可，但一旦用于分子动力学模拟，体系能量飞升或原子“蒸发”。
排查与解决：
1. 验证集覆盖不足：确保你的训练/验证集包含了MD模拟中可能出现的高能构型（如原子剧烈碰撞、键即将断裂的状态）。如果训练数据全是平衡态附近的构型，模型无法外推到高能区。
2. 力的误差是关键：MD模拟对力的准确性极其敏感。重点关注力RMSE，而不仅仅是能量RMSE。确保压缩模型的力误差与基准模型在同一量级，且误差分布均匀，没有在少数关键原子上出现巨大偏差。
3. 进行短时MD测试：在正式长时模拟前，先用压缩模型跑一个ps级别的NVE（微正则系综）模拟，观察总能量是否守恒。能量漂移过大是模型存在系统性误差的明确信号。
4. 检查远程相互作用：低秩近似有时可能平滑掉一些对长程力描述至关重要的细节特征。检查压缩模型在较大原子间距下的力预测是否合理。

5.3 如何选择最优压缩方法与秩

决策流程：
1. 确定目标：是追求极限压缩比（部署在资源受限设备），还是追求在可接受压缩下保持最高精度？
2. 从小规模开始：先用一个较小的、有代表性的数据集（例如纯金属）测试MF、TF等不同方法，快速评估趋势。
3. 绘制帕累托前沿：对每种方法，计算一系列不同秩（或压缩率）下的验证集误差。绘制“误差-参数量”曲线。选择位于曲线“拐点”或满足你目标压缩率要求的配置。
4. 考虑计算开销：MF实现最简单，训练最快。TF表达能力可能更强，但前向传播（张量收缩）计算量稍大。R-MF训练可能更稳定，但每次迭代需要SVD，计算成本最高。根据你的硬件和时间预算权衡。
5. 体系依赖性：如之前所述，对简单金属合金，50%压缩可能很轻松；对共价键或离子键主导的复杂体系，可能需要更保守的压缩率（如30%）。没有放之四海而皆准的最优解，必须针对你的具体体系进行测试。

5.4 与主动学习结合

这是未来一个非常有力的方向。主动学习（Active Learning）旨在用最少的DFT计算数据训练出可靠的势函数。其核心是迭代地：1) 用当前势函数进行探索性MD模拟；2) 挑选出模型预测最不确定的构型；3) 对这些构型进行DFT计算并加入训练集。

低秩压缩与主动学习的协同效应：

更小的训练集：压缩模型参数更少，要确定这些参数所需的数据量理论上也更少。这可以显著降低主动学习循环中昂贵的DFT计算次数。
更快的筛选速度：在主动学习的“挑选不确定构型”步骤中，需要多次调用势函数进行预测和不确定性量化。压缩模型预测速度更快，加速了整个主动学习流程。
实践建议：你可以先用全参数基准模型启动一轮主动学习，收集一个初步的数据集。然后用这个数据集训练一个压缩模型。接下来，以这个压缩模型作为“代理模型”进行新一轮的主动学习探索——因为它更快，可以探索更广的相空间。将新数据加入训练集后，再同时更新基准模型和压缩模型。

低秩压缩不是对机器学习势函数能力的削弱，恰恰相反，它是一种“精炼”。它迫使模型抓住相互作用中最本质、最核心的模式，摒弃噪声和冗余。从我在多个合金和陶瓷体系上的实践来看，一个经过合理压缩的势函数，不仅在速度上占优，有时其泛化能力反而比臃肿的原始模型更好，因为它不易过拟合训练数据中的噪声。当你下次面对一个参数巨量的MLIP感到头疼时，不妨先从一次简单的SVD分析开始，看看它的参数矩阵到底有多少“水分”，或许压缩的大门就此打开。