2024 Nature:AI 模型如果反复吃自己的输出,为什么会“模型坍塌”?
1. Paper Information
今天读的是 Nature 论文AI models collapse when trained on recursively generated data。
- Paper: AI models collapse when trained on recursively generated data
- Journal: Nature 631, 755-759 (2024)
- DOI: https://doi.org/10.1038/s41586-024-07566-y
- Official link: https://www.nature.com/articles/s41586-024-07566-y
- Core question: 当未来模型的训练数据里混入大量前代模型生成内容时,模型会不会越训越偏?
这篇论文最值得讲的地方,不是“AI 生成内容质量差”这么简单,而是一个更结构化的问题:如果第 2 代模型训练在第 1 代模型生成的数据上,第 3 代再训练在第 2 代输出上,如此循环,真实世界分布里的长尾信息会怎样?
论文给出的答案是:会出现model collapse(模型坍塌)。它不是单次训练失败,而是递归训练过程里逐步发生的分布退化。
2. Why is the old route not enough?
过去大模型扩展时,一个常见直觉是:数据越多越好。只要互联网上还能继续抓取文本、图像、代码,模型就可以继续扩大训练集。
但生成式 AI 普及以后,这个前提开始变得不稳。公开网络内容里越来越多样本可能本来就是模型生成的。如果这些内容没有来源标记,又被后续训练流程当成自然数据,训练集就会出现一个闭环:
真实数据训练模型 -> 模型生成内容进入网络 -> 新模型把这些内容当成真实数据继续训练。
问题在于,模型生成样本不是原始分布本身,而是模型对原始分布的近似。每一次近似都会带来误差;递归多代之后,误差不只是累加,而会改变数据分布的形状。
最先受伤的通常不是高频模式,而是低频、罕见、但真实存在的模式,也就是分布尾部。
3. Core method
论文把这个过程形式化为“递归生成数据训练”。设真实数据来自原始分布,第一代模型学到一个近似分布。之后的新训练集不再只来自真实世界,而是越来越多来自上一代模型的输出。
直观地说,模型每一代都在回答:
我看到的训练数据是什么样,我就把世界学成什么样。
如果上一代模型没有生成足够多的长尾样本,下一代就会以为这些样本不重要,甚至不存在。再下一代继续在这个变窄的分布上训练,长尾就更难回来。
这就是模型坍塌的核心机制:模型不是突然坏掉,而是在递归训练中逐步忘掉真实世界的多样性。
4. Mechanism breakdown
可以把递归训练想成三层误差:
第一层是采样误差。真实分布里本来就少见的样本,在模型生成样本里更容易缺席。
第二层是估计误差。下一代模型会把上一代样本的缺失理解成真实规律,而不是采样不足。
第三层是闭环放大。缺失一旦进入训练分布,就会被下一代继续复制,导致分布越来越窄。
一个关键点是:平均质量看起来可能还不错,但长尾已经被抹掉。比如一个语言模型仍能写出流畅句子,却越来越倾向于重复常见表达,少见观点、少见语体、少数群体表述和罕见事实更容易消失。
4.1 Formula lens
论文中可以用一个简化的混合训练直觉来理解风险。第 (i+1) 代训练分布可以看成真实数据、历史数据和模型生成数据的混合:
pi+1=αipθi+βipi+γip0,αi+βi+γi=1 p_{i+1} = \alpha_i p_{\theta_i} + \beta_i p_i + \gamma_i p_0,\quad \alpha_i+\beta_i+\gamma_i=1pi+1=αipθi+βipi+γip0,αi+βi+γi=1
这里 (p_0) 表示原始真实数据分布,(p_i) 表示第 (i) 代训练数据分布,(p_{\theta_i}) 表示第 (i) 代模型生成的分布。关键是 (\alpha_i):如果模型生成数据占比越来越高,而 (\gamma_i) 代表的新鲜真实数据补给很低,训练过程就更容易进入闭环。
论文的理论分析还指出,在某些高斯设置中,递归训练会让分布方差收缩,模型越来越确信一个更窄的世界:
Σn→0 \Sigma_n \rightarrow 0Σn→0
这里 (\Sigma_n) 可以理解为第 (n) 代模型分布的方差结构。它趋近 0 的直觉是:模型样本越来越集中,多样性越来越少,长尾越来越难保留。
这两个公式都指向同一个解释:模型坍塌不是因为“模型不会生成”,而是因为生成分布被反复当作真实分布,导致训练信号越来越贫血。
5. How to read the experiments?
论文用不同设置展示同一个现象:当训练数据递归来自模型输出,分布会退化。
在简单分布实验中,模型会先丢掉尾部,再向更窄的模式集中。在图像或生成模型实验中,样本多样性下降。在语言模型相关实验中,生成文本会变得更重复,错误模式也可能被复制。
这里最重要的不是某个单一指标,而是证据方向一致:模型生成内容如果没有来源控制,会把训练集从“真实世界样本”变成“模型对真实世界的二手摘要”。摘要再被摘要,最后细节就没了。
6. Engineering or research implications
这篇论文对模型训练的启发很直接。
第一,数据来源谱系需要被记录。训练样本最好知道它来自人类、传感器、仿真系统,还是某个模型版本。
第二,合成数据需要被当作特殊数据源管理,而不是默认等价于真实数据。合成数据可以有价值,尤其在稀缺任务、隐私约束或可控增强里,但它需要过滤、配比和验证。
第三,训练集要保护长尾。只看平均质量、困惑度或主流 benchmark,可能发现不了少数模式正在消失。
第四,持续训练要注入新鲜真实数据。递归闭环最危险的地方,是模型以为自己看见了世界,其实只是在看前代模型留下的影子。
7. Do not overinterpret
这篇论文不等于“合成数据不能用”。更准确的边界是:
合成数据如果有明确来源、质量过滤、任务验证,并且和真实数据合理混合,仍然可以提升训练效率。
风险来自另一种场景:网络内容被 AI 大规模改写,来源标记缺失,后续模型又把这些内容当作自然数据无差别吸收。这个场景下,数据集看似变大,真实信息量却可能变少。
所以模型坍塌不是一个只属于实验室的概念。它提醒我们,未来 AI 训练的瓶颈可能不只是算力,也不只是数据量,而是数据生态能否持续保留真实、多样、可追踪的信号。
8. One-sentence summary
模型坍塌最值得记住的一句话是:AI 生成数据可以是工具,但不能让模型在没有来源控制和真实数据补给的闭环里反复吃自己的输出。
References
- Shumailov et al. AI models collapse when trained on recursively generated data. Nature 631, 755-759 (2024). https://www.nature.com/articles/s41586-024-07566-y
- Muennighoff et al. Scaling Data-Constrained Language Models. JMLR 2025. https://www.jmlr.org/papers/v26/24-1000.html
- Soudry et al. The Implicit Bias of Gradient Descent on Separable Data. JMLR 2018. https://www.jmlr.org/papers/v19/18-188.html