摘要
精准量化生物年龄对慢性病的早期风险分层与干预至关重要。本研究基于英国生物银行30,376名受试者的大规模血浆蛋白质组与代谢组数据,构建了集成学习生物衰老时钟StackAge。该模型年龄预测精度极高(与时序年龄皮尔逊相关系数r≈0.93),并显著提升12种慢性病的风险预测效能,其中2型糖尿病、阿尔茨海默病、肾病的预测AUC超0.90。纳入衰老速率可在传统组学与人口学特征基础上持续改善疾病预测效果。特征解析与通路富集显示,衰老相关标志物富集于炎症、应激、细胞外基质重塑通路。中介分析表明,可改变的生活方式因素可加速生物衰老,进而升高心血管、神经、免疫、肌肉骨骼疾病的发病风险。本研究建立了稳健的多组学框架,可量化个体生物年龄,为精准预防与健康管理提供具备临床价值的生物年龄指标。
lixg@shsmu.edu.cn
xqzheng@shsmu.edu.cn
yfqin@shou.edu.cn
#生物衰老时钟 #多组学整合 #集成学习 #疾病预测 #可解释性 #SHAP #英国生物银行 #衰老轨迹 #年龄相关疾病
结果
研究设计与分析框架
图1StackAge的研究设计与分析框架概览
(a) 对英国生物银行30376名受试者的多组学数据(2923种蛋白质、251种代谢物)进行预处理与特征筛选;根据疾病状态分为健康组(n=16078)与疾病组(n=14298),通过SHAP值排序3175个特征,选取前300个用于模型构建。
(b) StackAge整合线性回归、LightGBM、弹性网作为基学习器构建生物年龄预测模型;个体衰老速率 = 预测生物年龄/时序年龄。
(c) 结合衰老速率、组学与人口学变量,预测12种慢性病5/10/15年发病风险。
(d) 结构方程模型评估衰老速率在生活方式与疾病风险间的中介效应。
模型性能评估与衰老速率人群差异
图2模型性能评估与衰老速率的人群水平差异
(a) 蛋白质组、代谢组特征对年龄预测的贡献(SHAP排序前50–800个特征)。
(b) 不同组学输入的模型性能对比;整合StackAge用286种蛋白+14种代谢物,单蛋白质组用前300个SHAP特征,单代谢组用全部251种代谢物。
(c) StackAge与已发表衰老时钟、机器学习/深度学习基线模型的性能对比。
(d) 不同种族的预测衰老速率分布。
(e) 不同性别的预测衰老速率分布。
(f) 44–75岁六6个时序年龄组的衰老速率累积分布。
衰老速率对年龄相关疾病的预后价值
图3按衰老速率分层的12种慢性病累积发病率
Kaplan-Meier曲线展示缺血性心脏病、2型糖尿病、帕金森病、阿尔茨海默病、高血压、癌症、肺气肿、慢性肾病、类风湿关节炎、黄斑变性、骨质疏松症、骨关节炎的年龄别发病率;对比衰老速率最高10%(红)与最低10%(蓝)受试者,阴影为95%置信区间。
基于衰老速率与多组学特征的疾病风险预测
图4衰老速率联合多组学特征的疾病风险预测效能
(a) 4种模型5年发病预测性能对比;模型1:蛋白质组+代谢组+人口学+衰老速率;模型2:蛋白质组+代谢组+人口学;模型3:蛋白质组+代谢组;模型4:仅蛋白质组。点为10折交叉验证AUC,空心圆为均值,小提琴图展示折间分布。
(b–l) 12种慢性病的预测AUC(0.54–0.93)。
衰老相关蛋白的功能解析
图5衰老相关蛋白的功能富集与差异表达分析
火山图展示疾病组与健康组衰老相关蛋白的差异表达(基于对数倍变化和Welch t检验P值);按|log₂FC|×(-log₁₀P)综合评分排序,标注前10个上调蛋白(橙色)、前5个下调蛋白(蓝色)。
衰老速率的可调控中介作用
图6生活方式、生物衰老与慢性病的关联分析
(a) 热图展示3个年龄层(40–49、50–59、60–69岁)中,各生活方式组间生物年龄差异的显著性;颜色深浅代表P值大小,星号为显著性水平。
(b) 不同生活方式组的生物年龄估计差值;点为组均值,横线为95%置信区间,标注Cohen’s d效应量。
(c) 显著的「生活方式→衰老速率→疾病」中介通路。
(d) 衰老速率介导生活方式对12种疾病间接效应的矩阵。
数据和代码
原始个体水平数据来自英国生物银行,受数据使用协议限制无法公开共享;可向英国生物银行获取委员会提交正式申请获取数据权限,本研究申请编号116409
https://www.ukbiobank.ac.uk/
分析代码与衍生数据(含衰老时钟模型)已托管至GitHub仓库
https://github.com/PeterJiang122/JYY_AgeClock_20260205/releases/
要点
StackAge是款基于集成学习的生物衰老时钟,整合英国生物银行的大规模血浆蛋白质组与代谢组数据,可高精度估算个体生物年龄及衰老速率。
StackAge采用堆叠集成架构,融合线性回归、弹性网络、LightGBM基学习器与XGBoost元学习器,预测性能优异(与时序年龄的相关系数r≈0.93),优于现有单一组学及传统衰老时钟。
模型推导的衰老速率在12种年龄相关慢性病中均展现出稳定的预后价值,可显著提升5年、10年及15年随访期的疾病风险预测效果。
中介分析表明,可改变的生活方式因素部分通过加速生物衰老影响疾病发生风险,证实衰老速率是连接生活方式与疾病易感性的潜在机制纽带。
详细总结
思维导图
参考
Brief Bioinform. 2026 May 4;27(3):bbag271. doi: 10.1093/bib/bbag271.
StackAge: an ensemble-based clock for precise quantification of biological age using multi-omics data
260531StackAge.pdf
注:AI辅助创作,如有不当欢迎指出。内容仅供参考,不构成任何建议。