首页> 关于我们 >新闻中心>技术分享>新闻详情

整合机器学习与血液蛋白质组学挖掘新型生物标志物

2025-11-04

研究意义

利用机器学习挖掘血液蛋白质组中的疾病生物标志物具有重要意义,它能够处理和分析大量复杂的高维数据,从中识别出与特定疾病相关的关键蛋白质,提升生物标志物的筛选效率和准确性。这一过程不仅有助于早期诊断和个性化治疗,还能深化对疾病机制的理解,为新疗法的开发提供基础,最终促进精准医疗的实现,提高患者的整体健康水平。

技术路线

1、样本收集和预处理

  • 样本来源:从不同的受试者(如Cohort 1)收集血液样本,确保样本的多样性和代表性,通常涉及健康对照组和疾病组的比较。

  • 处理方法:血液样本经过离心处理,分离出血浆或血清,随后使用特定的化学试剂进行蛋白质的沉淀和提取,以减少干扰物质。

2、蛋白质组学分析

  • LC-MS/MS技术:采用液相色谱-质谱联用技术(LC-MS/MS)对提取的蛋白质进行分离和定量,生成复杂的蛋白质组数据。

  • 数据处理:使用软件工具(如MaxQuant或Proteome Discoverer)对质谱数据进行处理,鉴定蛋白质并计算其相对丰度。

3、差异表达分析(DEPs)

  • 统计分析:利用统计方法,如t检验或ANOVA,识别出在不同组别间表达差异显著的蛋白质。

  • 阈值设定:通常设定p值(如<0.05)和倍数变化(如FC > 1.5)作为差异表达的标准,以筛选候选蛋白。

4、特征选择与机器学习建模

  • 特征选择算法:应用算法如LASSO回归、随机森林或支持向量机(SVM),对差异表达蛋白进行特征选择,减少维度并提高模型的可解释性。

  • 模型训练:使用交叉验证方法(如k折交叉验证)对不同机器学习模型进行训练,优化超参数,以提高分类性能。

5、生物标志物识别和验证

  • 生物标志物的候选筛选:通过模型输出的特征重要性排序,选择关键生物标志物进行后续分析。

  • 验证实验:在其他样本组(如Cohort 2)中进行生物标志物的验证,通常采用ELISA或Western blot等方法确认其表达水平和临床相关性。

6、最终确认与临床应用

  • 临床验证:在独立的样本(如Cohort 3)中进一步确认生物标志物的有效性和可靠性,评估其在疾病诊断和预后中的实际应用价值。

研究案例

文章题目:Plasma proteomics for biomarker discovery in childhood tuberculosis

中文标题:血浆蛋白质组学挖掘儿童结核病生物标志物

发表期刊:Nature Communications

影响因子:15.7

发表时间:2025年

研究对象:儿童结核病

组学策略:蛋白质组

技术路线

研究内容

1.基于跨国队列与高通量血浆蛋白质组学的儿童结核病生物标志物的挖掘

本研究整合了来自冈比亚、秘鲁、南非和乌干达四国的511例疑似肺结核患儿队列,依据NIH共识标准将其划分为微生物学确诊结核病、未确诊结核病及结核可能性低等组别,并重点对比“确诊”与“结核可能性低”组以发现特异性生物标志物。

图1 跨中心血浆蛋白质组学研究质控与数据可重复性分析

研究团队采用高通量DIA-PASEF质谱技术对1μl未 depleted 血浆进行分析,成功定量了859种蛋白质,展现出跨越4个数量级的动态范围与较低的定量变异系数。通过COMBAT校正有效消除了多中心及批次效应,主成分分析证实数据质量良好,跨国数据具有高度一致性,从而为后续识别稳健的结核病特异性蛋白标志物奠定了可靠的蛋白质组学基础。

2.结核病候选生物标志物的鉴定

通过比较健康与有症状儿童的血浆蛋白水平,研究发现SAA1/2/4和CRP等炎症标志物在有症状组普遍上调,其中SAA2变化最为显著,但这些标志物无法有效区分不同结核病状态组别。进一步对比确诊结核与结核可能性低组,鉴定出47个显著差异蛋白,其中色氨酸tRNA合成酶WARS1表达上调最为显著,且其与结核感染的关联已获多项研究证实。

图2 儿童结核病队列的蛋白质组丰度分析

研究还发现多个免疫球蛋白重链与轻链可变区在多国队列中一致性上调,提示结核病可能引发免疫应答。通路富集分析显示补体激活通路显著上调,其机制可能涉及抗原-抗体复合物激活经典途径、结核分枝杆菌组分激活替代途径,或急性期蛋白合成增加。该发现与全血转录组学研究相互印证,共同揭示了结核病中补体系统的重要作用。

3.基于机器学习的结核病生物标志特征识别

本研究采用LASSO回归进行特征初筛,获得50个非零系数特征。通过系统评估1-6个特征的所有组合,发现包含4-6个蛋白的逻辑回归模型均可达到筛查标准,其中5蛋白模型与6蛋白模型分别实现93%与96.7%的灵敏度。

图3 基于机器学习开发儿童结核病的简约生物标志特征

4.未确诊结核病的检测

为验证生物标志特征对临床诊断结核病的识别能力,我们在115例阴性但具结核症状的患儿中测试模型,采用达标的3-6蛋白模型,显示良好预测一致性。

图4 未确诊结核病病例的识别与验证

研究结论

本研究采用高通量蛋白质组学技术,对来自4个国家的511例儿童血浆蛋白质组进行检测,并依据标准化定义区分结核病状态。通过机器学习方法,我们最终研发出四个由3至6种蛋白质构成的简约生物标志特征组合,其曲线下面积达0.87–0.88,且全部达到世界卫生组织对结核病筛查检测所要求的最低目标产品精度标准。本研究不仅揭示了儿童结核病独特的宿主反应机制,更为全球儿童结核病的早期发现和有效管理提供了一种可显著缩短诊断时间的非痰液生物标志物方案。