2024-05-13
Alphabet旗下人工智能(AI)药物发现公司Isomorphic Labs与谷歌(Google)旗下DeepMind在5月8日共同宣布推出新一代AI生物分子结构模型AlphaFold 3。AlphaFold 3在不需要任何结构信息的情况下,在PoseBusters基准测试中的准确度比最佳传统方法高出50%,使AlphaFold 3成为首个超越基于物理的工具进行生物分子结构预测的AI系统。这是AI驱动生物学研究的重要时刻,但AI加速生物学的潜力是无限的。 随着AlphaFold等人工智能工具在生物领域的广泛应用,我们迎来了一个全新的时代,AI技术正逐渐渗透到生命科学的各个领域。著名生物学家、中国科学院院士施一公教授曾评价AlphaFold,“依我之见,这是人工智能(AI)对科学领域最大的一次贡献,也是人类在21世纪取得的最重要的科学突破之一,是人类在认识自然界的科学探索征程中一个非常了不起的历史性成就。”正如AlphaFold的成功一样,人工智能技术在单细胞测序领域也有着巨大的应用潜力。单细胞测序技术正在迅速发展,它使得我们能够深入了解细胞的异质性和功能特性。通过结合人工智能算法,我们可以更有效地分析和理解单细胞数据,从而揭示细胞在健康和疾病状态下的变化模式,为个性化医疗和疾病治疗提供新的方向。因此,可以预见,在AI技术的推动下,单细胞测序领域将迎来更加令人振奋的发展前景,为我们解码生命的奥秘带来新的希望和机遇。
利用人工智能大模型对单细胞数据进行分析 在单细胞RNA测序分析中,对不同细胞进行准确的类型注释是非常重要的。这个过程往往需要专业知识,通过对比每个细胞群中高表达的基因与已知的细胞类型标记基因来完成。然而,这一过程不仅繁琐而且耗时。在2024年3月《Nature Methods》上线的一项研究:Assessing GPT-4 for cell type annotation in single-cell RNA-seq analysis。研究者们开发了一个R软件包GPTCelltype,专门用于GPT-4的自动细胞类型注释。这一工具的使用,显示出比现有方法更高的准确性和速度。它可以快速区分纯净和混合细胞类型,甚至能在输入基因集包含较少基因或受到噪声干扰时,依然保持较高的性能。在对GPT-4的评估过程中,研究团队系统性地评估了它在十个数据集上的细胞类型注释性能。这些数据集涵盖了五个物种以及数百种组织和细胞类型。评估的结果显示,GPT-4的注释与原始研究中提供的手动注释高度一致。从示意图(图1)可以看出,依赖GPT-4进行scRNA-Seq的细胞注释好处有:无需生物学专业知识、无需代码知识、无需参考数据集、人工成本低、分析流程适配性高、无组织类型限制、注释分辨率/粒度高。 图1 GPT-4细胞类型注释示例以及与其他方法的比较 2024年2月26日,来自加拿大多伦多大学的研究人员和微软联合在Nature Methods上发表研究scGPT: toward building a foundation model for single-cell multi-omics using generative AI。研究人员利用单细胞测序数据,构建了一个单细胞生物学基础模型——scGPT,该模型基于一个生成式预训练变换器,跨越超过3300万个细胞的存储库。研究结果表明,scGPT能有效地提炼出有关基因和细胞的关键生物学观点。通过对迁移学习的进一步调整,scGPT可以得到优化,从而在各种下游应用中实现卓越的性能。 scGPT对单细胞分析的下游分析各项工作都有帮助,比如细胞注释、批次矫正和多组学整合等方面。scGPT可以非常精准的预测各种细胞类型,并且尤其精通于对免疫细胞亚型的注释。scGPT还可以预测不同条件下的细胞,基因表达量的变化,以及基因相互作用网络的动态变化。比如,微调后的scGPT能够准确预测细胞在处理后的基因表达谱趋势变化。作者展示了在DAD1或者KCTD16敲除后,差异Top20基因的预测差异倍数,与真实值几乎完全一致。除了训练集中已验证的情况,scGPT还能够预测未经实验证实的基因敲除组合的影响,其预测结果与 CRISPR 实验验证的结果一致。这表明scGPT具有很强的泛化能力,其准确预测不是由过拟合引起的,且与真实世界的实验结果一致。 图2 scGPT工作流程
机器学习与单细胞测序数据的联合是机遇和挑战并存的 用于单细胞测序数据分析的机器学习处于快速发展阶段,在处理和分析此类数据时,我们仍然面临很多挑战:1.单细胞表达定量的挑战:尽管已经开发了许多针对单细胞表达定量的算法,但是reads水平上的单细胞数据定量仍面临挑战。即使已知转录本的结构,但是确定它们的真实丰度也很有难度。2.细胞数量的限制:与实际的转录组分析中的细胞数量相比,现有的很多方法只能测量非常有限的细胞数量。3.构建轨迹的特征定义:为了构建轨迹,需要定义特定的特征。通常,表达模式相似的特征会保留重要的细胞系谱信息。4.单细胞数据的噪声和稀疏性:由于技术限制和生物变异性,单细胞数据通常是嘈杂和稀疏的,这增加了分析的难度。技术噪声是一个普遍存在的问题,它会影响到单细胞数据下游分析的准确性。5.数据并行处理的重要性:鉴于单细胞数据通常包含成千上万的特征,通过并行处理来加快分析速度变得非常重要。 但同时,挑战意味着机遇,未来可期:机器学习和单细胞数据分析的联合有望改变生物学和医学的许多领域。单细胞测序和计算方法之间的协同作用将生物学研究推入了一个前所未有的时代。随着技术的不断进步,将计算方法与单细胞数据相结合无疑会带来进一步的突破,塑造我们对细胞生物学的理解并推动医学和生物技术的创新。
总 结 AI技术,例如ChatGPT模型,正在深刻地改变着千行百业。同样,AI技术也给单细胞数据领域带来了革命性的分析手段和成果,这使得AI在生物学研究中的运用只是时间问题。 如scGPT这样的技术在没有输入任何生物学或医学知识的情况下,仅凭借大量的基因表达数据就能推断出如此多的分子生物学知识,这是人类难以企及的能力。而且随着国产平台的竞争,成本不断降低,单细胞数据量以指数增长的形式增加,scGPT会以我们想象不到的速度学习这些基因中的信息。 同时,类似于scGPT技术的出现打破了数据只能被动观察的命运,将整个基因表达谱转变成了一个能够感知干预和做出反应的网络。这个模型就像是计算机世界中的一种干细胞原型,与培养皿中的细胞类似,它可以轻松地预测出细胞分化和逆分化中的重要调控基因,这在过去可能需要对相关领域多年的研究总结才能得出结论。更重要的是,与以往依赖于样本的分析不同,这个模型不需要收集到非常珍贵的样本,却能得出相似的结论。