2025-03-07
Highlights
1. 单细胞注释是单细胞RNA测序的重要环节,揭示细胞的功能和状态;
2. 单细胞注释体系:专业注释流程和体系、攻克五大难点、动态解析细胞命运;
3. 派森诺专业的注释团队,为客户提供个性化的注释方案,为肿瘤免疫、发育生物学等领域提供可靠的数据支撑。
单细胞RNA测序(scRNA-seq)技术的兴起与快速发展,为生命科学领域带来了前所未有的冲击,也为揭示细胞异质性和功能多样性提供了前所未有的维度。然而,单细胞注释作为高级分析中最重要的一个环节,却让很多的科研工作者倍感挑战。今天我们将结合派森诺单细胞产品部的单细胞注释实战经验,系统的梳理细胞注释流程、细胞注释难点以及解决方案,助您高效攻克这一“拦路虎”。
一、专业注释流程:从大类到亚群的精细化注释策略
1、大类注释:精准的判定细胞类型
派森诺单细胞产品部经过多年的实战经验,开发了一套高效且精准的注释流程。首先,基于内部单细胞数据库,由专业的注释人员选用特异marker基因,根据marker基因表达的featureplot或小提琴图,结合每个cluster的差异基因进行综合判断。此流程精准地识别细胞类型及状态,显著提升注释准确性。
关于细胞注释详细的步骤,感兴趣的老师可以详细查看我司2023年11月09日发表的公众号(单细胞项目细胞类型注释经验分享)。
2、亚型细分注释:挖掘隐藏的细胞
大类注释只是第一步,对于一些复杂的细胞类型,或者是客户关注的细胞类型,亚群细分就会显得尤为重要。生信团队会对此类细胞进行二次降维聚类,由专业的注释人员对细胞进行更加细致的注释和解读。对于像T/B这类有具体亚型的细胞,我们会根据每种亚型的特异的marker基因进行区分和注释,而像一些没有具体亚型的细胞,我们建议是先机械分群,再根据每个cluster中高表达的差异基因,选择一个有代表性的特征基因进行标记和注释。这种注释方法,不仅提高了注释的准确性,还极大程度的展示了细胞的多样性,为后续的细胞功能的研究提供了坚实的基础。
3、细胞标签的规范化:制定统一标准
目前单细胞领域的一个现状就是,细胞层级分类比较混乱。不同的研究团队间在细胞层级分类和细胞名称的定义上存在显著差异,导致跨数据集的整合面临标准化细胞层级缺失与细胞名称不兼容的挑战,进而影响后续研究的可重复性。例如图一,两篇都是肺组织大类图谱,但是两篇文献在细胞标签和层级上却不尽相同。第一篇则是在大类层级上注释出了T细胞,而后再把T细胞重新降维聚类和亚群细分,而第二篇则是在大类的层级上直接就对T细胞进行了亚型的注释。当然这两种方法都是目前主流的注释流程,而我们则推荐用方案一,这样既能保证一些占比不高的T细胞的亚群能够被注释出来,也能更加方便老师研究不同的T细胞亚型之间的异质性,探究不同T细胞亚群之间的功能差异。
图一 肺组织的大类图谱
二、特殊细胞的细胞注释方法
目前整个单细胞行业内,有些组织类型也是注释的难点,比如细胞系、胚胎和类器官等等,其中类器官就是最典型的代表。
1、类器官:以类器官为例的挑战与突破
类器官(Organoids)指利用成体干细胞或多能干细胞进行体外三维培养而形成的具有一定空间结构的组织类似物,能够在结构和功能上模拟真实器官。类器官作为新兴的动物模型,成为研究疾病进展、药物毒理检测和细胞疗法的重要成员。但是其在注释也面临着三大难点:
a、缺乏有效的参考数据:现有的可参考的单细胞数据匮乏,从而无法给到可参考的自动化注释的结果。
b、高分化的特点:类器官因其高度分化的组织特点,导致其中的细胞可能处于不同的发育阶段和状态,其基因表达模式可能随时间变化。
c、类器官的培养条件干扰:不同的实验室,不同的培养条件下,都会影响到细胞的分化路径,这也会增加了人工注释的难度。
针对这些问题,派森诺采用“分步确认+功能富集”策略:优先根据已知marker基因确认部分细胞的类型,对于一些难以区分和注释的cluster,我们会根据差异基因的KEGG/GO富集分析的结果,重新定义其功能状态。例如,有文献报道的某肠道类器官中,则是通过Wnt通路相关基因的富集,成功识别出隐窝基底干细胞。
2、肿瘤细胞:从样本异质性到基因异常表达
人类的肿瘤细胞:
人工判断:①根据肿瘤细胞的来源判断:一般情况下,肺、肝、胃等实体组织的肿瘤细胞是按照样本来源聚类成不同的cluster的上皮细胞;而像一些血液肿瘤,比如淋巴瘤样本的肿瘤细胞,则是按照样本的来源聚类成不同的T/B淋巴细胞等等。②根据样本的异质性:如果同一种细胞类型按照样本来源聚类成不同的cluster,但其他细胞类型又不存在批次效应,则判断可能为肿瘤细胞。③肿瘤细胞的基因异常表达:肿瘤细胞一般会出现基因的异常表达的情况,如果遇到某些肿瘤来源的细胞差异基因列表中出现多种细胞类型的marker基因,那就可能是肿瘤细胞。
算法协助判断:我们不仅仅通过人工判断注释出肿瘤细胞,还会建议再对肿瘤来源的细胞进行inferCNV分析,协助进一步判断肿瘤细胞。
图二 肿瘤细胞的判断方法
例如,2022年发表在Clinical and Translational Medicine上题为“Single-cell RNA sequencing reveals the multi-cellular ecosystem indifferent radiological components of pulmonary part-solid nodules”的文章,就依靠inferCNV水平来判断恶性和非恶性细胞,同时对肿瘤细胞的降维分析揭示了样本的异质性,也说明了转录水平的肿瘤间存在异质性。
小鼠的肿瘤细胞:
人工判断:①根据肿瘤细胞的来源判断:同上。②肿瘤细胞的基因异常表达:同上。
算法协助判断:由于小鼠的肿瘤细胞不存在样本异质性,主要还是需要依靠inferCNV分析来判断出肿瘤细胞。
3、血小板和巨核细胞:根据来源确定细胞类型
巨核细胞(Megakaryocytes):巨核细胞是血小板的前体细胞,存在于骨髓中。它们具有较大的细胞体积和多倍体核,主要功能是产生血小板。
血小板(Platelet):血小板是巨核细胞脱离的小片段,存在于外周血液中,参与血液的凝固和止血。血小板的标记基因与巨核细胞高度重叠,但是我们可以根据样本的来源,来明确区分这两种细胞类型。
4、单核细胞与巨噬细胞:打破混合注释的困顿局面
单核细胞和巨噬细胞,两者在免疫细胞中都扮演着重要的角色,它们之间既有相似之处,也有显著的差异。①来源相同:单核细胞和巨噬细胞均来源于骨髓中的造血干细胞,单核细胞则是巨噬细胞的前体细胞,在一定的条件下,单核细胞可以转换成巨噬细胞。②marker基因表达模式相近:两者都表达CD14,这是单核和巨噬细胞共同的marker基因。
在图三所示的文献中,将这两种细胞合并注释,导致功能混淆。这种定义的方式,将单核细胞和巨噬细胞混合在一起,具有很多的弊端。
①无法研究细胞异质性:单核细胞和巨噬细胞在细胞类型、功能和起源上都存在着差异,如果混合在一起注释则无法准确反映这两种细胞在不同的组织和条件下的独特功能。
②混淆细胞的来源:巨噬细胞,不仅可以由单核细胞分化而来,也可以来源于组织驻留的前体细胞,如果像文献中这么注释的话,则无法区分不同来源的巨噬细胞,也无法区分它们在组织中不同的功能。
那么,我们是如何更好的区分这两种细胞类型的呢?首先,单核细胞主要存在于血液中,而巨噬细胞主要存在于组织中。其次,利用各自特异的marker基因。单核细胞高表达甘露糖受体——FCN1,该基因参与识别和内吞糖基化的病原体和凋亡细胞碎片,是单核细胞重要的经典的marker基因;巨噬细胞则会高表达APOE,CD68,CD163等经典的marker基因,比如CD68,巨噬细胞的经典的marker基因,主要参与细胞外基因的结合和内吞作用。这种基于样本和特异marker基因的注释方法,能够有效区分单核细胞和巨噬细胞,为免疫细胞研究提供更准确的细胞类型。
图三 大类细胞图谱
5、干性细胞:从样本来源到marker基因
干性细胞通常是指具有自我更新和多向分化潜能的干细胞群体,这类细胞是组织和器官发育、维持和修复的基础。干性细胞的判断主要依据细胞的形态特征、分化潜能、标记物及功能特征等等。间充质干细胞和造血干细胞是常见的干性细胞类型。
间充质干细胞(Mesenchymal stem cells)具有多向分化潜能,主要分化成为中胚层来源的细胞,如骨细胞,脂肪细胞等;造血干细胞(Hematopoietic stem cells),主要分化为各种血细胞。干性细胞因其特殊的分化能力,本身就难以注释,而且还容易与其他的细胞混淆,比如间充质干细胞与成纤维细胞。两者在形态学和生物学特征上具有很多相似之处,其marker基因与成纤维细胞的marker基因的表达高度重合,根据marker基因很难分辨出这两种细胞类型。但是我们可以根据样本的来源推断出细胞类型,在一些骨髓或者是胚胎组织中,间充质干细胞的占比会比成纤维细胞高。
三、突破传统生物学意义,重新定义细胞类型
自从单细胞打开生物研究的新世界大门,很多传统意义的生物学故事已经逐渐被颠覆,派森诺建议对于一些功能比较丰富的细胞,要摒弃固定传统生物学分类模式,转而关注细胞内部异质性。
例如,对于巨噬细胞的分群。目前有很多的文献会关注巨噬细胞,而巨噬细胞被人们所熟知的细分类型主要有M1型巨噬细胞和M2型巨噬细胞。M1巨噬细胞主要起到促炎的作用,能够促进炎症反应,杀伤胞内感染的病原体,具有抗肿瘤的作用;M2型巨噬主要是起到抗炎的作用,主要分泌抑炎细胞因子,参与免疫调节,血管生成,促进肿瘤进展;但其实巨噬细胞的功能不仅只有这两种,还包括了促血管生成、免疫抑制、脂肪代谢、促胞外基质重塑、干扰素响应等。在现有的一些文献中,传统的M1,M2分类已经无法满足科研需求。2024年最新发表的文献中,揭示了SPP1+巨噬细胞在头颈部鳞状细胞癌(HNSCC)中的作用。作者将头颈部肿瘤样本中的髓系细胞进行细分,分出了三种不同类型的巨噬细胞,分别命名为SPP1+Mac,IGKC+Mac和MNDA+Mac,作者发现SPP1+Mac只特异存在于肿瘤组织中,而该细胞与HNSCC患者的不良预后呈正相关。而后在体外实验的验证中得出,SPP1+巨噬细胞来源的TNF-α和IL-1β通过支持肿瘤细胞增殖和迁移从而促进HNSCC进展。
图四 巨噬细胞的分群
此外,在单细胞分析过程中,我们总会遇到一些细胞,无法再次细分注释出具体的细胞亚型,比如上皮细胞中的常见的基底细胞,如果对基底细胞进行细分的话,我们就只能机械分群展示,但是机械分群仍具有研究价值。比如文献中报道,详见图五,通过差异基因分析发现亚群间功能差异,结合拟时序分析追踪其发育轨迹,最终通过体外实验验证起源假说。这一研究思路表明:机械分群并非终点,而是探索细胞动态演化的起点。
图五 basal cells机械分群的分析思路
四、总结:精准注释驱动科技突破
单细胞注释是一个复杂而精细的过程,既是技术挑战,也是科学发现的突破口。派森诺通过多年的项目积累,开发一套专业的注释流程,从大类注释到亚群细分,从特殊组织到难以判断的细胞类型,我们都有非常专业的注释方案、灵活的注释策略与多维度的辅助验证,为肿瘤免疫、发育生物学等领域提供可靠的数据支撑。无论您是面临细胞注释的困境,还是渴望深度挖掘细胞功能异质性,派森诺单细胞产品部都将为您提供个性化的分析方案。
派森诺单细胞产品部会根据老师科研目的和需求,调整细胞分类方式和数据的展示形式,灵活的对各个细胞进行细分注释,助力疾病机制挖掘。