首页> 关于我们 >新闻中心>技术分享>新闻详情

干货 | 单细胞项目细胞类型注释经验分享

2023-11-09

单细胞项目


细胞类型注释


在单细胞测序中,常见的分析包括数据质控,降维聚类,细胞分群,差异基因富集分析,拟时序分析和细胞通讯分析等等。单细胞测序数据经过聚类和分群,可以划分出不同的细胞亚群。由于细胞间基因表达模式的相似性,相同的细胞类型,往往会聚类成一个cluster,但每个cluster对应的细胞类型是未知的,需要我们对每个亚群进行细胞类型注释。而细胞类型的注释,也是单细胞数据分析和解读过程中最关键和最耗时的一步。“


单细胞注释的方法和流程有哪些

目前,细胞类型注释的方法主要有:自动化注释,人工注释和验证(图一)。

自动化注释:根据预先定义好的marker基因列表或参考数据库,将单个细胞或细胞簇的基因表达模式与已知细胞类型的基因表达模式相匹配,来识别和标记单个细胞或细胞簇。自动化注释优点是简单、快速,但是也存在一些缺陷。首先,由于自动化软件的局限性,需要依赖和参考合适的数据集,对于一些非模式物种来说,可参考的数据集少,使用软件不容易构建参考数据集。其次,对于一些基因表达谱相似度高的细胞类型注释准确率也比较低,比如像T细胞、NK细胞和NKT细胞,基因表达相似,共表达的marker基因较多,自动化注释很难准确区分。最后,自动化注释对细胞亚型的注释结果比较局限,对一些罕见细胞类型的鉴定不够准确。

人工注释:根据文献中选用的特异性高的marker基因对细胞类型进行人工判断,手动检查每个细胞的特征,结合不同的文献资料确定每个亚群的功能和细胞类型。通常,人工注释根据特异marker基因表达的featureplot或小提琴图,结合每个cluster的差异基因进行综合判断。人工注释的准确率高,能够基于高表达的marker基因和每个cluster的功能,结合具体疾病类型来判断细胞类型或状态。但是人工注释可能耗时过长,并且存在主观性。

验证:通过自动化注释和人工注释,我们可以较为准确地注释出细胞类型。但对于一些新的细胞类型,则需要结合实验验证来辅助判断。结合多组学也有助于验证,比如空间转录组技术等。

76fbbb475ae2533624f4e04b1758ad2e.png

图一  细胞注释流程[1]




派森诺单细胞空转产品部是如何做细胞注释的呢?

以上的注释流程是目前普遍使用的细胞注释流程,在此基础上,派森诺单细胞空转产品部则使用自动化注释+人工注释的方式,保障注释结果的准确性。在自动化注释结果的基础上,注释人员会再次对自动化注释结果进行人工check,基于参考文献的中的特异性的marker基因进行注释。具体方法和流程如下:

第一步:首先,初步确定细胞类型,人工注释需要了解项目的样本类型及病理信息,对不同样本可能有什么样的细胞类型有个初步的了解。比如肝组织中特异存在的库否细胞和肝实质细胞;PBMC中的单核细胞,T细胞,B细胞;心脏组织中的心肌细胞等。其次,人工注释会基于自动化注释的结果,对每个cluster的细胞类型,再次进行检查和检验。

第二步:根据各cluster差异表达的基因进行细胞类型注释。降维聚类完成后,会生成各个cluster的差异基因列表。从差异基因中筛选cluster特异性的marker基因,确定细胞类型(如图二所示)。左为自动化注释结果,其中cluster16被singleR鉴定为B细胞,右为该群的差异基因列表,可以看到浆细胞样树突细胞(Plasmacytoid dendritic cells,pDCs)marker表达量排前面,我们根据差异基因列表的结果初步推断cluster16可能为pDCs。

b19aadb104b79c506067dba793808b9c.png

A.软件自动化注释结果

8af8483b55d68ce87c00a9afca49433a.png

B.cluster16差异基因列表

图二  差异基因注释流程

第三步:根据不同的项目,人工选择合适的marker基因。在对不同的细胞类型进行鉴定的同时,我们需要一些经典的marker基因进行判断,这就需要注释人员去根据每个项目情况,查阅相关文献及数据库,选择合适的特异性高表达的marker基因。我们根据文献和数据库,整理了不同组织样本中的细胞类型marker gene list,以人肺组织大类图谱为例,部分细胞类型及marker基因如下表所示。

表一  细胞类型的名称及marker基因

1699521977203.png

第四步:用来判断细胞类型的marker基因,会在对应的细胞类型中特异表达或者高表达,我们会借助Featureplot图、小提琴图、点图、气泡图或热图等不同的展示形式,查看每个marker基因在cluster中的表达情况,综合判断不同cluster细胞类型。如图三所示,我们根据pDCs细胞的marker,绘制pDCs细胞的marker基因表达的Featureplot图(图三B),可以看到pDCs细胞的marker基因集中表达在cluster16中,结合该簇的差异基因列表(图二B),我们将cluster16定义为pDCs。

ac89b7658fe2bfda2096f66c17873017.png

A.机械分群聚类UMAP图

a6a2db0b55bd4ab3f865698e6ec63bb2.png

B.pDCs细胞marker基因表达Featureplot图

76d0ecd2cfb41f7b5d35b1b767012ecd.png

C.按细胞类型着色聚类UMAP图

0b938c27ed7d8add76791e5ae3149dc7.png


D.不同细胞类型marker基因的dotplot图

图三  细胞类型注释流程

第五步:如果当前选择的一些marker无法定义到已知的细胞类型,我们会将这些细胞先定义为Unknown亚群。后续可以根据该亚群的差异基因富集分析,反向推断该亚群的功能。

细胞类型注释完成后,确定不同细胞类型和功能,可以对感兴趣的细胞亚群进行后续的个性化分析,比如分化轨迹推断,细胞通讯分析等等。派森诺单细胞空转产品部在单细胞转录组细胞注释及个性化分析方向,拥有丰富的项目经验,形成了自有的marker gene list,提供发育、免疫学、癌症生物学、神经生物学等方向的分析服务,助力于不同生物学领域的研究。




参考文献

1.Clarke ZA, Andrews TS, Atif J, Pouyabahar D, Innes BT, MacParland SA, Bader GD. Tutorial: guidelines for annotating single-cell transcriptomic maps using automated and manual methods. Nat Protoc. 2021 Jun;16(6): 2749-2764.