2025-02-07
前言
单细胞转录组测序(Single cell RNA sequencing):是在单细胞水平对转录组进行测序的一项新技术,可以研究单个细胞内的基因表达情况,同时解决用组织样本测序无法解决的细胞异质性难题,让解析单个细胞的行为、机制及其与机体的关系成为了现实。
特点与难点:单细胞转录组测序技术能让我们获取单个细胞的转录组信息,但单个细胞的转录本信息给出的庞大数据量,为后续的数据过滤、筛选、分析带来了不少挑战。
*目的与目标:以单细胞转录组测序得到的,经细胞过滤后的数据为例,对12个模块,共20项分析条目拆解。从横纵坐标含义、应用、输入输出数据的角度入手,面向初次接触高通量测序的读者,辅助您实现高通量测序数据分析理解从0到1的跨越。
注:对理解可能造成干扰的生物信息学方法专业名词以斜体标识,有利于理解的内容以黑体标识,前文出现过的类型图不在做赘述说明。
模块五、转录因子分析
分析条目12:转录因子分析
⏩分析内容:
图10A
在转录起始位点的上游,包含能够以特定序列与基因专一性结合转录因子(Transcription Factors,TFs,转录因子使目的基因以特定的强度在特定的时间与空间表达(图10A)。转录有正调控和负调控之分。
转录因子分析通过研究细胞转录状态的变化,阐述了受到外界刺激的细胞是如何通过转录因子调节基因表达,从而调整细胞的转录状态以适应新的环境,尤其在肿瘤微环境中转录状态的转变。
图12A.基因表达的调控元件
⏩分析方法:
转录因子分析也是单细胞转录组常见的分析内容,R语言分析一般采用的是SCENIC包(SCENIC的计算量超级大,非常耗费内存和时间,如非必要,不要用一般的电脑分析尝试)
分析的步骤概括为:
A、基于共表达算法GRNBoost2推断转录因子与候选靶基因之间的共表达模块,每个模块包含一个调控子,即一个TF及其靶基。
B、使用cisTarget检查转录因子靶基因的转录起始位点上下游,是否具有该转录因子结合的保守序列motif的富集,将靶基因区分为直接靶基因和间接靶基因,从而保留直接靶基因,以排除假阳性。
C、使用AUCell算法对每个细胞的调控子进行活性打分。
⏩部分分析结果展示方式:
(1)不同分组和不同细胞类型中TopN regulons 打分聚类热图与UMAP图图(12B):横坐标为不同Group的cluster,纵坐标为调控子,图注颜色的变化为AUCell活性打分值。
图12B
模块六、细胞通讯分析
分析条目13:细胞通讯分析
⏩分析目的:
在生物体中,不同细胞类型和组织中的细胞相互作用(CCI)可以协调生物的发育。因此,对细胞功能的研究越来越需要考虑每个细胞间的信息交流(CCC)。在单细胞转录组测序数据可以从基因表达中推断出不同细胞类型和组织中的CCI和CCC。
⏩分析原理与方法:
分析原理:
(1)通过转录组学分析样品或细胞,以测量基因的表达;
(2)然后对生成的数据进行预处理以构建基因表达矩阵,其中包含跨不同样品或细胞的每个基因的转录水平;
(3)从其他来源生成或获得参与细胞间通讯的相互作用蛋白列表,通常包括分泌蛋白和膜结合蛋白(分别为配体和受体)之间的相互作用;
(4)在基因表达矩阵中仅保留与相互作用蛋白相关的基因。
(5)它们的表达水平用作输入,使用评分函数[函数f (L,R)],其中L和R分别是配体和受体的表达值来计算每个配体-受体对的交流得分。可以使用聚合函数[函数g (Cell 1,Cell 2)],其中Cell 1和Cell 2都是这些细胞或相应样本的所有通讯得分,可以汇总这些通信得分以计算各个样本或细胞之间的总体交互状态;
(6)最后,可以通过Circos图和网络可视化来表示交流和汇总分数,以方便对结果进行分析解释(图13A)。
图13A
原理可理解性概况为:通过配体细胞群和受体细胞群的配受体基因的平均表达量来推测细胞存在互作的可能性,即对应的配受体表达量越高,细胞间存在互作的可能性越高。通过置换检验来获得两类细胞互作的统计学显著性。
⏩分析方法:
CellphoneDB:以单细胞基因表达数据作为输入,整合已有配受体数据库,实现描述异构复合物+预测细胞间通讯的功能,认可度高。
CellChat:使用单细胞表达谱与已知的配体、受体以及辅助因子(激活和抑制剂)来计算CCI的互作强度。
NicheNet:输入基因表达数据,并将其与通过整合信号通路而构建的模型相结合。可以预测来自一种或多种细胞中的哪些配体影响另一个细胞中哪些基因的表达,哪些靶基因受到配体的影响以及哪些信号传导可能参与其中。
链接:单细胞测序细胞通讯分析工具优选指南
⏩部分分析结果展示方式:
图13B
(1)整体通讯强度贝壳图(图13B):图中的节点表示不同细胞类型,节点圆圈大小表示该种细胞类型的细胞数目的多少,线条粗细表示通讯强度,线条的颜色与配体细胞的颜色一致。
图13C
(2)通路通讯强度等级图(图13C):每个颜色的点就代表一个细胞群,实心代表 Source、空心代表 Target,每一条线的粗细代表连结强度。如果Source/ Target 颜色同,自己连到自己且无其他连出去的路径则代表是 autocrine,而若连到很多别的颜色则可能代表传导路径当中是 paracrine的形式传递物质。
图13D
(3)通路通讯强度和弦图(图13D):圈:弦图的外圈与内圈通常代表不同的细胞类型/细胞亚群,这些细胞群是在细胞通讯分析中作为受体或配体。节点的位置和颜色可以帮助区分不同细胞群。线:弦连接了两个节点,表示它们之间的相互作用,弦的起点是配体(ligand),弦的终点是受体(receptor)。弦的粗细或颜色可以代表通讯强度、相互作用频率、或是其他定量信息。越粗的弦表示越强的通信或交互作用。在细胞通讯中,配体和受体的相互作用是细胞间信号传递的主要途径。弦图中的配体和受体连接通常代表一种特定的信号途径。例如,细胞 A 表面的配体可能通过弦与细胞 B 表面的受体连接,表示 A 与 B 之间的通讯。
模块七、拷贝数变异分析
分析条目14:拷贝数变异分析(适用于肿瘤样本)
⏩分析内容:
单细胞分析中,肿瘤细胞的鉴定常用的方法是通过推断细胞中 CNV 拷贝数变化来表征细胞的恶性程度。分析原理:inferCNV 以一组“正常”细胞作为参考(通常以免疫细胞或正常对照组中对应细胞作为reference),分析肿瘤基因组上各个位置的基因表达量强度变化。通过热图的形式展示每条染色体上的基因相对表达量,相对于正常细胞,肿瘤基因组总会过表达或者低表达。
⏩分析步骤:
1)样本的基础质控和注释,注释极为重要,注释的结果直接影响后续的分析。
2)选择合适的reference,一般文献以待研究的某种肿瘤细胞的正常细胞作为reference,或者以T细胞或者免疫细胞,也可以用全部正常细胞的基因平均拷贝数作为reference。
3)依据基因在染色体上的位置对基因进行排序。
4)数据处理,包括肿瘤细胞与 ref的信号比较去除、数据均一化处理、降低噪音等过程。
5)CNV最终的预测。
⏩部分分析结果展示方式:
图14
InferCNV热图(图14):图上方的区域为CNV分析的reference细胞群/样本,下方为需要待预测拷贝数是否发生变异的细胞群/样本,横轴为染色体。颜色越红代表基因过表达越高,越蓝代表基因缺失度越高。
参考文献:
Heterogeneity of cell composition and origin identified by single-cell transcriptomics in renal cysts of patients with autosomal dominant polycystic kidney disease. Theranostics. 2021
Combined Single-Cell and Spatial Transcriptomics Reveal the Metabolic Evolvement of Breast Cancer during Early Dissemination. Advanced Science. 2023
Single-cell atlas of colonic CD8+ T cells in ulcerative colitis. Nat Med. 2020.
Dynamic CD8+ T cell responses to cancer immunotherapy in human regional lymph nodes are disrupted in metastatic lymph nodes. Cell. 2023.
Ensembles of endothelial and mural cells promote angiogenesis in prenatal human brain. Cell. 2022
Single Cell RNA Sequencing Identifies a Unique Inflammatory Macrophage Subset as a Druggable Target for Alleviating Acute Kidney Injury. ADVANCED SCIENCE. 2022
GeneSwitches: ordering gene expression and functional events in single-cell experiments.Bioinformatics.2020
Reversed Graph Embedding Resolves Complex Single-Cell Trajectories. Nature Methods,2017