2025-09-07

在转录组数据分析中,我们常常关注哪些基因在两组样本(如对照组 vs 处理组)之间存在表达差异。除了常规的差异基因筛选和功能富集分析之外,基因集富集分析(GSEA) 正逐渐成为深入挖掘生物学机制的重要工具。接下来,小派将带你系统理解GSEA的分析逻辑、结果解读方法及其实际应用。
一、什么是GSEA?
Gene Set Enrichment Analysis (GSEA,基因集富集分析)用来评估一个预先定义的基因集的基因在与表型相关度排序的基因表中的分布趋势,从而判断其对表型的贡献。其输入数据包含两部分,一是已知功能的基因集 (KEGG通路或GO 条目或者其他基因集),一是表达矩阵 (也可以是排序好的列表,例如根据log2FC排序基因列表),软件分析时会对基因根据其与表型的关联度(可以理解为表达值的变化)从大到小排序,然后判断基因集内每条注释下的基因是否富集于排序表的上部或下部,从而判断此基因集内基因的协同变化对表型变化的影响。
与常规富集分析不同,GSEA不依赖于“差异基因”的筛选阈值(如log2FC和p.val),而是利用全部基因的表达变化排序信息,检测哪些基因集在不同组别比较中整体呈现上调或下调趋势。
二.GSEA分析结果怎么看?
(以云平台GSEA分析结果为例)
1.GO/KEGG分析部分--下载全部GSEA结果表格
每个比较组中包含两个结果表格,在GO/KEGG-GSEA分析部分下载查看结果。以WW_vs_TT组为例,WW_vs_TT_KEGG_GSEA_enrichment_TT.xls文件中,为在TT组(处理组)中上调的通路结果(包含显著及非显著通路),在WW文件中,则是在WW组(对照组)上调(即在处理组中下调)的通路结果。

下方为GSEA_enrichment表格示例

ID&Description:基因集的名称(GO term或KEGG pathway名称);
Size:通路/条目下包含的基因数目(经过条件筛选后的值);
ES:富集得分(enrichment score);
NES:ES的标准化值(normalized enrichment score),同时考虑基因集的个数及基因数目,NES的值代表该基因集中的基因在整体基因排序列表中的富集程度。简单理解NES为正值基因集上调,负值基因集下调;
NOM p-val:P-value,针对ES的排列检验,表示基因集富集的显著性;
FWER p-val:用FWER法(Bonferonni校正)校正后的P值;
FDR q-val:FDR法校正的p值;
RANK AT MAX:当ES值达到最大时对应的那个基因在排序好的基因列表中所处的位置;
LEADING:核心基因集,对ES贡献最大的基因成员;该处有3个统计值:
tags:核心基因集占该基因集中基因总数的百分比;
list:核心基因占所有基因的百分比;
signal:将前两项统计数据合在一起计算出的富集信号强度;
CORE ENRICHMENT:该通路下的核心基因列表。
2.GO/KEGG-GSEA富集分析图部分-查看每个条目/通路富集分析图片
每个条目或者通路具体的GSEA富集图(重要)在GO/KEGG-GSEA富集分析图部分查看。

GSEA富集图共包含三部分:
第一部分是排序后所有基因rank值的分布,热图红色部分对应的基因在TT组中高表达,蓝色部分对应的基因在WW组中高表达;
第二部分用线条标记了基因集合中成员出现在基因排序列表中的位置,黑线代表排序基因表中的基因存在于当前分析的功能注释基因集,每个黑线代表该通路中的一个基因;第三部分,Enrichment score折线图,:显示了当分析沿着排名列表按排序计算时,ES值在计算到每个位置时的展示。最高峰处的得分 (垂直距离0.0最远)便是基因集的ES值。
在上图中,我们一般关注ES值以及NES值,p-value值以及adjust-P值,NES为正值代表基因集在处理组上调,负值代表基因集在处理组下调(也就是在对照组上调),一般认为|NES|>1,NOM p-val<0.05,FDR q-val<0.25的通路是显著富集的。在右侧分析设置部分可选择不同比较组以及关注通路重新分析运行。
除了上述图片,每一个通路(条目)包含一个表格文件,在表格中主要关注哪些基因是核心基因,也就是对富集信号贡献最大的基因,后续可以挑选核心基因进行进一步筛选、验证。


SYMBOL/Name:基因名;
RANK IN GENE LIST:表示在排序好的基因集中所处的位置;
RANK METRIC SCORE:表示基因排序评分
RUNNING ES:表示分析过程中动态的ES值;
CORE ENRICHMENT:是对ES值有主要贡献的基因,即Leading edge subset(核心基因),Yes代表核心基因,No代表非核心基因。
3.GSEA-多通路富集分析图
除了单个通路的GSEA富集分析图之外,在高级绘图部分还有GSEA-多通路富集分析图,不同颜色代表不同通路,可以在右侧分析设置部分切换GO或KEGG,自定义展示关注通路(最多5条,检索时通路名需大写)。

三、GSEA的应用场景
1.捕捉微弱但一致的表达变化;
不需要设置差异基因阈值,避免遗漏虽未达到差异阈值但生物学一致性高的基因集。
2.发现通路水平的调控机制;
尤其适合癌症、发育、免疫应答等涉及多基因协同调控的研究场景。
3.辅助表型分型与生物标志物挖掘;
通过对通路活性进行聚类,可识别样本亚型或发现潜在治疗靶点。
派森诺项目文章应用
GSEA富集分析图

(https://doi.org/10.1016/j.cej.2025.165421)
GSEA分析表明在TSPCs组中肌肉骨骼运动相关基因集和细胞粘附分子相关基因集显著富集,证实了TSPCs通过细胞间相互作用在组织修复中的积极作用。
GSEA-多通路富集分析图

(https://doi.org/10.1186/s12864-022-09100-8)
GSEA多通路富集分析显示,与斑点组相比,正常组中某些通路的表达水平较低,其中钙信号转导通路、神经活性配体-受体相互作用、黏着斑和MAPK信号通路显著降低。
