首页> 关于我们 >新闻中心>技术分享>新闻详情

棋高“异”招:差异基因的筛选与展示

2024-09-03

1.jpg

组学产品千千万,而分析往往只在“异”念之间。对于转录组来说,就是通过组间比较,筛选出既有统计学意义又存在重要的生物学意义的差异基因集,结合研究者的实验设计进一步推测该生命现象出现的分子机理与调控网络。

发表刊物中常见的筛选差异基因的参数一般为两个,即差异倍数|log2FoldChange|>1和显著性P-value<0.05,下面小派会根据公司的数据示例对差异基因的筛选以及展示方式做一些必要的说明。


差异倍数-FC值

在我们日常生活中对于数量之间的变化与差异的描述通常会有“差了一倍”,“多了一倍”,“是之前的两倍”等等,但是在科学研究中我们往往依赖于数学这门语言对其进行精准地表述,而最直观的参数便是计算比较量之间的FC(Fold Change)值。对于转录组学来说,便是计算两组样本之间基因表达量之间的比值(FC=A/B)0,通过量化差异变化,来鉴定出受到实验条件显著影响的候选功能基因集。

一般来说,默认变化倍数在2倍以上,即FC≥2或者FC≤0.5作为差异变化显著与否的阈值,为了更好地展示变化的趋势与程度,往往会对FC值进一步取log2:当-1<log2FC<1,则变化被定义为差异不显著;而当|log2FC|≥1时,则被认定为显著差异。



显著性检验-p值

现代生命科学的快速发展,除了依赖于检测工具与实验体系的开发,还得力于统计学与数学工具地在其中的有效应用,最典型的莫过于各种检验方法以规避掉看似显著但实则是由于误差造成的干扰,这也就是在p值在我们筛选差异显著基因集时的重要意义。一般来讲,p值越小,则认为基因表达的差异所受到的随机误差越小,更可能是由于研究者本身所设计的实验条件引起的表达差异。

综上所述,那些在比较组之间,|log2FC|≥1且p<0.05的基因往往被认作显著差异基因。

差异表达结果统计

以上的信息会全部囊括在我们拿到一张基因差异表达的总表中,这里会对所检测到的基因在各个样本组中的表达丰度,以及在各个比较组别中的FC值,log2FC,相应的p值进行汇总展示。但是,在文章发表时,我们对于自己数据的展示往往会与Jobs创造时iphone的理念不谋而合,即优雅,简约,直观。下面,我们通过几个实例对差异显著基因的可视化分析方法以及FC值/log2FC值,p值在图中如何体现进行较为详细的说明。

图片1.png

表1. 差异表达结果统计


火山图

火山图是最常见的差异基因的展示形式,其横坐标一般为log2FC,纵坐标为-log2p-value,另外在图中还会分别有FC阈值分割线和p值阈值分割线作为辅助线,这样会分别分割出两个显著差异的区域,落在这两个区域中的基因一般就是后续关注的候选基因。

图片2.png

图1. 差异表达基因的火山图


柱状图

火山图能够很好地展示差异基因的整体情况,但是对于每个比较组之间的上调或者下调差异基因的数目往往会用柱状图进行展示:

图片3.png

图2. 差异表达基因的柱状图


聚类热图与趋势图

在获得差异基因总集之后,我们可以进一步使用R语言Pheatmap软件包对差异基因在各个样品组中的表达情况进行聚类分析,以明确差异基因在各个中的表达趋势,如图所示:总体来说,差异基因在A,B,C三个组别中的表达模式可以聚得两类;模块1整体上呈现出在A组与B组中为低丰度表达,而在C组中为高丰度表达;模块2则呈现出相反的趋势,即在A组与B组中呈现出高丰度表达,而在C组中的表达量相对较低。另外,聚类分析中的表达模式可以结合表达趋势图来进一步展示。

1212.png

图3. 差异表达基因的聚类热图和表达趋势图


花瓣图/Venn图

当我们想进一步明确比较组别之间各自特有和彼此共有的差异基因的情况时,我们一般是通过Venn图来呈现,这将有助于我们探索不同实验条件或者样品类型背后机制的共通性与特异性。另外,当涉及的比较组别较多时,也是通过Upset图来进行展示。

1313.png

图4. 差异表达基因的Venn图和upset图


以上便是小派今日的分享,希望能够帮助大家在今后的转录组学分析时,能更明确差显基因的筛选标准以及展示方式,最终在自己心仪的期刊中简约,优雅且明了地呈现成果!