首页> 关于我们 >新闻中心>技术分享>新闻详情

常用的差异代谢产物分析方法及常见问题

2021-05-07


代谢组学研究中,差异代谢物的筛选是数据分析重要的一环,但由于代谢组数据具有多维且某些变量间高度相关的特点,所以分析方法有很多,如差异倍数分析、T 检验、PCA、PLS-DA以及OPLS-DA分析等。

下面,小编就为大家一一解答:


1. 代谢组学常用的显著性检验方法:

p值是一个概率,反映某一事件发生的可能性大小,用于区分该变量是否具有统计显著性,通常认为p<0.05具有统计学意义。常用的检验方法有t-test、方差分析(Analysis of Variance, ANOVA)。t检验一般适用于两组差异比较,在多维的情况下就要用到ANOVA方差分析。

图片2.png

(图片来源于网络,侵删)

2. 单变量分析方法-差异倍数分析在代谢组学两两比较中是较为常见的,但多组比较为什么没有呢?

差异倍数(Fold Change,简称FC值)分析即根据代谢物的相对定量或绝对定量结果,计算某个代谢物在两组间表达量的差异。差异倍数作为上下调的一个标准,假设比较组为AvsB,计算方式为:FC=B/A,FC大于1为上调,小于1为下调(这个标准不是固定的,也可以设置的更为严格一点,比如调整为1.2倍、1.5倍或者2倍,这三种阈值在代谢组研究相关文章中是较为常见的)。我们说上下调,一般都是指和某一组相比,另一组上调或者下调,三组或者多组的时候是无法定义和哪组相比其他几组高或者低的,因此差异倍数是在两两比较中产生的。


3. 什么是多元统计分析?

多元统计分析分为无监督分析方法和有监督分析方法。在代谢组学分析中无监督分析有主成分分析(PCA),而有监督分析方法主要是偏最小二乘判别分析(PLS-DA)和正交偏最小二乘判别分析(OPLS-DA)。

因无外加人为因素,得到的PCA模型反映了代谢组数据的原始状态,有利于掌握数据的整体情况并对数据从整体上进行把握,并从中揭示出数据集中观测数据的分组、趋势以及离群。对明显不同于大部分样品的离群样品,可加以甄别或剔除。另外,如果存在质控样品,PCA还可进行质控,如果质控样品分布点越靠近,则说明系统稳定,检测质量没有问题。

与PCA只有一个数据集不同,PLS-DA在分析时必须对样品进行指定并分组,这样模型会自动加上另外一个隐含的数据集Y。因为PLS-DA在建模时对样品进行了指定和分组,所以能更大地区分组间差异,但这也导致数据的PLS-DA模型存在过拟合(overfitting)的问题, 会造成模型失真, 在实际数据分析时应注意验证模型有效性和可靠性。

OPLS-DA使用正交信号校正技术,将X矩阵信息分解成与Y相关和不相关的两类信息,然后过滤掉与分类无关的信息,相关的信息主要集中在第一个预测成分,有效减少模型的复杂性和增强模型的解释能力,从而较大程度查看组间差异。OPLS-DA 得分图,从横坐标的方向可以看到组间的差异;从纵坐标上看出组内的差异(组内样本间的差异)。


4. 代谢组学常用到的差异代谢产物的数据分析方法:

图片3.png

单变量分析方法是简单常用的实验数据分析方法。在进行两组样本间的差异代谢物分析时,常用的单变量分析方法包括差异倍数分析(Fold Change Analysis,FC Analysis)、T 检验,以及综合前两种分析方法的火山图(Volcano Plot)。

多元统计分析中无监督分析有主成分分析(PCA),而有监督分析方法主要是偏最小二乘判别分析(PLS-DA)和正交偏最小二乘判别分析(OPLS-DA)。

VIP(Variable important in projection)是(O)PLS-DA模型变量的变量权重值,来衡量各代谢物的表达模式对各组样本分类判别的影响强度和解释能力,挖掘具有生物学意义的差异代谢物。

由于代谢组数据具有多维且某些变量间高度相关的特点,运用传统的单变量分析无法快速、充分、准确地挖掘数据内潜在的信息,因此一般采用多元统计分析方法,可以在较大程度保留原始信息的基础上将高维复杂的数据进行“简化和降维”,建立可靠的数学模型对研究对象的代谢谱特点进行归纳和总结。

因此代谢组学推荐使用单维和多维的方法进行结合,有助于我们从不同角度观察数据,得出结论。所以选择P值小于0.05与VIP值大于1作为常见的差异代谢物筛选标准。


5. 代谢组学中LC-MS与GC-MS数据的区别:

图片4.png

1)LC-MS根据电离方式不同,可分为电喷雾离子源(ESI)和大气压化学电离源(APCI) 2 种工作方式;GC-MS有电子轰击电离(EI)、正化学电离(CI)、负化学电离(NCI)3种电离方法,其中前两者较常用。

2)LC-MS是在正、负离子两种模式下工作的,得到的数据形式也是不一样的,而对代谢物的统计学分析时也是分开的,但在代谢通路分析时(或者合并分析时),会将正负离子结合,有重复时选择两种模式中响应较高的一个模式。

3)GC-MS通常只能在单一离子模式下工作,得到的数据模式非负即正,可根据实际的离子源进行判断,因此在分析时工作量就少了一半。再加上由于扫描离子范围的差别,LC-MS获得的数据量明显更多。

相比于GC-MS,LC-MS一般无需衍生处理,分析平行性更好,更适合大规模样本的分析。


6. 代谢组学数据预处理及其目的?什么是数据归一化?

数据预处理,在代谢组学中,指的是通过一系列降噪、基线校正以及归一化等步骤转换原始数据的计算过程,减少数据集的噪声干扰,强调其生物学信息,使其适用后续的统计分析方法。

图片5.png

代谢数据有着典型的高维度、高噪声等特性,并且存在数量级的差异,因此还需要对数据进行样本间和代谢物间的归一化处理,以确保各样本之间和代谢物之间可平行比较。归一化的方法:内标归一化、总峰面积归一化和QC归一化。

简单来说,就是对代谢数据集进行一系列的数值处理,把数据拉到一个特定范围里,转换为可用于进一步统计分析的可用形式。

7. 生信分析KEGG气泡图中富集因子的含义?该如何选择受到显著影响的通路进行研究呢?

图片6.png

KEGG 通路富集分析


横坐标表示每条KEGG 通路的富集因子,富集因子(rich factor)指生信分析文件夹中kegg表格的count/pop hit,即参与某 KEGG 通路的差异代谢产物的数目占该通路注释到的代谢产物的比例,一般情况下,KEGG 通路富集结果中 P 值越小(P<<0.05),统计学上 KEGG 通路富集越显著,而 KEGG 通路下包含的差异表达代谢物数目在某种程度上反映实验设计中生物学处理对各个通路的影响程度大小,因此可以结合两方面因素,选择较为感兴趣的代谢或信号转导途径以及显著性影响这些途径的差异表达代谢物进行后续生物学实验验证或机制研究。

8. 血液样本做代谢组学分析,血清样本和血浆样本哪一个比较好?

血清血浆都是血液样本处理后得到的样品,现有文献报道血清血浆中代谢物种类及丰度确实不同,但对于研究而言,并没有明确表明哪种样本类型优于另一种,所以在选择血清或者血浆时,只要在收样时保证统一即可,且血液样本最好是选择EDTA或肝素抗凝的血浆比较好。收集过程需要避免溶血,样收集后应保存在-80℃条件下,并且避免反复冻融。

9. 靶向代谢是如何进行定性和定量的?

靶向定性是根据代谢物的母离子和子离子分子量,通过质谱MRM模式进行定性。靶向绝对定量是根据代谢物的实际检测峰面积与标准品的峰面积进行换算得到的。

10.  脂质组学的命名规则问题?

脂质的命名中,数字代表碳长度及双键个数,例如WE(3:0_20:2),表示有一个长度为3和两个长度为20的碳链。但很多脂质数字里都有字母,不同字母(d,t,m,p,e,D)代表的基团不一样,d是羟基,m是酰胺基等等。