首页> 关于我们 >新闻中心>技术分享>新闻详情

资源集锦!代谢研究必掌握TOP级数据库,助力科研新发现

2024-07-24

资源集锦!代谢研究必掌握TOP级数据库,助力科研新发现-(1).jpg


代谢组学分析产生了大量的生物信息数据。代谢数据库是专门收集、存储和分析生物体代谢信息的数据库。简单来说,它就像一个关于生物体内各种物质如何相互转化、生成和消耗的“百科全书”。代谢数据库是生物医药、植物农业、食品科学、环境科学、畜牧养殖等研究领域不可或缺的工具,它为我们理解生命过程、预测代谢产物和通路、揭示疾病机制、开发新药和新技术提供了强大的支持。本文汇总了代谢组学研究常用的十几个数据库,通过对不同数据库的特点与适用范围的归纳总结,旨在为相关领域的科研工作者快速选择合适的数据库提供参考。




1、HMDB

(https://hmdb.ca)

图片1.png

人类代谢数据库(Human Metabolome Database,简称HMDB)是世界上最大、最全面的生物体特异性代谢组学数据库,包含了目前已知的所有有关人体小分子代谢物的详细信息。目前,该数据库包含220945个代谢物条目以及8610个和这些代谢条目有关的蛋白质序列(酶和转运蛋白)。

该数据库内容完整详细,包含有关人类代谢物及其生物学作用、疾病关联、化学反应、代谢途径和参考光谱等信息;支持多种搜索方式,比如化合物名称、分子量大小、分子结构;与多个数据库关联,包括KEGG、PubChem、MetaCyc和ChEBI等;可以快速系统地了解代谢物,包括分子量、结构、各种名称、分类、生物学途径、代谢酶、相关研究等信息。

该库目前不支持批量搜索,仅限于单个代谢产物搜索;该库未收录代谢通路图,但可链接到其他通路数据库中;该库包含较全的代谢物在不同样本中的浓度信息;也有二级谱图,但是覆盖度与准确性尚无法准确评估,仅做参考。


2、KEGG

(https://www.kegg.jp)

图片2.png

京都基因与基因组百科全书(Kyoto Encyclopedia of Genes and Genomes, 简称 KEGG)数据库是世界上最大、最全的生物信息学数据库之一。该数据库主要偏重于代谢通路和整合代谢、基因和蛋白通路信息。目前有572条代谢通路和19373个各类代谢产物(动物、植物和细菌等)。该数据库的构建旨在了解生物系统(如细胞,组织等)中基因、蛋白及代谢物的功能及相互作用关系。可以查询到与代谢物相关的代谢通路、人类疾病及药物等信息。

该数据库内容全面,使用广泛。整合了基因组、化学、系统功能和健康信息;将已经完整测序的基因组中的基因与更高级别的细胞、物种和生态系统水平的系统功能进行关联;强大的图形功能使研究者能够对其所要研究的众多的代谢途径以及各途径之间的关系有一个直观全面的了解。


3、Reactome

(http://reactome.org/)

图片3.png

Reactome是一个免费开源、人工整理并经过同行评审,收录了人类和其他生物的反应、蛋白质、途径、小分子和药物的数据库,提供了可视化、解释和分析的生物信息学工具,用于通路知识的可视化、解释和分析,以支持基础研究、临床研究、基因组分析、建模、系统生物学研究等。

作为另一版本的代谢通路图谱库,该库包含了多样性的经典代谢通路、信号转导、基因转录调控、细胞凋亡与疾病相关通路。该库引用了100多种不同的在线生物信息学资源库,包括NCBI Gene、Ensembl、UniProt、UCSC基因组浏览器、ChEBI小分子数据库和PubMed文献数据库等。Reactome(第86版—2023年9月)有11148个蛋白质编码基因的条目,涉及14803个反应及2647个通路,描述了1119种药物对正常和疾病过程的调节作用。


4、SMPDB

(https://smpdb.ca/)

图片4.png

The Small Molecule Pathway Database(SMPDB)是一个交互的、可视化的小分子通路数据库。SMPDB作为HMDB的子库之一,旨在支持人类代谢途径、生理途径、药物代谢、药物反应以及疾病的通路发现与阐明。

该数据库拥有完善的通路信息,包含132335种人类代谢、药物和疾病途径的通路图以及60628种其他生物体的通路图;此外,该数据库包含了超过3万种发现于人体中的小分子通路,其中70%的通路为该数据库独有,在其他数据库中无法找到;提供了巧妙详细地人类代谢通路、代谢疾病通路、代谢物信号通路和药物活性通路的超级链接图表,具有强大的通路图表绘制功能。


5、mzCloud

(https://www.mzcloud.org/)

图片5.png

mzCloud数据库由Thermo公司基于标准品使用QE系列质谱仪构建的云端质谱数据库,它包含在许多实验条件下获得的高分辨率和低分辨率MSn下各种化合物的质谱图谱和相关的碎片数据,解决了光谱重现性问题。该数据库提供了可自由搜索的光谱、光谱树、结构、碎片、前体离子、色谱数据和化合物相关参考文献的信息,可以帮助用户对质谱图中的碎片进行解释和标识,根据质谱数据推断化合物的结构和特性,常用于非靶向代谢组学研究中的物质鉴定。


6、Metlin

(https://metlin.scripps.edu)

Metabolite Link (Metlin)数据库是由美国斯克里普斯研究院(Scripps Research Institute)开发的一个非常全面的二级质谱数据库,主要用于液质非靶向代谢组学代谢物鉴定领域,目前包括超过100万种分子,包括脂质,类固醇,植物和细菌代谢物,小肽,碳水化合物,外源性药物/代谢物,中心碳代谢物和毒物,超431000个高分辨率MS/MS质谱图。该库含有大量代谢物的二级质谱图,而且每个化合物都有多种不同碰撞能的图谱,可以清晰的找到代谢物的碎片离子,方便比对鉴定代谢物;用户还可以获得分子量、化学式、化学结构等信息。但是该数据库没有代谢物在生物体中的浓度、代谢通路等信息,偏重于化学分析;且Metlin虽然有大量高质量的二级质谱图,但是因为收费较高,不适合日常查询使用。


7、MassBank

(https://massbank.eu/)

图片7.png

MassBank是第一个用于生命科学(<3000 Da)的化合物质谱的公共存储库,旨在公开分享从化学标准品得到的质谱图,以方便用户进行代谢物的鉴定。该数据库人为地将来自于相同代谢物但是不同碰撞能量或者不同的碎裂方式的碎片离子合并成一张质谱图,这使鉴定的结果不再依赖于某一特定的仪器设置或者特定厂家的仪器。

但是由于数据库中所有的记录并未经过充分的筛选,会出现有些条目对应的信息较差或者存在错误注释以及有一些谱图也包含了噪音信号或者提取的效果并不是很好的情况。


8、BiGG Models

(http://bigg.ucsd.edu90)

图片8.png

BiGG Models是一个基于代谢组学的系统生物学整合数据库,可用于预测代谢途径的使用和生长表型。作为生化、遗传和基因组结构的代谢网络重建的知识库,目前拥有108个基因组规模代谢模型(GEM)的代谢知识,数据库中代表的独特反应数量有28302个,独特代谢物的数量有9088种。代谢物与许多外部数据库相连,包括KEGG、MetaCyc、Reactome、HMDB、RCSB PDB、Model SEED和Entrez Gene。

该数据库最大的特点是含有各类模式生物的代谢谱图模型。用户可以直观的调取各种生物的整体代谢通路,也可以查看某个具体的生化反应。同时也可以进行代谢产物搜索。但是该数据库侧重描述了代谢通路和生化反应信息,缺少代谢产物绝对浓度,以及其应用和意义方面信息。


9、BioCyc

(https://www.biocyc.org/)

图片9.png

BioCyc是一个集合了数千个测序生物体基因组和代谢途径的功能数据库。BioCyc是人工校验数以万计的论文构建成的高质量的数据库,特别是大肠杆菌,枯草芽孢杆菌,人类及酿酒酵母的数据库内容;支持计算预测完全测序的生物体的代谢途径、缺失酶和操纵子;集成多个数据库数据,例如UniProt中的蛋白特征和GO注释等。

BioCyc中的每一个数据库描述了单个有机体的基因组和代谢通路,该数据库会按照质量等级分为三个层级,其中第一层数据库质量最高。这里简单介绍BioCyc第一层数据库中两个主要的数据库HumanCyc和MetaCyc。

(1)HumanCyc(https://humancyc.org/)

图片10.png

HumanCyc是描述人类基因和代谢途径的数据库。该数据库具有人体细胞内代谢通路总体图,用户能够缩放查看具体的某个代谢通路,点击某个代谢产物节点,可以获得该代谢产物的化学结构图、化学式以及相应的生化反应。

(2)MetaCyc(https://metacyc.org/)

图片11.png

MetaCyc是非冗余且通过实验手段阐明过的代谢通路,包含参与初级和次级代谢的途径,以及相关的代谢物、反应、酶和基因,在植物代谢组学中使用较为普遍。MetaCyc 目前包含3153条途径、19020种反应和19372种代谢物,且在实时更新中。MetaCyc可以作为新陈代谢在线百科全书,用来预测测序基因组中的代谢途径,通过酶数据库支持代谢工程。


10、GMD

(http://gmd.mpimp-golm.mpg.de/)

图片12.png

The Golm Metabolome Database(GMD)作为一个植物代谢组学数据库,侧重于非靶向代谢组学。已有1450种已被鉴定的代谢物和10336个GC-MS图谱信息。

该数据库含有大量植物代谢物的GC-MS图谱(特别是衍生化后的),用户可以导入自己GC-MS数据进行搜索比对和鉴定;该数据库还含有部分代谢产物在植物中的浓度,可以按照植物名、部位等进行搜索。

由于该数据库主要收录了植物的代谢组,没有其他生物的信息,且缺乏LC-MS/MS图谱,限制了这个数据库的应用。但是GMD对于进行植物代谢组学研究的人员来说,‌仍然是一个重要的资源,‌特别是对于那些需要进行GC-MS数据分析的研究者。


11、PlantCyc

(https://plantcyc.org/)

图片13.png

Plant Metabolic Pathway Databases(PlantCyc)作为植物代谢途径数据库,是植物代谢网络(Plant Metabolic Network,PMN)的主要组件之一。它包含计算分析的基因、蛋白酶、化合物、化合反应和初级、次级代谢产物等信息。PlantCyc汇集了500多种植物的1146条途径、4217种酶、5392个反应、4899个化合物的信息。


12、Lipid Maps

(http://www.lipidmaps.org/)

图片14.png

Lipid metabolites and pathways strategy(LIPID MAPS)数据库是世界上最大的公共脂质数据库,旨在利用系统生物学方法、质谱方法等鉴定、定量生物体内的脂质,揭示多种生命活动、环境变化带来的脂质变化。LIPID MAPS有48519种脂质化合物,包含LIPIDAT,Cyberlipids和其他公共数据库与生物有关的脂质数据,提供了组织脂质结构和生化数据的系统化和标准化方法。

该数据库一方面可以进行脂质化合物信息的检索及下载;另一方面还提供了一些生物信息学分析工具,比如基于质谱的脂质定性工具,通过给定特定的m/z或二级谱图等信息,可以预测可能的脂质分子等等。对于脂质组学初学者,LIPID MAPS是一个非常好的学习平台。


13、Lipidblast

(https://fiehnlab.ucdavis.edu/projects/LipidBlast)

图片15.png

Lipidblast是由美国加州大学戴维斯分校的Oliver Fiehn实验室于2013年在Nature Methods上发表的基于计算机模拟的脂质组学理论数据库,可用于注释和鉴定植物、细菌、藻类、动物、人类、病毒中的数百种脂质。该数据库适用于各种低分辨率和高分辨率仪器。目前包含29类常见脂质,含有119341种化合物以及212685张MS/MS谱图,可作为Lipidmaps分析的补充。


14、LipidBank

(https://lipidbank.jp/)

图片16.png

LipidBank是一个开放的、公开免费的天然脂质数据库,包括脂肪酸、甘油脂、鞘脂、类固醇和各种维生素。该数据库包含6000多种独特的分子结构(ChemDraw cdx格式、MDL MOL格式)及其脂质名称(通用名称、IUPAC),光谱信息(质量、UV、IR、NMR等)与文献信息。该数据库只纳入天然脂质分子,并且所有分子信息均由脂质研究专家手动整理和批准。


15、ChemFOnt

(https://www.chemfont.ca)

图片17.png

化学功能本体论(ChemFOnt)是基于GO数据库衍生的,描述了>341 000种生物重要化学物质的功能和作用,几乎包含HMDB的代谢物,目前包含390万个蛋白质-化学关系和1030万个化学-功能关系。ChemFOnt能够帮助统一化学品和化学属性的描述,从而创建更全面的生化系统计算模型,更好地将功能化学信息整合到代谢组学、蛋白质组学、基因组学和宏基因组学数据分析工作流程中。

由于该数据库支持范围有限,目前仅支持部分化学元素和化学键,无法显示所有化学结构;ChemFont可能与某些软件和平台不兼容,需要额外的配置才能正常使用;此外,使用ChemFont需要学习其特定的符号和规则,对于初学者来说可能学习成本高。


16、PubChem

(https://pubchem.ncbi.nlm.nih.gov)

图片18.png

PubChem 是世界上最大的免费访问化学信息集合。PubChem主要包含小分子化合物,但也包含较大的分子,例如核苷酸、碳水化合物、脂质、肽和化学修饰的大分子。用户可以按名称、分子式、结构和其他标识符搜索化学品,也可以查找有关化学和物理性质、生物活性、安全性和毒性数据、专利、文献引用等信息。


17、ChemSpider

(https://www.chemspider.com/)

图片19.png

ChemSpider是一个免费的化学结构数据库,提供数百个数据库的1亿多个结构的快速文本和结构式检索。它为化学工作者提供了较全的理论与实验数据,包括光谱、熔点、沸点等物理性质。对于药化或药物设计的人来说,依据靶点检索化合物也是很有用的功能。


18、ChEBI

(https://www.ebi.ac.uk/chebi/aboutChebiForward.do)

图片20.png

Chemical Entities of Biological Interest (ChEBI)是一个收录生物医学相关化学条目的数据库,ChEBI的目标是提供一个综合的、可访问的化学实体资源,以支持生物科学研究。该数据库涵盖了广泛的化学实体,包括小分子化合物、天然产物、合成物、标准化合物以及其他生物分子,并包含了丰富的属性信息,如化学结构、分子质量、化学式、化学命名等。它在药物研究、药物设计、代谢途径预测、化学信息检索等方面发挥了重要的作用。


19、MiMeDB

(https://mimedb.org)

图片21.png

微生物代谢物数据库(MiMeDB)作为一个独特的多组学数据库,它汇集了有关人类微生物组、代谢组(人类和微生物)、蛋白质组(人类和微生物)和基因组(微生物)的广泛信息。它旨在用于代谢组学、临床化学、生物标志物发现中的应用。MiMeDB可链接到包括FooDB、HMDB、KEGG、PubChem、MetaCyc、ChEBI、UniProt、ChemFOnt等在内的15个其他数据库。该数据库易于搜索、浏览和导航。目前包含24254种化合物、1904种微生物、648861种光谱、626种疾病、3112种参考文献的信息。