首页> 关于我们 >新闻中心>技术分享>新闻详情

扩增子和宏基因组测序常用数据库介绍

2024-05-13

扩增子和宏基因组测序常用数据库介绍(1).jpg

微生物作为地球上最古老、最丰富的生命形式之一,几乎存在于所有的生态系统中,发挥着不可或缺的作用。从海洋深处极端环境到地表,从人类内部器官、肠道到皮肤,影响着地球上的每一个生物和环境。随着科学技术的进步,对微生物的研究也逐渐深入,不同微生物数据库的建立和不断更新都为此提供了重要支持。本期小派为大家介绍一下微生物组(扩增子测序和宏基因组测序)数据分析时常用的数据库。

测序项目类型

数据库

扩增子常用数据库

Silva数据库(环境类细菌、古菌、真核18S注释)

Greengenes数据库(肠道菌群类细菌注释)

UNITE数据库(真菌注释)

PR2数据库(原生生物注释)

HOMD数据库(口腔类微生物物种注释)

Greengenes2(基于参考树,适用于肠道和环境细菌、古菌注释)

宏基因组数据库

NCBI数据库

GTDB数据库



Silva数据库

https://www.arb-silva.de/

Sliva数据库全称(SILVA ribosomal RNA database),是一个包含三域微生物(细菌、古菌、真核)rRNA基因序列的综合数据库,收录来自不同环境、不同地理位置以及不同分类群的原核生物16S 和18S rRNA序列数据,既可以针对小亚基rRNA基因序列(简称SSU,即16SrRNA/18SrRNA),也可以针对大亚基rRNA基因序列(简称LSU,即23SrRNA/28SrRNA)。目前最新数据库版本为SILVA SSU and LSU databases 138,更新时间为2020年8月27日,最新版本数据库包含的数据信息见下表1所示。

表1 SILVA SSU andLSU databases 138数据库基本参数信息


_

SSU Ref

SSU Ref NR

LSU Ref

LSU Ref NR

版本

138.1

138.1

138.1

138.1

总序列

2,224,740

510,508

227,331

95,286

细菌

1,983,022

431,329

196,940

77,948

古菌

69,198

20,389

1,516

991

真核

172,520

58,790

28,875

16,347

可培养

39,312

39,312

8,086

8,086

模式株

24,437

24,437

4,704

4,704


Greengenes数据库

https://greengenes.lbl.gov/Download/

GreenGenes数据库是最经典的16S物种数据库之一,针对细菌和古菌的16S rRNA基因序列进行整理,旨在促进微生物分类和多样性研究,提供了详细的分类信息和注释,便于微生物群落的分析。但该数据库目前已停止更新,最新版本为2017年更新的13.8版本,它对13.5的序列分类进行了修正,分类上采用的是通用的界门纲目科属种七级,其对微生物物种的拉丁文命名也比较规范,故仍是细菌多样性分析是使用的主流数据库之一。


UNITE数据库

https://unite.ut.ee/

ITS(全称ribosomal internal transcribed spacer,核糖体基因内转录间隔区)是最常用的真菌鉴定及多样性检测的marker基因,UNITE数据库是专门针对真菌ITS序列(包括ITS1和ITS2区)最全的数据库,目标是形成正式的真菌条形码,更专注于真菌分子鉴定的综合性数据库和序列管理环境。目前使用的Unite 9.0版本于2022年10月发布,其中ITS 序列数量 (UNITE+INSD):8 395 383;数字对象标识符为 1.5% 阈值的 UNITE 真菌物种假设数量:290 922,并为每个物种分配了数字对象标识符(DOIs),以便于在科学研究中进行精确引用。


PR2数据库

https://pr2-database.org/

PR2(Protist Ribosomal Reference database)数据库于2013年发表在Nucleic Acids Research上,是专门针对真核微生物小亚基SSU rRNA(即18SrRNA)基因的原生动物分类系统。该数据库主要由核编码的原生生物序列构成,但为方便分析18S的高通量测序数据,数据库也包含了后生生物、陆地植物、大型真菌和真核细胞器(线粒体、质体等)的SSU序列,记录了全球超过2600个原生动物物种的rRNA序列,覆盖了原生动物界的绝大部分。目前该数据库最新版本PR2 5.0于2023年4月更新。


HOMD数据库

https://homd.org/

第一个口腔微生物组综合数据库——人体口腔微生物组数据库(human oral microbiome database,HOMD)于2008年3月25日正式对公众开放,该数据库整合约700种人类口腔原核微生物的基因组信息(约400个口腔分类单元和1300多个微生物菌株的基因组),其中54%的物种具有明确命名,14%的物种虽可培养但尚未被命名,还有32%为未命名的不可培养物种,总计大约有150个属,700个种。目前该数据库最新版本eHOMD 3.1版本于2023年3月更新。


Greengenes2数据库

https://greengenes2.ucsd.edu/

宏基因组学和16S rRNA基因扩增子研究广泛用于微生物组研究,但使用这些不同方法的研究人员通常发现他们的结果难以获得一致结果。方法之间缺乏标准化限制了微生物组对可重复生物标志物发现的利用,尽管SILVA和Greengenes很全面,但通常无法链接到基因组。加州大学圣地亚哥分校Rob Knight团队通过迭代方法将NCBI均匀采样的15,953个细菌和古菌基因组的全基因组、生命树计划(Living Tree Project,LTP)2022 年1月发布的18,356个全长16S rRNA序列、来自Karst等人和地球微生物组计划500(EMP500)的1,725,274个接近完整的16S rRNA基因以及所有全长使用uDance v1.1.0将GTDB r207的 16S rRNA序列,重新生成了一棵涵盖来自31个不同地球微生物组项目本体论(EMP Ontology 3,EMPO3)环境的21,074,442个序列的大规模参考树,其中46.5%的物种级叶子被完整的基因组覆盖,Greengenes2系统发育覆盖率远大于过去的资源,已有结果表明由相同样本生成的16S rRNA和宏基因组数据在主坐标空间、分类学和表型效应大小方面一致。

图片1.png

图片2.png

图片3.png


NCBI数据库

https://www.ncbi.nlm.nih.gov/

NCBI全称National Center for Biotechnology Information是隶属美国国家卫生研究所的国家医学图书馆(NLM)的分部,开发有 Genbank 等公共数据库,提供 BLAST 、Entrez 、OMIM 、 Taxonomy  等工具,可对国际分子数据库和生物医学文献进行检索和分析,并开发用于分析基因组数据和传播生物医学信息的软件工具。在NCBI数据库中,可以找到大量的生物信息学数据,包括DNA和蛋白质序列,基因组组装,基因注释,蛋白质结构等,并且每日更新,是一个提供生物医学信息的重要平台。


GTDB数据库

https://gtdb.ecogenomic.org/

GTDB(Genome Taxonomy Database)数据库是一个基于基因组的微生物分类数据库,通过对自于 RefSeq、GenBank、宏基因组和单细胞中获得的未培养微生物的基因组草图进行多序列比对,使用 120 个单拷贝标记蛋白及核糖体 RNA 基因等构建基因组树,比对推断出微生物的分类地位,同时对NCBI现有的物种分类地位进行了重新划分,例如变形菌门被重新划分为6个新的类群等。相比传统的 16S rRNA 基因分类方法,GTDB 使用全基因组序列来构建分类树,能够提供更准确、更细致、更全面的分类信息。目前该数据库最新版本GTDB Version 09-RS220于2024年4月更新,包括596859个基因组和113104个物种(簇)。

图片4.png

图片5.png

Taxonomy

Bacteria

Archaea

Total

Phylum

175

19

194

Class

538

64

602

Order

1840

166

2006

Family

4870

564

5434

Genus

23112

1847

24959

Species

107235

5869

113104