关于我们

【5分钟小课堂第2弹】从碎片重建整体，宏基因组拼接组装全攻略

2016-08-23

在上一期的“5分钟小课堂”中，小编梳理了宏基因组学研究的关键步骤流程，并概述了挖掘宏基因组学大数据的四大“法宝”：拼接组装、功能注释、生物标记物筛选和菌株水平的精细解析。其中，首当其冲的就是宏基因组的拼接组装，可谓高通量测序中的“拼图游戏”。作为后续三大“法宝”的数据来源，拼接组装的效果将直接影响下游分析的可靠性，对研究意义的重要性不言而喻。今天，就让小编与您一起，探索宏基因组拼图游戏的奥秘，献上史上最全攻略！

1. 什么是拼接？

拼接组装是根据序列的一致性，将高通量测序产生的众多宏基因组DNA短片段依次有序地重叠连接在一起，从而“重建”获得较长的连续不间断序列，也就是传说中的“Contigs”。利用双端PE（Paired-end）序列携带的信息，可以估计Contigs之间的间隔长度（即Gaps），从而连接形成Scaffolds。

宏基因组的拼接组装流程图，修改自文献[1]

通过以上介绍，小伙伴们有没有发现，宏基因组拼接组装和拼图游戏真的有异曲同工之妙呢！这里，拼图的原材料就是短片段序列，拼出的图就是Contigs和Scaffolds，而游戏的通关秘诀，无疑就是选取合适的拼接组装算法啦！

2. “拼图游戏”的关键：de Bruijn图和一笔画问题

宏基因组包含成千上万种微生物，彼此之间的含量差异可达好几个数量级。拼接组装这样的“大杂烩”，不仅需要庞大的数据量，更需要选取精巧、合适的算法。

目前的宏基因组大数据通常由Illumina HiSeq测序仪产生，序列较短（2 × 150 bp）但通量极高。因此，科学家对序列拼接组装的算法做了针对性的优化，将拼图游戏简化为我们熟知的“一笔画问题”图论问题，下图就是个鲜活生动的例子：

基于de Bruijn图的序列拼接组装示意图，修改自文献[2]

上图中，原始序列长度为4碱基。首先将每一条短序列都拆分为一系列长度为k的子片段（俗称k-mer），比如，图中的原始序列AAGA被拆分为AAG和AGA两个长度为3碱基的k-mer。然后根据全体k-mer之间的连接顺序和重叠关系构建de Bruijn图，尝试找到一次性遍历所有k-mer的“一笔画”路径，由此完成拼接组装，获得Contigs和Scaffolds序列（图中的红色部分为重复序列，可以看到，它们也被正确识别和拼接）。

3. 常用拼接组装工具简介

目前，基于de Bruijn图的序列拼接组装工具已成为主流，包括SOAPdenovo2[3]和IDBA-UD（Iterative De Bruijn graph Assembler for sequencing data with highly Uneven Depth）[4]等。这些工具都能对原始序列中隐含的测序错误进行校正，从而提升拼接组装的精确度。通常而言，SOAPdenovo2的拼接速度较快，而IDBA-UD采用了迭代算法，从一系列k-mer值中，选取最合适的k-mer参数进行拼接组装，同时针对宏基因组中不同物种测序深度不均一的现象进行了优化，因而被认为更适合于宏基因组的拼接组装。

IDBA-UD拼接组装流程图，修改自文献[4]

当然，de Bruijn图也并非万能。对于最近日渐流行的三代单分子实时测序技术，由于其具有超长读长的特性，HGAP（Hierarchical Genome Assembly Process）[5]等根据序列比对寻找彼此之间重叠区域的方法更为合理。

4. 拼接效果的评价

正如游戏得分有高低，在拼接完成后，我们也需要对组装效果进行评估。显然，Contigs和Scaffolds长度是评价的重要标准之一。通常我们使用N50值来评估，将所有Contigs/Scaffolds序列按照长度从长到短依次排列后相加，当加和的长度达到总长度的50%时，最后一条Contigs/Scaffolds序列的对应长度即N50值。显然N50越长，拼接组装效果越好，宏基因组序列也就越完整。

N50值计算示意图

当然，宏基因组的复杂程度将直接影响拼接组装的效果。比如，对于肠道宏基因组样本，迄今为止的几项大型研究（如MetaHIT、HMP和IGC等项目）得到的基因目录的N50值都在1 kb左右[6-8]。

结语

通过以上的讲解，小伙伴们对宏基因组的“拼图游戏”应该入门了吧！总体而言，拼图游戏虽然复杂，但只要选对合适的算法，通关也并非遥不可及！当然，随着科技的不断发展，我们也期待涌现更多更强大的宏基因组拼接组装工具。

至于拼接获得的Contigs/Scaffolds序列如何用于后续分析，且待下回分解，敬请各位小伙伴保持关注哦！

附：【5分钟小课堂】后续预告

l 看不见摸不着的它们，都在忙些啥？宏基因组功能注释为您解答！

l 茫茫菌群，谁是天使，谁是元凶，谁又是围观路人甲？

l 菌株水平的超高分辨率解析，宏基因组学就是这么高大上！

参考文献

1. Fan W, Li RQ (2012) Test driving genome assemblers. Nature Biotechnology 30: 330-331.

2. Berger B, Peng J, Singh M (2013) Computational solutions for omics data. Nature Reviews Genetics 14: 333-346.

3. Luo RB, Liu BH, Xie YL, Li ZY, Huang WH, et al. (2012) SOAPdenovo2: an empirically improved memory-efficient short-read de novo assembler. GigaScience 1: 6.

4. Peng Y, Leung HCM, Yiu SM, Chin FYL (2012) IDBA-UD: a de novo assembler for single-cell and metagenomic sequencing data with highly uneven depth. Bioinformatics 28: 1420-1428.

5. Chin CS, Alexander DH, Marks P, Klammer AA, Drake J, et al. (2013) Nonhybrid, finished microbial genome assemblies from long-read SMRT sequencing data. Nat Methods 10: 563-569.

6. Huttenhower C, Gevers D, Knight R, Abubucker S, Badger JH, et al. (2012) Structure, function and diversity of the healthy human microbiome. Nature 486: 207-214.

7. Li JH, Jia HJ, Cai XH, Zhong HZ, Feng Q, et al. (2014) An integrated catalog of reference genes in the human gut microbiome. Nature Biotechnology 32: 834-841.

8. Qin JJ, Li RQ, Raes J, Arumugam M, Burgdorf KS, et al. (2010) A human gut microbial gene catalogue established by metagenomic sequencing. Nature 464: 59-65.

转录组

单细胞组

蛋白组

表观基因组学

代谢组

微生物组

微生物基因组

动植物基因组

人基因组

三代测序服务

常规分子实验

常规测序与合成

微生物采样工具

妇幼健康

肿瘤早筛

新型冠状病毒核酸检测

NGS测序平台

单细胞空转平台

质谱平台

成果展示

最新资讯

培训课程

公司概况

专家团队

荣誉资质

新闻中心

联系我们

加入我们