2017-01-04
引言
派森诺生物于2016年1月底与美国加利福尼亚太平洋生物科学公司(Pacific Biosciences of California,Inc., PacBio)合作,购入第三代单分子基因组测序系统-Sequel。经过将近 5 个半月的等待,2016年6月7日,华中地区首台 PacBio Sequel 远渡重洋正式入驻派森诺生物(该平台也是当时全中国唯一一台硬件经过最新升级的 Sequel 平台)。作为一家商业化运作的公司,派森诺生物早在 2015 年初就开始积极布局基于第三代单分子基因组测序的产品开发,先后推出细菌全基因组完成图、真菌基因组近完成图及“白金级”动植物基因组等成熟产品。Sequel 平台入驻公司后,派森诺生物的技术团队紧锣密鼓、有条不紊地对该平台进行调试、优化,在经历了最初平台运行不稳定、测序试剂版本的更新迭代后,目前,派森诺生物的 Sequel 平台已经进入平稳的商业化运作阶段。限于篇幅,我们以众多案例中的一个来展示 Sequel 平台的运行效果。
样本背景信息
样本为地衣芽胞杆菌,革兰氏阳性细菌。该菌能调节肠道内微生物之间、微生物与宿主之间处于微生态平衡,同时参与肠道内物质代谢,增强免疫力和抗应激能力。基于该菌开发的制剂主要用于细菌原因引起的肠道菌群失调症以及肠道需要保健的养殖动物。地衣芽胞杆菌的基因组大小在 3.94 Mb~4.76 Mb,GC 含量为 45.00%~46.30%。
样本建库和测序信息
将 DNA 进行片段化后,我们构建了标准的 10 kb 的文库,采用 PacBio Sequel 平台进行测序,上机采用的试剂为 Sequel 平台最新的试剂版本 V1.2.1,上机模式为 Standard 模式,上机测序时间为 360 min。数据产出统计结果见表1,subreads 的长度分布见图1。
表 1 数据产出统计
Subreads: 指过滤掉接头、片段长度 > 200 bp 的序列。ZMWs 数量*: 有数据产出的 ZMWs 孔的数量;
图 1 subreads 长度分布图
基因组拼接
采用 falcon 软件对 Sequel 测序得到的数据进行拼接,总共拼接得到一条完整的序列;接着,利用三代测序 reads 对拼接得到的序列成功环化;随后,基于二代测序,对拼接的序列进行校正;最后,根据 GC skew 的结果对基因组的起始位点进行调整。最终的基因组大小为 4.352 Mb,基因组的 GC 含量在 45.94%,基因组圈图见图 2。
图 2 基因组圈图
小结:
(1) 该案例仅仅是派森诺生物 Sequel 平台商业化运行中的一个成功案例之一;
(2) 除细菌基因组外,目前,公司已有真菌及动、植物的样品在 Sequel 平台进行测序,公司也会在基因组拼接结束后,及时地发布这些信息,供广大科研工作者参考;
(3) 目前,很多公司都拿到了 Sequel 平台的测试数据,但真正能平稳运行 Sequel 平台且具有丰富经验的公司寥寥无几;
(4) 派森诺生物除了在 Sequel 平台的测序和拼接方面具有丰富的经验,在基因组的信息分析及深度的数据挖掘方面也有着丰富的经验,能协助老师发表高水平的科研论文。