首页> 关于我们 >新闻中心>公司新闻>新闻详情

全长转录组测序要点汇编Ⅲ ——分析内容篇

2017-03-08

以PacBio公司的SMRT单分子实时测序技术(Single molecule real-time sequencing)为代表的三代测序技术,通过其独有的环形一致性测序模式(Circular-consensus sequence,CCS),极大提高了单碱基测序的准确率,远超Illumina等二代测序技术。与传统转录组测序项目相比,利用PacBio平台的全长转录组测序技术可以直接获得mRNA的全长,保证了mRNA序列的精确性。上期我们为大家介绍了全长转录组测序的数据质控,本期将为大家介绍三代全长有参转录组的分析内容。主要包括:


1. 转录本分类

数据过滤后得到高质量的Reads of Insert(RoI),接着对其进行转录本分类。理论上完整的RoI应该有5’primer、3’primer和polyA部分。但在实际测序中,由于5’端降解等因素,并不是所有的RoI都是完整的,即不是全长转录本序列,而且有少部分RoI序列为嵌合体。因此通过检测RoI序列是否含有 5’primer, 3’primer和polyA以及其位置的关系, 将RoI序列分为全长非嵌合(Full-Length-Non-Chimeric)序列、全长嵌合(Full-Length-Chimeric)序列、非全长(Non-Full-Length)序列等。其中全长非嵌合序列即是物种原始的全长mRNA序列,各分类之间的相互关系见下图:


图1 转录本分类


2. 序列聚类与矫正

全长非嵌合序列中存在大量的冗余序列,我们将冗余序列聚类到一起,得到新的一致性序列(Consensus Isoforms),然后将非全长序列比对到一致性序列上进行校正,最终得到准确度大于99% 的高质量Isoform(即转录本)。下图是Isoform长度分布图,长度分布的区间与文库片段的选择有关。


图2 Isoform长度分布


3. 参考基因组比对

我们将经过校正得到的Isoform与参考基因组比对, 根据基因组注释信息,可得知序列的来源基因以及表达产物的结构。与参考基因组比对情况见下图,图中Score 0:覆盖了基因的区域,但是没有或者少有与基因的exon匹配上的Isoform数目;Score 1:与基因的一些exon有一对一overlap的Isoform数目; Score 2:与基因的一些exon有一对一overlap并且匹配情况较好的Isoform数目。


图3 比对参考基因组情况统计


4. Known Isoforms 和Novel Isoforms功能注释

对于比对到基因组上的score为0-5的known Isoform采用有参考基因组注释方法,对于Novel Isoform采用无参考基因组注释方法。基因功能注释所用到的数据库包括 GO、KEGG、eggNOG、NR、Swiss-Prot等。下图是其中的eggNOG注释结果:

图4 eggNOG注释


5. 结构分析

结构分析是三代全长转录组中的一个重点研究内容,不同的样本转录物不尽相同,我们进行转录本结构分析,可以统计所有转录本的结构差异。它能够准确辨别二代测序无法识别的同源异构体或同源基因等。转录本结构分析包括可变剪接,融合基因, UTR区域注释,cSNP 和InDel 分析等。


 

图5 融合基因分析


 

图6 可变剪切分析