2017-03-22
以PacBio公司的SMRT单分子实时测序技术(Single molecule real-time sequencing)为代表的三代测序技术,通过其独有的环形一致性测序模式(Circular-consensus sequence,CCS),极大提高单碱基测序的准确率,远超Illumina等二代测序技术。与传统转录组测序项目相比,利用PacBio平台的全长转录组测序技术可以直接获得mRNA的全长,保证了mRNA序列的精确性。近期我们将陆续推出全长转录组测序技术相关文章,供讨论和交流。我们在上一期向大家介绍了全长转录组测序的可变剪切模型可视化,本期将为大家对派森诺特色分析内容——融合基因染色体分布进行重点讲解。
下面这张彩虹图内圈以连线的形式展示了融合基因(融合基因是指将两个或多个基因的编码区首尾相连。置于同一套调控序列控制之下,构成的嵌合基因)的两个组成基因在染色体上的分布位置,外圈则以散点图的形式展示了各位点上的基因成为多少种融合基因的组成成分的情况,可以说以可视化的方式在一张图上展示了满满的信息。那么这张图是如何绘制的呢?
我们所用的工具就是R语言的circlize包。
首先导入准备好的文件。这个文件中包含融合基因的两个组成基因所属染色体,起始位置,基因名字等信息。另外还需要导入各个染色体的长度,以便按比例画出每个扇区所占角度。
扇区的范围需要在开始时设置好,这里按染色体长度设置每个扇区所占角度的大小,我们会设置一个最小角度,以免染色体太小在图上无法显示出来,比如MT染色体。
然后从外至内画每一个轨道(即圈圈)。首先画第一个轨道,把染色体的名字依次放置在每个扇区的最外层轨道上。
接着画第二个轨道,即以基因位点为横坐标,该位点的基因被融合基因用上的频率为纵坐标的散点图,这里基因位点就是之前导入的基因起始位置,由于基因区域在染色体这么大的范围内会被浓缩成一个点,所以我们这里直接采用基因的起始位置代表基因区域。绝大多数的基因仅被1种融合基因融合,但也有例外,从放大图中可以看到1个基因竟成为了13种融合基因的组成基因之一,是不是难以置信呢?
在这个轨道上还加上了染色体的长度范围坐标,主刻度以100M bp为单位。
再接着画第三个轨道,即代表染色体的色块,填充颜色用的是五彩缤纷的彩虹色,更容易区分各染色体。
最后,用弧线连接融合基因的两个组成基因即可,弧线的两端分别连接至两个组成基因的位点上,这里的基因位点与第二个轨道上的基因位点是对应的。连线的颜色是可以设置的,这里我们用第一个基因所在染色体的颜色。可以看到有的染色体上的基因多与同染色体上的基因融合,而有的染色体上的基因多与其他染色体上基因融合,这是否蕴含着某些染色体结构信息呢?
好了,到这里图就画完了,如果大家有感兴趣的基因,我们还可以将基因的名字在图中标识出来。