首页> 关于我们 >新闻中心>技术分享>新闻详情

BSA问答——进阶篇

2020-11-10

Q1:BSA项目有哪些主要的分析方法?

A1:现在运用的最主要的三种分析方法如下:

1、ED值,适用于亲本数据遗失,仅有两个极端混池的BSA项目,也可以用于高杂合度林木类F1代极端混池的BSA项目;

2、snp-index法,该分析的使用必须有亲本的数据,适用于2个亲本和2个极端混池的项目;

3、GPS法,该方法主要针对的是多个混池的项目(一般2~4个混池),有无亲本的数据均可。


Q2:BSA项目的阈值如何设定?

A2:先汇总下BSA主要的阈值选择标准:

1、通过10000(或者1000)次的模拟后选择90%,95%和99%的置信区间的SNP-index值;

2、99%或者95%的分位数,或者所有SNP位点SNP-index 的平均值+3标准差;

3、根据分离群体的遗传分离比确定阈值(如F2代种群分离比为3:1,一般阈值线设定为0.67);

4、ED算法中的阈值(ED算法阈值众多:有平均值+3X标准差,有ED4>0.1,也有ED5 的99%分位数等)。


Q3: 测序数据与参考基因组比对率低,可能是什么原因导致的?

A3:1、参考序列质量:参考基因组组装质量差,错误率高,比对率就会低。

2、所测物种与参考基因组的亲缘关系较远,基因组差异较大。这时可将未比对到参考基因组的reads进行局部组装后获得新的参考基因组,再在两个池间比对鉴定变异,进行相关性分析。

3、样品的杂合度高,重复序列多:基因组复杂度较高,比对分析受到的影响也越大。

4、存在外源污染:如个别微小昆虫提取的DNA中,很可能包含植物、共生菌、病原体等的基因组,导致比对率较低。


Q4:某区域测序深度过高会对后续分析产生什么影响?

A4:某区域测序深度过高,可能是存在多拷贝的重复序列,这种情况下检测出的SNP是不可靠的。测序深度提高,覆盖度也会上升,当测序深度达到15X,覆盖度基本上饱和,测序深度达到30X,SNP检测检出率达到饱和。个别区域测序深度过高,会导致SNP检测错误率增加,分析过程中将会删除此类SNP。


Q5: 结果中0/0、1/1、0/1及./.分别代表什么含义?

A5: 这几种均为样品的基因型(genotype)。两个数字中间用“/”分开,这两个数字表示双倍体的sample的基因型。0 表示样品中有ref的allele;1 表示样品中variant的allele。因此:0/0 表示sample中该位点为纯合的,和ref一致;0/1 表示sample中该位点为杂合的,有ref和variant两个基因型;1/1 表示sample中该位点为纯合的,和variant一致。


Q6:定位效果不理想可能是什么原因导致的?

A6:导致定位不理想的因素很多,主要有以下几点:

1、亲本间遗传背景差异大,除了目标性状外,还有很多其他差异,这样对分析产生的干扰很大,难以定位;

2、性状统计复杂,目标性状可能是由多个简单性状构成,可以拆分性状,重新定位,另外数量性状本身也定位难度较高,有一定不可控性;

3、测序数据有污染,可以通过抽取部分测序数据在nr库里做blast比对,检查比对结果;

4、 分析方法不适用,可以分别用ED法和snp-index法进行定位,比较定位结果。


Q7:准确的性状显隐性判定,性状分离比,混池样本数目对分析有什么影响?

A7:群体构建后,一般先统计群体的性状分离比,主要作用是判断该性状是否满足孟德尔遗传定律,是否适用于分析模型并对位点的基因型进行判定;混池样本数目主要是在进行snp-index计算时,是置信区间检验的其中一个参数,混池数目越多,最终模拟得到的阈值线越准确。


Q8:混池数目和测序深度对分析有什么影响?

A8:在《User guide for mapping-by-sequencing in Arabidopsis》中,作者对混池个体数以及测序深度对候选基因数量的影响进行了评估。结果显示,当子代个数超过30个,测序深度大于30X之后,定位出候选基因的数量趋于稳定。同时基于多篇文献的报导,推荐个体数≥30个/池,测序深度:每个亲本≥20X,每个子代池≥30X。


Q9:看分析结果时应该关注哪些信息?

A9:1、定位区间的大小,当定位区间过大时,可以在BSA定位区间内找些SSR、SNP或者InDel标记,进行局部作图,可以有效的缩小定位区间。

2、关注定位区间内snp-index为1的位点,这些位点在两个极端混池中呈现性状关联;

3、关注定位区间内发生非同义突变的位点,氨基酸的突变可能导致所在基因功能的变化;

4、关注定位区间内注释为终止密码子的位点,提前产生终止密码子,可能导致蛋白功能性质的改变;

5、关注定位区间上下游区域的突变,因为候选区间的产生与分析时所选取的各种参数有关,在找不到合适的位点时,可以往候选区间上下游区域进行查找。


Q10:定位不到区间或定位效果差的可能原因有哪些?

A10:1、表型鉴定出现错误或偏差,性状本身由于易受环境影响,导致鉴定不准确,影响混池效果;

2、子代群体数量过少,混池单株数过少,影响最后定位效果;

3、选取的材料性状不够极端,使得最后定位区间较大;

4、没有测亲本序列,直接用研究物种参考基因组,亲缘关系远,出现大量假阳性;

5、研究物种或品系为高杂合,DNA池中存在多种基因型,导致SNP检测和基因型频率计算可靠性降低;

6、研究的数量性状由微效多基因控制,会导致出现多个△SNP-index相似的区间。