专题:基于de novo测序的高等植物特异性状相关基因的鉴定分析

马铃薯膨大的含淀粉的块茎、柑橘富含维生素C的果实、辣椒的口感辛辣的果实、园林植物多样的花形、药用植物具生物活性的次生代谢产物……高等植物丰富多样的特化的性状广泛吸引了研究者的关注。目前,研究热点主要集中于具有生产效益和经济价值的性状上,研究方向涉及果实发育成熟、特异代谢产物合成、农艺性状(产量、品质)、园艺性状(花形、花期)、植株病虫抗性等方面。通过基因de novo测序可以一次鉴定到目标性状的多个相关基因,发现新的基因位点,揭示性状形成和调控的遗传机制,为进一步的验证和应用提供指导。

性状相关基因鉴定分析的实验设计主要包括种间比较和种内比较两个途径。种间比较常通过遗传和表型差异较大的品种间比较、同属或同科的近缘有参物种间比较,或以模式植物拟南芥为参考进行比较,鉴定并比较目标性状相关的同源基因,比较内容涉及基因表达情况和拷贝数等。种内比较通常考察相关基因的表达情况,通过在根、茎、叶、花、果等不同组织部位取样,或在不同生长发育阶段取样,来比较目标基因的表达差异并分析其与特异性状的关系。基因表达模式的检测常采用转录组测序或表达谱测序,或进行拷贝数检测等。

对于实验结果的讨论可结合研究物种的特点,综合进化分析内容,如基因家族的扩张/收缩、全基因组倍增事件、多倍化事件等驱动高等植物进化的事件或驯化改良施加的选择压力,提出目标基因可能的形成原因,阐释目标性状产生的遗传和分子机制,并规划进一步的验证工作。通过以下文献案例,我们可对这方面的研究思路窥见端倪。

1. 辣椒果实发育及辣椒素合成相关基因

这是2014年PNAS的一篇文章,通过对同属茄科但分属不同果实发育模式的辣椒和番茄的比较,鉴定了果实发育相关基因,通过对辛辣和不辣的辣椒品种的比较及转录组测序,鉴定了辣度相关基因并分析了其表达模式。

果实的成熟过程显著影响果实品质和保存期限,在跃变型果实(番茄)和非跃变型果实(辣椒)间差异显著。非跃变型果实软化过程更为缓慢且对乙烯无响应。比较番茄和辣椒在果实成熟期的表达谱,发现番茄有2281个特异基因,而辣椒有1440个特异基因,这两个物种的特异基因均涉及细胞壁重构、激素信号传导和代谢、碳水化合物代谢、蛋白质降解以及非生物逆境响应等。

但两者的差异在于以下4点:1)涉及乙烯生物合成的基因数目在辣椒中更低,辣椒的8个编码1-氨基环丙烷-1-羧酸盐合酶(乙烯生产的关键酶)的基因在果实成熟过程中无一上调,与辣椒较低的乙烯合成一致,而番茄中的2个该基因被强烈诱导;2)在辣椒中与乙烯信号和茉莉酸信号传导相关的差异表达基因的数目更低;3)与生长素和脱落酸相关的差异表达基因数目更大,包括与非生物逆境相关的基因,这与草莓(非跃变型果实)成熟过程中脱落酸的积累一致;4)叶片衰老的负调控因子WRKY70和ZAT10在辣椒中受到更强烈的诱导,表明这些转录因子的诱导可能对于辣椒的长保存期起到重要作用;5)9个番茄XTH(木葡聚糖內源转糖基酶/水解酶)基因中的15个在果实成熟过程中呈现差异表达,而辣椒的25个XTH基因中只有6个差异表达,表明XTH活性降低导致辣椒果实成熟过程中软化减弱。

辣椒素的积累,主要包括辣椒素和二氢辣椒素,为辣椒属植物独有且导致了果实的辛辣度(辣椒素合成通路见图1)。基于对辣椒辣度的前期研究,在辣椒、番茄、马铃薯和拟南芥中,鉴定了51个涉及辣椒素合成的基因家族及其同源基因。进化分析显示,与其他3个物种相比,辣椒有独立的、特有的13个基因家族的重复(如ACLd、AT3、β-CT、C3H、CAD、CCR、Kas I和PAL)。基因重复中的序列差异可能导致功能差异或新功能的产生,促进特异性的辣椒素生物合成的进化。

 

1. 辣椒素生物合成通路,来源:文献补充资料

以AT3为例,在辣椒中鉴定了3个At3(Pun1)的串联拷贝,编码假定的酰基转移酶且在某些辣椒属植物中对辣度起调控作用。野生和栽培辣椒中AT3-D1和AT3-D2均在保守的DFGWGKP结构域有氨基酸替换。对AT3-D1的分析表明(图2),在非辛辣基因型中,pun1等位基因(C位点)有2724/2930bp的缺失,横跨假定的启动子区和第一外显子。在辛辣的辣椒品种中,AT3-D1AT3-D2(图3)同样鉴定到了短InDel和单碱基非同义替换。

 

图2. AT3-D1基因结构,来源:文献补充资料

 

图3. AT3-D2基因结构,来源:文献补充资料

辣椒素生物合成相关基因的组织特异性和发育相关表达模式检测发现(图4),多数基因家族,除ACL-D4ACL-D5外,伴随辣椒素积累呈现组织和发育阶段特异性的表达模式。然而CCoAOMT-D9AT3-D1AT3-D2只在辣椒素合成的果实发育阶段显著表达。上述基因在5个非辛辣种的表达模式显示,AT3-D1检测不到或微量,表达缺失可能由于pun1等位基因的大片段缺失,使其成为非辛辣辣椒中的假基因。有趣的是,在非辛辣种中,AT3-D2的表达或能保持微量的辣椒素和二氢辣椒素。推测AT3-D1AT3-D2在C位点的剂量补偿效应形成了辣椒中辣度的差异。

 

4. 辣椒素生物合成相关基因表达模式,来源:文献原文

2. 棉纤维形成和伸长相关基因分析

这篇2012年的Nature Genetics文章通过对开花后3天(DPA)胚珠的转录组测序,在无纤维的雷蒙德氏棉和有纤维的陆地棉之间发现了关键成纤维基因的转录本的定量差异,包括Sus、KCS、ACO、MYB和bHLH基因。

鉴别到的4种蔗糖合酶(Sus)基因中,3种(SusBSus1SusD)在陆地棉中表达量大幅高于雷蒙德氏棉。(图5)

 

5. Sus基因表达量差异,图片来源:文献原文

若干种3-酮乙基-辅酶A合酶(KCS)基因,包括KCS2KCS13KCS6只在陆地棉中表达,而两种棉中都存在中等表达量的KCS7基因。表明高表达水平的Sus和KCS基因家族对于纤维细胞的形成和伸长可能确为必需的。(图6)

 

图6. KCS基因表达量差异,图片来源:文献原文

相对的,编码1-氨基环丙烷-1-羟酸氧化酶(ACO)的转录本在雷蒙德氏棉存在极端高含量,表明乙烯在纤维细胞发育早期有重要作用。(图7)

 

图7. ACO基因表达量差异,图片来源:文献原文

此前研究提出假设,即棉纤维在形态和起源上与植物表皮毛相似,表皮毛为多种植物组织中存在的毛状表皮细胞,常见于叶片和茎表面。假设提出,在拟南芥表皮毛发育中起重要作用的转录因子可能与棉纤维形成相关。在拟南芥中,MYB和bHLH类转录因子与TTG1形成复合物共同起作用调控表皮细胞发育。总计2706个转录因子,包括208个bHLH和219个MYB基因在雷蒙德氏棉基因组中得到鉴定。大量的MYB和bHLH基因在陆地棉胚珠中显著表达,而雷蒙德氏棉胚珠中只有残量表达,表明这些基因的部分可能为纤维早期发育所必需。(图8)

 

图8. MYB和bHLH基因表达量差异,图片来源:文献原文

这篇文章同样对棉子酚生物合成基因进行了鉴定和进化分析。棉会产生一种独有的萜类,包括脱氧半棉酚、半棉酚、棉子酚、半棉酚酮、杀实夜蛾素。棉植株在色素腺体中积累棉子酚及相关倍半萜类来防御病虫害。大部分棉倍半萜类都有一个共同前体衍生出来,(+)-δ-杜松萜烯,由(+)-δ-杜松萜烯合酶(CDN)通过法尼基二磷酸的环化作用合成,是棉子酚生物合成的第一个关键步骤。以前,CDN-A和CDN-C均被报道编码CDN酶活性。利用雷蒙德氏棉和其他8种有参物种的进化分析表明,除了水稻,萜环化酶基因家族为多种植物所共有。然而,只有雷蒙德氏棉和可可(同属锦葵目Malvales)拥有具生化功能的CDN1基因家族。似乎棉子酚合成能力与古六倍体和全基因组倍增事件均相关相关。在近缘分支的番木瓜和毛果杨中没有发现CDN1的同源基因,表明棉子酚的产生是在这些物种分离之后出现的。DDtYD和DDVAE结构域是棉子酚生物合成的关键因素,其他植物萜环化酶基因不编码含DDVAE结构域的蛋白因此不属于CDN同源基因。

 

图9. 棉子酚CDN1基因家族进化分析,图片来源:论文原文

3. 木槿的花期和抗病基因

2017年DNA Research的一篇文章做了木槿的de novo测序并研究了花期调控和植株抗性相关基因。不同植物花发育的的遗传和分子机制是高度保守的,包含4种主要的开花通路(光周期、自主调控、春化作用和赤霉素)。光周期通路中主要的开花信号受到FLOWERING LOCUS T (FT)的调控,而春化作用通路是通过暴露于特定刺激物后FT抑制剂的去除起作用。木槿是长日照开花植物,花期长且每天开花20~30朵不等。而一朵花只开放一天。为了揭示调控这些表型的遗传机制,研究了无油樟、拟南芥、可可、雷蒙德氏棉和木槿中4个开花通路涉及的基因,且研究了花、子房、根和叶等不同木槿组织中的基因表达模式。

花期基因的进化分析识别到木槿特异性的分支。由于花期经常取决于基因拷贝数,使用拟南芥的基因为参考,界定不同植物基因组中拷贝数变化,发现木槿的拷贝数为其余4者的2~7倍。本研究涉及的花期调控基因中,涉及昼夜节律调节(CO,ELF4, FKF1, GI, LHY, PHYs)和花芽形成(FCA, FLK, FT,LFY, VIN3, SOC1, TFL, SVP)基因数在木槿中显著提高。此外,调控光敏色素A信号的FAR1家族基因的拷贝数在木槿中更高。穗状花序的植物,如大麦、水稻、小麦,同样包含FAR1基因的高拷贝数,因此,FAR1的高拷贝数或可同样影响木槿的表型。(表1)

表1. 花期基因拷贝数比较,图片来源:论文原文

 

多数抗病基因家族(R)编码含NBS和富含亮氨酸重复序列(LRR)的胞内蛋白。编码NBS的R基因家族是木槿最大的基因家族之一,含472个基因,约为无油樟和拟南芥的3倍。这些基因基于Toll/白细胞介素受体(TIR)结构域的差异分为2个分支。相比番茄、雷蒙德氏棉和可可,木槿中TIR基因显著过表达。锦葵目植物(木槿、可可、雷蒙德氏棉)中多于70%的编码NBS的基因在26个亚类中共享,表明多数R基因由共同祖先衍生而来。另外,木槿中来自4个亚类的125个NBS编码基因约比其他锦葵科植物扩增了5倍,而来自7个亚类的18个NBS编码基因为木槿独有。木槿基因组中TIR和RPW8编码基因亚类显示出广泛的扩张,经历了不均等复制事件,显示出植物基因组中高度多样性。木槿基因组中不同的R基因组成提示成簇的R基因的扩张和多样性可能涉及种系特异性的基因倍增事件,最终导致近缘种的趋异进化。这些结果为多年生植物中花期和抗病基因的进一步比较分析提供了初步的信息支持。(表2)

表2. NBS-LRR基因家族数目比较

 

参考文献

[1] Qin C, Yu C, Shen Y, et al. Whole-genome sequencing of cultivated and wild peppers provides insights into Capsicum domestication and specialization[J]. Proceedings of the National Academy of Science, 2014, 111(14):5135-40.

[2] Wang K, Wang Z, Li F, et al. The draft genome of a diploid cotton Gossypium raimondii.[J]. Nature Genetics, 2012, 44(10):1098.

[3] Kim Y M, Kim S, Koo N, et al. Genome analysis of Hibiscus syriacus provides insights of polyploidization and indeterminate flowering in woody plants[J]. Dna Research An International Journal for Rapid Publication of Reports on Genes & Genomes, 2017, 24(1):71-80.