|
颠覆性技术让复杂植物基因组不再有盲区—长串联重复序列
2019-06-02 麦谷(如面包小麦,硬质小麦,大麦和黑麦等)是欧洲重要的社会经济作物。麦谷基因组高度复杂且大小不等,范围可从大麦的~5Gb到面包小麦的~16Gb,基因组中DNA重复比例庞大,可高达85%-90%。正因如此,麦谷的参考基因组直到最近才完成,并且得到参考基因组并不完整,仅代表了真实基因组大小的88%-98%。那么这些缺失部分的组成是什么呢?
已知大型的重复序列区域一直是基因组测序和组装的挑战,并且会导致大多数基因组序列中产生缺口、错误组装和串联重复的压缩。来自捷克的科学家Veronika Kapustová等人对两种麦谷基因组了进行研究,目的在于发现基因组中的缺失部分,并找到可以改善和提高大型基因组组装的测序技术。他们重点关注了短读长测序技术无法很好组装的长串联重复序列(tandem repeats)。研究结果显示,在使用短读长序列生成的面包小麦参考基因组中,作者发现了3个串联重复序列,长度范围为1167bp到2726bp。其中一个单位大小为2726bp的重复区域,其基因组序列只能在添加来自带有该重复序列的两个BAC克隆的纳米孔测序的信息以及光学作图以后才得以解决。使用纳米孔测序,作者鉴定并定位了大麦参考基因组中缺失的长达470kb的45S核糖体DNA阵列。
作者表示,光学图谱是识别组装完整性的有效工具,而纳米孔长读长测序技术能够跨越复杂基因组中的串联重复序列,可以弥合基因组组装的缺失序列,从而简化组装,完整现有参考基因组。该研究成果发表在IJMS上。
文章中提到,短读长测序很容易完成对低拷贝基因组组装,而对于重复区域众多的大基因组,短读长测序则面临着容易导致缺口、错误组装、折叠串联重复序列等各种各样的挑战。其中串联重复序列是多个重复单位(微卫星、宏卫星、着丝粒卫星)短序列的组合。在拷贝数较低的情况下,串联重复序列容易组装失败,因此包括人类参考基因组在内的串联重复序列参考基因组序列非常欠缺,并且目前从头组装的参考序列中有很多串联重复的缺口和组装错误。而异染色质区域的相关重复更加多样,从而导致完整的组装这部分基因组更具挑战性。这些难点通常导致基因组组装在大部分着丝粒区域和次缢痕(secondary constrictions,指的染色体长臂上另一些较小的狭窄区)有缺失。
作者首先利用短读长测序,鉴定出小麦染色体7D(7DS)短臂上的3个新串联重复序列,长度范围从1167bp到2726bp,其中TaeCsTr163, TaeCsTr230 和TaeCsTr99拥有亚端粒区的特异性FISH杂交信号。其中,长度为2726bp的TaeCsTr99阵列无法通过Pacbio测序技术正确的组装到小麦基因组。
接下来,作者研究了最近新发表的小麦基因组组装中的这3个串联重复序列:(i)结合短读长和Pacbio长读长技术的Triticum 3.1组装;ii)基于短读长技术的IWGSC RefSeq v1.0组装;(iii)基于短读长物理图谱的7DS 特异性BAC克隆组装。尽管这3个组装均由上述3个串联重复序列组成,但都无法阐明TaeCsTr99阵列的位置及具体信息。
为了解决这个问题,作者利用Oxford Nanopore Technologies(ONT)的长读长测序技术平台,对BAC克隆28N04和104G18进行测序,生成的纳米孔长读长数据覆盖了远端和近端阵列,跨越整个插入区域,且阵列结构显示一致。
其中,覆盖28NO4克隆的51EF9015( File S2)长达99802bp的纳米孔序列,证实了由不同单位的两个子阵列组成的远端阵列结构非常复杂。其中远端子阵列,长度约为27kb,由十个TaeCsTr99完整单元组成,近端子阵列则有12个TaeCsTr99不完整单元组成,在TaeCsTr99序列的507-1563bp之间有明显的缺失。纳米孔数据还证实了由TaeCsTr99片段组成的相邻~6-kb簇的存在。
相反,在Triticum 3.1组装中,覆盖104G18克隆的f24cdcf5(File2) -长达148009bp的纳米孔读长序列,跨越了~30kb的整个近端阵列,其结构相对简单,包括8个TaeCsTr99完整单元和1个TaeCsTr99不完整单元以及重复片段簇。
作者还发现Triticum v3.1基因组中,通过短读长和Pacbio长读长生成的数据中可能有错误的TaeCsTr99组装。此外,通过这两种技术对小麦基因组进行组装,无法区分两个相距225kb的相似阵列,只有通过纳米孔技术对BAC克隆进行测序才能解决该问题,除去能够覆盖整个阵列区域的纳米孔长读长测序技术之外,将两个阵列分离成单独BAC克隆进行测序也是关键。
此外,根据Morex大麦的光学图谱,通过在不同的大麦品种中的进行原位杂交来鉴定其1H染色体上的长度为470kb的45sRNA基因座,且证实该大麦的BAC-BAC基因组组装不完整。
原文链接: https://www.mdpi.com/1422-0067/20/10/2483/htm
相关阅读:
精选留言 暂无... |