在限制性核酸内切酶的选择上,由于在该方法中,长度在1-3 kb的基因组DNA片段更容易被扩增,不同的内切酶(主要考虑酶的识别长度)会产生不同的建库效果从而可以适应多种需求。Refresh-seq利用6 bp识别序列的限制性内切酶(例如EcoR I和Sac I)切割时能够获得相对较高的基因组覆盖度,是单细胞全基因组测序的首选;利用8 bp识别序列的限制性内切酶(例如AsiS I)切割时,在同等测序量的前提下,Refresh-seq能够把reads富集到特定基因组区域(图1),从而实现简化基因组测序,这种长识别序列内切酶的Refresh-seq与RAD-seq(restriction site-associated DNA sequencing)原理相似,即对特定的酶切片段进行高通量测序,因此使用8 bp识别序列内切酶的Refresh-seq首次实现了单细胞层面的RAD-seq,并将其拓展到了单分子测序平台。
图1:Refresh-seq方法原理模式图。
该研究使用了HG002、HG001以及K562细胞系从多方面评估了Refresh-seq的性能,证明了Refresh-seq技术的可靠性。与基于Tn5随机切割基因组片段扩增原理的SMOOTH-seq相比,基于EcoR I的Refresh-seq拥有更优的扩增均匀性、更高的全基因组覆盖度以及更高的单核苷酸多样性位点的双等位基因检出率。等位基因缺失导致单核苷酸变异(SNV)检测的假阴性,是限制单细胞全基因组测序临床应用的重要因素。在SMOOTH-seq中,同源染色体中的两个等位基因(如A和B)片段被随机切割。如果单倍体基因组覆盖率为n%,也就是捕获等位基因A或等位基因B的机会分别为n%,那么同时捕获等位基因A和B的可能性为n% × n%,即(n%)2。由于二倍体基因组中的两个等位基因通常具有相同的限制性内切酶识别位点,限制性内切酶切割产生的同源DNA片段通常具有相同长度(图1)。因此,在限制性内切酶切割产生的DNA片段中,同时捕获两个等位基因的可能性更高。基于此,Refresh-seq提高了等位基因的检出率,研究中通过杂合单核苷酸多态性(SNP)位点两个等位基因的检出情况来反映一个细胞中同时捕获两个等位基因的能力。在~0.25×的测序深度下,Refresh-seq检测到~1.64%的杂合SNP,是SMOOTH-seq (~0.33%)的5倍。在超过5条reads覆盖的杂合SNP位点中,Refresh-seq的平均双等位基因捕获率为62%,显著高于SMOOTH-seq的10%捕获率。
图2:等位基因缺失情况的比较。
减数分裂同源重组是产生遗传多样性的基础之一,对同源染色体的准确分离至关重要,减数分裂引起遗传信息的交换,使得每个生殖细胞都拥有独特的基因组序列。对来自成体的生殖细胞进行单细胞测序使人们能够构建重组图谱,更好地了解减数分裂重组事件。此前几乎所有的单精子基因组测序方法都仅限于二代测序平台,由于测序读长的限制,对于单倍型分型的研究只限于单核苷酸多态性(SNP)和基因组拷贝数变异(CNV)水平,对结构变异(SV)的鉴定和分型很难实现。今年6月,汤富酬课题组使用SMOOTH-seq实现了单精子长读长基因组测序以及整条染色体尺度的单倍型分型(包括SNP和SV)。在本研究中,同样基于单分子测序平台并且具有良好扩增性能的Refresh-seq技术进一步推进了对生殖细胞的研究,在低测序深度下就获得了雌雄小鼠减数分裂重组的高分辨率遗传图谱,验证了减数分裂同源重组中的两性二态性,并对精子以及雌性单倍体生殖细胞进行了高精度的SNP和SV的鉴定及单倍型分型。
本研究从B6D2F1(C57BL/6NCrl × DBA/2NCrl F1杂交后代)雄性杂合小鼠中获取了688个精子细胞,在低测序深度下(0.1-0.3×),达到了平均5%的基因组覆盖度。以往对于卵母细胞的研究大多是基于遗传连锁分析,通过子代的基因型推断配子的重组特征,但这可能受到了选择的影响,对于那些胚胎发育失败没有产生成活子代的生殖细胞无法进行研究。对配子直接进行单细胞测序可以获得直接、无偏的同源重组的特征。因此本研究从B6D2F1雌性小鼠中获取了273个单倍体生殖细胞(185个第二极体(PB2)和87个孤雌激活的单倍体卵细胞)和191个二倍体细胞(132个第一极体(PB1)、33个MII卵母细胞和26个受精卵)进行Refresh-seq测序,在~0.1-0.3×的测序深度下,每个单细胞的基因组平均覆盖度为7.7%。
减数分裂过程中染色体分离错误,导致细胞中染色体数目异常,造成非整倍体的发生。早期胚胎的非整倍体会造成流产和胎儿的遗传疾病。得益于良好的扩增均匀性和较低的等位基因丢失率,Refresh-seq能够很好地检测出非整倍体细胞。例如对于染色体发生倍性增加的情况,Refresh-seq可以找到SNP覆盖率高于平均值的染色体,并且这些染色体往往具有较高的杂合度,因此Refresh-seq可以从多角度对非整倍体进行精准判断。
图3:Refresh-seq对于非整倍体的判断。
结构变异(SV)是遗传多样性的重要来源,在两个等位基因之间具有很大的多样性,会导致基因和调控元件的丢失、获得和重组。单倍体分型能够用来分析同源染色体上遗传多态性的连锁关系,有助于等位基因特异性表达、杂合性、遗传关联检测、自然选择检测等研究。得益于单分子测序平台长读长的优势,与基于二代测序平台的方法相比,Refresh-seq提高了结构变异的检测能力。该研究在小鼠精子中共检测出33,193个与金标准(bulk测序数据所鉴定出的结构变异)一致的结构变异,在雌性单倍体生殖细胞中检测到34,916个与金标准一致的结构变异。结构变异的长度分布在6-7 kb和200 bp附近有峰值,对应于LINE1和B1元件的长度。接着对两条以上reads支持的结构变异进行了分型和元件注释,结果显示在雄性中结构变异分型的准确率高达98.8%,在雌性中分型准确率为96.2%。因此,Refresh-seq同时实现了基于同一品系雄性小鼠精子和雌性小鼠单倍体生殖细胞单细胞基因组测序的结构变异的精准分型,其中精子结构变异分型的结果与前期研究中利用SMOOTH-seq进行分型的结果相一致,并首次依据单倍体生殖细胞的基因组数据对雌性小鼠的结构变异进行了高精度的整条染色体水平的单倍型分型。
总之,Refresh-seq的实验流程相对简单,易于操作,可以灵活调整使用不同的限制酶,以满足不同的需求。本研究证明了Refresh-seq具有良好的扩增均匀性和较低的等位基因丢失率,并将Refresh-seq成功地应用于雄性和雌性B6D2F1小鼠的减数分裂研究当中,证明了该方法在产前诊断等方面的广阔应用前景。