该研究深入分析了五种组蛋白共价修饰(H3K4me3、H3K27ac、H3K36me3、H3K27me3、H3K9me3)以及两种染色质结合蛋白(CTCF 和 RAD21)的基因组分布模式。这七种染色质标记代表了基因组中不同的表观遗传修饰信号,分别反映了染色质的特定状态和功能,在基因表达调控、染色质结构维护以及细胞功能调节等方面发挥至关重要的作用。H3K4me3主要标记活跃转录基因的启动子区域,标志着基因的激活状态;H3K27ac主要富集在活跃的增强子和启动子区域,与基因的活跃转录相关;H3K36me3主要分布在基因体区域,与基因的转录延伸过程相关,有助于维持基因表达的稳定性;H3K27me3和H3K9me3是抑制性染色质标记,其中H3K27me3主要富集在基因的启动子区域,参与基因沉默的调控,而H3K9me3则主要参与异染色质的形成和维持,抑制重复序列的转录活性,维持基因组的稳定性。CTCF和RAD21, 是调控染色质结构的关键因子。CTCF是一种广谱转录因子,作为染色质绝缘子结合蛋白,帮助划分基因表达区域,参与调控基因转录激活和抑制、基因印记、X染色体失活等过程;而RAD21是黏连蛋白复合体(Cohesin complex)的主要亚基之一,与CTCF协同介导染色质环(Chromatin loop)的形成,通过调节染色质的三维结构来调控基因的时空表达。对于这些组蛋白共价修饰以及染色质结合蛋白分布模式的综合分析,为我们深入理解基因组的表观遗传调控提供了全面视角。
在实验方法设计上,scNanoSeq-CUT&Tag技术将CUT&Tag技术与单分子测序技术有机结合,实现了在单细胞水平对染色质修饰的精准检测。与传统的二代测序方法依赖具有两个不同接头序列的Tn5转座酶进行文库构建的方式不同,该研究采用了双端具有相同接头的Tn5转座酶。这一改进使得scNanoSeq-CUT&Tag方法不仅可以减少对DNA短片段的扩增,而且理论上可以通过PCR扩增获得基因组中所有长片段DNA。相比之下,二代测序方法只能获得基因组中所有DNA片段中的50%左右。此外,在PCR扩增步骤中,该研究设计了96种内侧细胞条形码和96种外侧细胞条形码。通过这种组合条形码策略, scNanoSeq-CUT&Tag技术可以灵活地控制每次上机的测序通量,在单次实验中可以灵活地对几个单细胞到上万个(96 x 96 = 9,216)单细胞进行测序,可以显著降低每个细胞的测序成本。与现有方法相比,scNanoSeq-CUT&Tag具有更大的适用范围。由于scNanoSeq-CUT&Tag基于96孔板操作,无需依赖如10 x Genomics或CELL8系统等复杂的微流控系统进行单细胞分离和条形码标记,因此scNanoSeq-CUT&Tag技术可以在大多数分子生物学实验室中使用。
在基于二代短读段测序平台的CUT&Tag相关技术研究中,Tn5转座酶需要分别在具有染色质修饰(组蛋白修饰或转录因子结合)的基因组DNA的两侧进行转座,从而在短DNA片段(通常为200bp-500bp)的两端连接上测序接头,且只有双端带有不同测序接头的短DNA片段才能通过PCR扩增得到富集,进而构建测序文库。这意味着,捕获单个染色质修饰位点需要在较短的基因组区域内完成至少两次Tn5转座事件。对于常染色质相关的修饰,由于染色质结构松散且可及性高,Tn5转座酶能够在染色质修饰区域两侧高效切割DNA,确保测序接头的有效连接。然而,异染色质相关的修饰通常位于染色质高度浓缩的区域,这些浓缩的染色质结构限制了Tn5转座酶与DNA的接触,降低了Tn5转座酶的切割效率,导致异染色质区域短DNA片段的富集度较低,影响了异染色质相关的组蛋白修饰信号的捕获。
相比之下,基于单分子长读段测序平台的scNanoSeq-CUT&Tag技术表现出显著优势。该技术仅需Tn5转座酶在具有染色质修饰的基因组位点的任何一侧完成一次转座事件,并在距离该修饰位点另外一侧的1 kb - 10 kb范围内的任何两个相邻核小体之间再发生一次转座事件,即可将测序接头分别连接到DNA长片段的两端,从而通过PCR扩增将该位点的染色质修饰信号富集出来。这种特性显著提高了scNanoSeq-CUT&Tag技术对染色质修饰的捕获效率,特别是对于异染色质区域富集的修饰信号表现出更优越的检测能力(图1)。

图1:二代短读段CUT&Tag技术和单分子长读段scNanoSeq-CUT&Tag技术中Tn5切割和染色质修饰标记捕获示意图。
该研究从六个方面对scNanoSeq-CUT&Tag技术的性能和应用进行了探索:
1.scNanoSeq-CUT&Tag能够在单细胞水平上精准捕获染色质修饰特征并鉴定不同细胞类型。
为了评估scNanoSeq-CUT&Tag技术的可靠性,该研究首先使用该技术深入分析了六种有代表性的人类细胞系(K562、293T、GM12878、HG002、H9、HFF1)的七种染色质修饰状态,包括五种组蛋白共价修饰(H3K4me3、H3K27ac、H3K36me3、H3K27me3、H3K9me3)和两种染色质结合蛋白(CTCF 和 RAD21)的分布模式。经过严格的质量控制,该研究共获得17,211个高质量的单细胞数据集,累计产生了3.5 Tb的高质量测序数据。对于每种染色质标记,读段中位数长度在3.4 kb至4.4 kb之间(图2)。

图2:scNanoSeq-CUT&Tag实验流程示意图以及测序读段长度分布。
scNanoSeq-CUT&Tag技术能够在每个单细胞中捕获多达13,373个独特读段,显著优于同类型二代测序方法。此外,检测到的落在峰中的读段比例(FRiP)与基于二代测序平台的scCUT&Tag技术相当。更重要的是,只用146个单细胞的scNanoSeq-CUT&Tag测序数据合并得到的基因组轨迹,与使用数百万细胞的ChIP-seq“金标准”数据高度一致。这表明scNanoSeq-CUT&Tag技术在捕获细胞类型特异性染色质修饰方面具有显著优势。
通过对scNanoSeq-CUT&Tag的数据进行无监督聚类分析,该研究进一步证明,针对七种染色质修饰(H3K4me3, H3K27ac, H3K36me3, H3K27me3, H3K9me3, CTCF和RAD21),六种人类细胞系的单细胞样本均被清晰准确地区分开来。此外,在小鼠外周血单核细胞(Peripheral blood mononuclear cell,PBMC)的 H3K4me3 数据中,scNanoSeq-CUT&Tag技术不仅成功鉴定出B 细胞、T 细胞、NK 细胞和单核细胞,而且能够精准区分T 细胞的不同亚型(CD4+ T 细胞和CD8+ T 细胞)以及单核细胞的不同亚型(经典单核细胞和非经典单核细胞)。这些结果表明,scNanoSeq-CUT&Tag不仅可以有效地捕获不同细胞类型的染色质修饰特征,而且对体外培养的细胞系以及体内的复杂组织样品都能精准区分不同的细胞类型(图3)。

图3:scNanoSeqCUT&Tag数据的有效读段数、落在峰中的读段比例、在基因组中的信号分布以及细胞分群结果。
2. scNanoSeq-CUT&Tag能够精准鉴定等位基因特异性染色质修饰特征。
scNanoSeq-CUT&Tag技术结合单细胞水平的染色质修饰检测和长读段测序的优势,显著提高了等位基因特异性染色质修饰峰(Allele-specific peak,ASP)的检测效率。在区分等位基因特异性染色质修饰峰时,相比于传统的ChIP-seq技术依赖峰内含有杂合SNP位点(染色质修饰峰通常只有100-300bp宽),scNanoSeq-CUT&Tag技术只需峰两侧各4,000 bp(读段长度)范围内存在杂合SNP或杂合结构变异即可。scNanoSeq-CUT&Tag技术将含有杂合SNP的峰检测效率提高了三倍以上,并且能够准确地进行基因型分型。此外,这种准确的基因型分型能力通过介导X染色体失活的关键调控因子XIST和印记基因的等位基因特异性染色质修饰分析得到了验证,进一步证实了scNanoSeq-CUT&Tag技术在鉴定等位基因特异性染色质修饰峰方面的准确性和可靠性(图4)。

图4:scNanoSeqCUT&Tag技术对GM12878细胞的H3K4me3数据中杂合SNP和ASP的检测。
3. scNanoSeq-CUT&Tag能够精准检测染色质修饰共占位事件。
在哺乳动物基因组中,有三类关键的调控元件:启动子(Promoter)、增强子(Enhancer)和绝缘子(Insulator)。这些元件之间通过相互作用,如增强子-增强子相互作用、增强子-启动子相互作用来调控基因表达。已往对基因组不同功能元件之间相互作用的研究都是基于二代短读段测序推断的,常常没有直接证据支持而且假阳性率较高。单分子长读段测序的出现使得分析同一条DNA分子上相邻区域含有的同种染色质修饰共占位事件成为可能,为基因组功能元件之间的相互作用提供了更直接的证据。
Tn5对基因组进行切割时,如果两个邻近区域存在同种染色质修饰共占位,那么这两个区域在特定细胞类型中会被scNanoSeq-CUT&Tag长读段多次连接,连接两个染色质共占位区域的读段长度分布会发生改变,其长度分布的密度会显著高于背景随机读段。基于这一假设,该研究开发出一种针对长读段数据检测染色质修饰共占位事件的算法。在六种人类细胞系的七种不同染色质修饰数据中分别鉴定出100-10,000个邻近区域染色质修饰共占位事件(主要发生在10 kb的邻近基因组区域内)。其中,该研究在GM12878细胞系中发现编码RNA甲基转移酶的METTL8基因内含子区域存在多个增强子元件之间的H3K4me3修饰共占位事件。据之前的研究报道,METTL8在GM12878细胞中特异的高表达,这暗示METTL8基因上的多个增强子之间的直接互作共同调控了METTL8在GM12878细胞中的转录活性。
和基于二代测序平台的方法scCUT&Tag类似, scNanoSeq-CUT&Tag测序技术也能分析特定细胞类型中基因组上两个相距较远区域(>10 kb)的峰对(Peak pair)信号的相关性,进而间接推断远程基因组区域染色质修饰共占位(Long-range-region co-occupancy)事件。值得注意的是,scNanoSeq-CUT&Tag技术利用长读段测序,在杂合SNP检测和单倍型相位分析方面展现出显著优势。与基于二代测序的ChIP-seq数据相比,scNanoSeq-CUT&Tag能够通过筛选出亲本等位基因特异性染色质修饰不一致的峰对,尤其是父本特异性和母本特异性峰“错位”组成的峰对,进一步优化基因组染色质修饰远程共占位事件的推断,显著降低假阳性率(图5)。

图5:scNanoSeqCUT&Tag技术对邻近基因组区域和远程基因组区域染色质修饰共占位事件的检测。
4. scNanoSeq-CUT&Tag能够精准检测人类基因组中每个拷贝的重复序列和基因组复杂区域的染色质修饰特征。
人类基因组中52%的区域由重复序列构成,短读段测序数据对这些重复序列区域常常难以特异性比对,检测效果不佳。既往对于重复序列的表观遗传调控研究通常是将同一个重复元件亚家族中多个拷贝(几十个至几千个拷贝)合并作为一个整体分析,无法明确基因组中某种重复元件的每个拷贝的表观遗传状态。单分子测序技术通过长读段数据能够识别重复元件两侧的特异性序列,从而将来自重复元件的读段精准比对到基因组中的唯一区域,从根本上克服了这一难题。
LINE-1(L1)是最活跃的自主性逆转录转座子家族,在人类基因组中约有一百万个拷贝,占人类基因组的 17%(在小鼠基因组中,L1占19%),在发育和多种疾病中发挥着重要作用。L1Hs 是人类基因组中进化上最年轻且仍然具有转座活性的 L1,全长约为6 kb,在人类基因组中存在 320 个拷贝的全长 L1Hs。任意两个 L1Hs 拷贝的序列之间平均仅有~50 个碱基的差异,不同L1Hs拷贝间的序列相似性超过 99%。这种高度相似性使得二代短读段测序的特异性比对面临巨大挑战。然而,利用长读段的优势,scNanoSeq-CUT&Tag技术显著提高了对L1Hs的检测能力,实现了在单拷贝分辨率下对重复元件的染色质修饰进行精准分析(图6)。

图6:scNanoSeq-CUT&Tag展现出在单拷贝分辨率下检测重复元件的染色质修饰的优越性能。
在人类基因组中,约 3%的区域被标记为“黑名单”区域(共91 Mb, 不包括核糖体 DNA 、着丝粒和端粒)。这些区域在短读段测序数据中通常被屏蔽,以排除显著的背景噪音,因此其染色质修饰信息目前尚不明确。长读段测序技术通过提供更长的读段,能够跨越传统的短读段技术难以解决的重复序列和基因组复杂区域的问题,提高了读段与参考基因组之间匹配的唯一性和准确性,从而增强了基因组的可比对性(Mappability)。利用scNanoSeq-CUT&Tag技术,该研究发现在基因组“黑名单”区域存在清晰的H3K27ac 修饰峰,并且这一修饰在六种细胞系中均可被检测到。更重要的是,这些基因组“黑名单”区域富含 ENCODE 注释的 cCRE 调控元件,表明这些区域可能具有潜在的基因表达调控作用(图7)。

图7:基因组“黑名单”区域的 H3K27ac 修饰信号分布。
5. scNanoSeq-CUT&Tag能够精准解析小鼠精子发生过程中的 H3K4me3 修饰的动态变化
精子发生是一个高度有序且受到严密调控的多阶段发育过程,伴随着多种表观遗传修饰的重编程。作为雄性哺乳动物的生殖细胞,精子负责将遗传物质传递给子代。然而,受限于生精细胞类型的多样性以及精子发生过程的连续性和异步性,全面解析精子发生过程中的表观遗传修饰变化面临极大的挑战。
该研究探索了小鼠精子发生过程中H3K4me3修饰的特征。利用scNanoSeq-CUT&Tag技术获得的 H3K4me3数据可以精准区分小鼠体内各种生精细胞类型(包括精原细胞(SPG)、细线期/偶线期精母细胞(L/Z)、粗线期/双线期精母细胞(P/D)、分裂期初级精母细胞与次级精母细胞的混合物(SPC)、三种不同成熟阶段的精子细胞(Sperml、Sperm2、Sperm3)和睾丸支持细胞(Sertoli))。通过进一步鉴定小鼠全长LINE1重复元件 L1Md和基因组“黑名单”区域的H3K4me3修饰,揭示了小鼠精子发生过程中这些复杂基因组区域中 H3K4me3 修饰信号的动态变化,这一发现有力地表明,既往二代短读段测序技术无法捕获的基因组“黑名单”区域可能在小鼠精子发生过程中发挥重要的调控作用。这一发现为深入理解精子发生过程中的基因表达调控机制提供了重要的线索(图8)。

图8:scNanoSeq-CUT&Tag技术揭示了小鼠精子发生过程中H3K4me3 修饰信号的动态变化特征。
6. scNanoSeq-CUT&Tag能够精准捕获DNA去甲基化后基因组重复元件上H3K27ac修饰的变化。
5-氮杂胞嘧啶 (5-AZA) 是一种常见的DNA去甲基化药物。该研究以5-AZA处理的K562细胞为模型研究DNA去甲基化后基因组重复元件上H3K27ac修饰的变化。scNanoSeq-CUT&Tag鉴定出201个在DNA去甲基化处理后获得H3K27ac峰的重复元件。而且与对照组细胞相比,这些重复元件均失去了DNA甲基化。值得注意的是,这些在5-AZA处理后获得H3K27ac峰的重复元件更容易被转录。此外,该研究发现L1Hs的一个特定拷贝在去除DNA甲基化后获得了H3K27ac峰,并且发生了转录,这表明DNA甲基化对于K562细胞中LIHs的这一特定拷贝的沉默至关重要(图9)。
图9:scNanoSeq-CUT&Tag技术对DNA去甲基化处理后的K562细胞中重复元件上H3K27ac修饰信号的检测。
综上所述,该研究开发了一种基于单分子测序平台的 scNanoSeq-CUT&Tag 新方法,可以精准检测单个细胞内染色质修饰特征,包括组蛋白修饰和转录因子的结合分布模式。该方法实验流程相对简单、易于操作,不需要特殊的设备,适合各种分子生物学实验室使用。最重要的是,该方法在单个拷贝分辨率检测重复元件和基因组“黑名单”区域的染色质修饰方面表现卓越。该研究为理解表观遗传异质性、解析基因组复杂区域的表观遗传修饰特征、探索复杂发育过程中的基因表达调控机制提供了一种强有力的工具和方法。