学术笔记

【学术笔记】解码转录调控

2025-10-16    点击:
图片  

◆ ◆ ◆ ◆

【学术笔记】解码转录调控


记录人:隋远涵 季雄实验室


2025年10月16日上午,受北大-清华生命科学联合中心PI季雄邀请,奥地利维也纳分子病理研究所(Research Institute of Molecular Pathology,IMP)的Alexander Stark教授在北京大学生命科学学院邓祐才报告厅带来一场题为“Decoding transcriptional regulation”的报告。


图片    

季雄研究员介绍Alexander Stark教授

图片    

Alexander Stark教授做报告与交流

【概要】

在真核生物中,基因的表达具有复杂的时空动态特征,这些表达模式在发育过程中逐步被精细化,以建立身体结构模式并决定特异性的细胞类型。基因在何时、何地被表达的信息,编码于启动子、增强子和沉默子等调控元件的序列中,并通过转录因子及其辅因子的作用得以实现。增强子序列的突变会显著改变其功能,与发育缺陷、形态演化及人类疾病密切相关。增强子通常包含多个序列基序,这些基序是特定转录因子的结合位点。理解基序及其排列方式(包括数量、顺序、方向和间距等语法)如何影响增强子功能,一直是分子生物学最重要的未解难题之一。在早期的工作中,Alexander实验室系统性地鉴定并验证了果蝇发育过程中增强子的序列特征、全基因组活性以及时空特异性。近年,Alexander实验室建立了一个深度学习模型DeepSTARR,可以直接从DNA序列中预测黑腹果蝇S2细胞中不同转录程序的增强子活性。基于该模型,研究团队致力于解析转录因子结合基序在增强子活性中的调控规则,并人工设计、合成具有功能的增强子。于此同时,转录调控因子在基因表达中发挥重要作用,Alexander教授课题组关注这些转录调控因子如何解码调控信息,以及如何将信息传递给启动子。

【精彩回顾】

果蝇发育过程中增强子在基因组规模的功能特征鉴定

研究团队构建了一个包含7705个增强子候选片段的转基因果蝇文库,覆盖果蝇非编码、非重复基因组的约13.5%。结果显示3557个(占46%)候选物具有活性,表明全基因组范围内存在5万至10万个发育增强子,密度极高。绝大多数增强子在发育过程中展现出高度动态的特异性空间分布模式,94%的增强子仅在发育过程中的特定阶段活跃,而不同发育阶段的活性模式对应不同的组织和细胞类型。研究也发现大多数增强子作用于相邻基因,但约12–21%的增强子可跨越一个或多个非表达基因调控远端靶基因(图1)。进一步,研究团队通过计算方法鉴定出能够维持增强子活性的顺式调控基序,并进行了实验验证。该研究在全基因组尺度、体内环境下系统绘制了果蝇发育增强子的功能图谱,揭示了增强子的时空动态和局部结构,并增强子序列功能与转录因子基序之间的联系。

图片    

图1,果蝇Tsp基因座的内源性增强子和不同发育阶段的果蝇胚胎1


DeepSTARR通过DNA序列预测增强子活性

现有方法尚未揭示基序及其语法如何协同作用以决定增强子活性。研究团队首先使用UMI-STARR-seq技术在果蝇S2细胞中进行了全基因组水平的增强子活性筛选2,并使用了发育相关基因和管家基因的启动子,从而获得两种不同类型增强子的高分辨率活性图谱,并基于此构建了DeepSTARR的训练架构。分析表明DeepSTARR成功地从原始DNA序列中从头学习到了能够预测增强子活性的通用特征和规则,识别出对增强子活性关键的DNA序列特征。

图片    

图2,DeepSTARR的多任务卷积神经网络结构3


由于增强子通常包含多个相同基序类型,Alexander教授课题组通DeepSTARR对GATA等的基序中的每个相同单元进行了单独贡献评估。出乎意料的是,同一基序的不同单元不仅被预测具有不同的增强子活性贡献,实验验证也证实它们对增强子活性的影响存在差异,这种差异既存在于不同增强子之间,也存在于同一增强子内部(图3)。进一步的分析表明,基序侧翼的核苷酸序列会改变基序对于增强子的功能贡献,而两个基序之间的相对距离也会影响它们共同作用时所产生的增强子活性。不同转录因子组合之间有各自独特的适合间隔,这决定了它们能否有效协作,这些复杂的语法规则不仅存在于果蝇中,也在人类增强子中得到验证。通过DeepSTARR模型,研究者更清晰地阐释了增强子活性的调控规则,为增强子的人工设计和合成提供了重要的基础。

图片    

图3,基序的语法规则如基序组合、侧翼和距离决定了转录因子基序实例在增强子序列中的贡献3


果蝇胚胎中组织特异性增强子的靶向设计

基于先前研究对增强子活性的认识,Alexander教授课题组通过深度学习与迁移学习相结合的方法,为果蝇胚胎的五个组织(中枢神经系统、表皮、肠道、肌肉和大脑)设计了组织特异性增强子。鉴于果蝇和小鼠中每种组织的特异性增强子数量通常不足数百个,直接训练深度学习模型极其困难,研究团队通过迁移学习的方法,利用果蝇胚胎单细胞ATAC-seq的全基因组数据进行训练,并使用较小规模的、经过活体实验验证的组织特异性增强子数据集进行微调,从而提升模型性能。研究团队通过模型设计出在复杂活体环境中工作的组织特异性增强子,并在实验验证中通过报告系统鉴定了其设计的成功性较好,这一流程不仅成功实现了组织特异性增强子的理性设计,也提供了一个可推广的、强大的调控序列设计框架。

图片    

图4,基于报告系统的组织特异性增强子的活性验证4


HCFC1是CGI特异性的转录激活因子

转录调控因子负责解码基因序列中的调控信息,并把通过多种方式将这些信息传递到启动子,进而调控基因表达。Alexander教授课题组通过ORFtag筛选技术筛选对特定启动子发挥调控功能的转录激活因子。对于CpG island(CGI)启动子,研究者筛选到调控因子HCFC1,其降解会导致CGI启动子活性降低。研究者关注其如何与其他调控因子相互作用并发挥调控功能,通过BioID和结构预测等方式,研究者发现HCFC1通过其Kelch结构域与CGI特异性转录因子互作并被招募到启动子。同时,HCFC1的AD结构域通过其与Taf4/Taf6的互作招募TFIID,而该过程作为CGI启动子激活的限速步骤。该研究揭示了通过ORFtag的筛选技术在转录调控因子的研究中的潜力,该技术有望在不同启动子类型的转录调控研究中发挥作用。

报告最后,Alexander教授与参加报告的老师和同学们在模型训练方法、增强子强度的表征和定量等话题上进行了讨论。本次报告Alexander教授从增强子序列和转录调控蛋白两个角度对转录调控模式的解析进行广泛而深入的讲解,深化了对转录调控方式的认识。同时,Alexander教授课题组的研究也表明了AI模型在分子生物学研究中的重要贡献,为研究者对生物信息数据的阐释提供了新的视角。

参考文献

1.Kvon, E. Z. et al. Genome-scale functional characterization of Drosophila developmental enhancers in vivo. Nature 512, 91-95 (2014).

2.Arnold, C. D. et al. Genome-wide quantitative enhancer activity maps identified by STARR-seq. Science 339, 1074-1077 (2013).

3.de Almeida, B. P., Reiter, F., Pagani, M. & Stark, A. DeepSTARR predicts enhancer activity from DNA sequence and enables the de novo design of synthetic enhancers. Nat Genet 54, 613-624 (2022).

4.de Almeida, B. P. et al. Targeted design of synthetic enhancers for selected tissues in the Drosophila embryo. Nature 626, 207-211 (2024).

图片