网站地图 加入收藏 中文 English
 
首页 中心概况 组织机构 研究队伍 科学研究 人才培养 交流合作 支撑服务 人才招聘 下载专区 联系我们
当前位置:首页 - 科学研究 - 科研进展
科研进展

 

Molecular Plant | 焦雨铃组合作发布拟南芥高质量参考基因组Col-PEK


拟南芥 (Arabidopsis thaliana作为被广泛应用的模式植物,其基因组序列极大地加快了植物分子生物学研究。在首个基因组发布二十多年后,仍然存在大量未填补的缺口区域。在常用的TAIR10/Araport11版本的基因组序列中,存在165个缺口。这些缺失区域可能由高度重复的序列组成,包括端粒、着丝粒、5S rDNA 簇和含有45S rDNA的核仁组织区(NORs)。近年来 ONT  PacBio 等长读段测序技术的发展为组装高复杂度序列提供了有力工具。最近 Science 和 GPB 分别发表了两个高完整度基因组 Col-CEN  Col-XJTU,填补了着丝粒等缺失区域。但这两个新的组装仍不完整且有相互矛盾之处。

为了给植物学科研工作者提供一个更好的参考基因组,北京大学生命科学学院/生命科学中心/蛋白质与植物基因研究重点实验室焦雨铃团队与中国科学院大学生科院汪颖团队合作,结合长读ONT、高保真的长读PacBio HiFi和短读Illumina NovaSeq测序数据获得了接近完整的拟南芥Col-0生态型的参考基因组Col-PEKCol-PEK组装填补了包括五个着丝粒在内各区域中的绝大多数缺口。例如,Science发布的Col-CEN5号染色体中的缺口均已在Col-PEK中补齐。Col-PEK为目前最为完整的基因组组装,完成了135号染色体从端粒到端粒的完整组装,仅2号和4号染色体的多拷贝NORs区域尚不完全。Col-PEK组装总长度133.92 Mb,比TAIR10组装长14.77 Mb,即增加了12.4%的序列。在填补缺口之外,Col-PEK还修订了Col-CEN等组装中的拼接错误。

图1. 不同参考基因组组装的完整度比较

Col-PEK组装具有很高的序列完整度,对Col-PEK的注释揭示了重复序列的分布规律,特别是着丝粒区域的CENH3结合区域分布规律和CEN180重复序列分布特征。对编码基因的注释还发现了145个新的“隐藏基因重复”。这些基因重复与已知基因序列高度相似,可能是由新近的串联重复等基因组扩增机制所产生。

图2. 基于Col-PEK的基因和重复序列注释

Col-PEK 组装补全了所有着丝粒序列及绝大部分其它缺口,纠正了之前的错误组装。对其初步分析展示了重复序列的分布规律,并揭示了一批新基因。Col-PEK 参考基因组为国内外植物学科研工作者提供了新的参照序列和重要数据资源。

202261日,Molecular Plant杂志在线发表了题为“A near-complete assembly of an Arabidopsis thaliana genome”的研究论文(DOI: 10.1111/tpj.15772),报道了Col-PEK组装。中科院遗传发育所博士生侯学仁为该论文第一作者,汪颖副教授和焦雨铃教授为论文的共同通讯作者。遗传发育所程祝宽研究员和未来组汪德鹏博士参与了该研究。研究得到科技部重点研发计划的资助。

原文链接:https://www.sciencedirect.com/science/article/pii/S1674205222001812

 




版权所有 生命科学联合中心 京ICP备15006448号-5