同源染色体(通过看图片来识别同源染色体)

自从二十年前人类基因组计划[1,2]启动以来,人们对基因组的认识越来越深入。然而,由于染色体着丝粒中积累了大量高度相同的重复区、节段性重复区和短的近端臂,人类染色体的测序尚未完全完成。但是每个人类染色体的完整组装对于理解人类生物学和进化是必不可少的。

为了建立对染色体着丝粒和着丝粒区域的认识,近日,华盛顿大学医学院Evan E. Eichler研究组发表了题为《一条完整人类8号染色体的结构、功能和进化》的论文,首次利用互补长阅读测序技术完成了人类8号染色体的线性组装和分析,填补了对染色体着丝粒重复区域的认识。

前期研究采用端粒对端粒组装法分析人类基因组中X染色体的高覆盖率,主要采用超长读数的纳米孔测序技术[3]。在这项工作中,分析完整X染色体的技术与当时并不完全相同。采用牛津纳米孔技术(ONT)和PacBio的高保真数据组合,解决了人类8 空号染色体测序数据为白色的问题(图1)。人类8号染色体完整的端粒到端粒序列有146,259,671个碱基,包括目前参考基因组中缺失的334,256个碱基。8号染色体的组装解决了之前长期存在的染色体中5个序列空缺失的问题。补充内容主要包括2.08Mb着丝粒α-卫星阵列、疾病风险必不可少的β-防御素基因簇、染色体8q21.2上的863kb可变数目串联重复序列,可作为新着丝粒。

图1 8号染色体超长阅读的组装过程

根据对高阶重复α-卫星阵列的分析,以前的研究表明人类8号染色体的着丝粒长度在1.5-2.2 MB之间[4]。通过分析从端粒到端粒的组装8号染色体长阅读序列的阅读深度,作者首次证明了组装结构结果的准确性。其次,作者用荧光杂交技术证实了着丝粒区的重复结构区域特征。此外,作者还通过微滴数字PCR技术证实了其中含有alpha卫星阵列。此外,为了证实8号染色体上的表观遗传特征,作者发现胞嘧啶甲基化标记(5mC)沿着染色体α-卫星的高阶重复阵列分布,但在着丝粒区附近发现了约73kb的低甲基化口袋区(带有CENP-A标记)(图2)。CENP-A的ChIP-seq测序结果也证明其富集区是一个低甲基化区。

图2 8号染色体是CENP-A和5mC的免疫染色。

组装的8号染色体序列还包括可变数量的863kb串联重复序列。这个区域是一个中性变异区域,可以在细胞遗传学中识别,它包含人类基因组中最大的可变数目串联重复序列之一[5]。这种可变数量的串联重复序列具有重要的生物学意义,并且可以作为新着丝粒在周期中的位置发挥作用。在人类中,串联重复的拷贝数在53到326个拷贝之间。本研究发现,8号染色体上可变数目串联重复序列的高阶结构由五个不同方向的结构域交替组成。每个结构由5-23个完整的重复单元组成。因此,测序结果给出了可变数量串联重复的高精度组成。

为了完整地重建8号染色体着丝粒在过去2500万年间的进化史,作者用同样的测序方法重建了黑猩猩、猩猩和猕猴的同源着丝粒。作者发现黑猩猩8号染色体的着丝粒结构与人类最相似。在系统的进化上,作者发现类人猿的所有高阶α-卫星序列都聚集成一个分支,而单个α-卫星序列分裂成相隔数千万年的两个分支(图3)。这些分析提供了灵长类同源染色体着丝粒的完整比较序列分析,并为未来研究基因组中这些区域的遗传变异和进化提供了框架。

发表评论

后才能评论