[发明专利]一种基于Pacbio subreads和Hi-C reads的全基因组分型方法在审
申请号: | 202010441252.3 | 申请日: | 2020-05-22 |
公开(公告)号: | CN111816248A | 公开(公告)日: | 2020-10-23 |
发明(设计)人: | 卢锐 | 申请(专利权)人: | 武汉菲沙基因信息有限公司 |
主分类号: | G16B20/00 | 分类号: | G16B20/00;G16B30/10;G16B30/20 |
代理公司: | 上海精晟知识产权代理有限公司 31253 | 代理人: | 安曼 |
地址: | 430000 湖北省武汉市东湖高新技术开发区高新*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 pacbio subreads hi reads 基因 组分 方法 | ||
本发明涉及一种基于Pacbio subreads和Hi‑C reads的全基因组分型方法,包括以下步骤:1)准备参考基因组;2)将二代测序数据比对到参考基因组,检测出各染色体的所有SNP位点;3)将Hi‑C建库测序数据比对到参考基因组,结合SNP位点,采用HapCUT2构建连锁SNP群;4)基于MVP Block对Pacbio subreads进行分组,然后再分别组装,最终获取到每条染色单体序列;5)对亲本基因组进行全基因组测序,将测序结果比对到上步分出的染色单体序列上,按照比对结果将染色单体分为两组,对应父母本基因组。本方法避开Hi‑C数据组装过程中无法组装酶切位点数太少的contigs的缺陷,而是采用从基因组整体出发先构建连锁SNP群,再结合Pacbio long reads,大大降低了分型的错误风险。
【技术领域】
本发明涉及基因组组装分型领域,具体涉及一种基于Pacbio subreads和Hi-Creads的全基因组分型方法。
【背景技术】
1985年,美国科学家提出了人类基因组计划(Human Genome Project),对人类基因组进行测序,以获取完整的人类基因组。该计划一经提出就得到了全球性的重视,先后有六个国家(包括中国)参与其中。各国鼎力合作,终于在2001年正式发表了人类基因组草图,这也标志着基因组时代的到来。随后,包括重测序,转录组,三维基因组在内的一系列技术蓬勃发展,而这些技术的基础都可以归结到拥有高质量参考基因组序列。目前,如果对某个新物种开展分子水平的研究,通常都是从测序和组装开始。
然而,目前尚没有一种测序技术可以一次连续地测出整条染色体,通常先会获取到长度不等的文库片段,再采用测序仪对文库片段进行测序。测序得到的结果称为读长(read),读长之间可能存在重叠(overlap)的部分,按照不同的算法对这些reads不断拼接,最后获取到基因组草图,整个过程通常称为基因组从头组装(de novo assembly)。随着测序技术不断提高,测序成本越来越低,人们对测序后基因组组装的要求也越来越高。高质量的组装结果通常要求高连续性(high contiguity)、高完整性(high completeness)和组装的准确性(correctness)。随着第三代测序技术越来越多地应用到基因组组装课题,基因组的组装质量也在不断提升,然而基因组依然存在一些复杂区域无法被测序或者无法被某种算法组装,这些gap区域严重地影响着基因组的构建。
科研工作者不断探索全基因水平的组装策略,先后提出了基于遗传图谱的方法和基于基因组空间联结的Hi-C(High-throughput Chromosome Conformation Capture)技术等。这些技术可以极大地提高基因组的连续性,特别是Hi-C技术,通过对Hi-C数据的分析可以清晰准确地将基因组草图挂载到染色体水平,该技术已应用于人类、山羊、埃及伊蚊和大麦等物种的染色体构建。
早在上世纪末,科研工作者在研究单基因疾病(即孟德尔型疾病)时就已经意识到复合杂合性现象(phenomenon of compound heterozygosity)。复合杂合性即基因组上某个区域可检测到两个变异位点,但这两个变异位点可能都位于同一条染色单体或来自不同染色单体,前者仅一条染色单体失活,而后者两条同源染色单体均失活。随着研究的深入,科研工作者发现等位区域不仅在核酸水平上存在差异,而且在基因水平上也存在差异。Geneimprint网站(http://www.geneimprint.com/)已公布人类约有200个印记基因,小鼠约有120个印记基因。其中,“印记基因”表示同源染色体上仅一条染色单体特有的基因,也即父本或母本特有的基因。这些印记基因的变异,大多会引起疾病,例如安格尔曼综合症(Angelman Syndrome,AS)和Prader-Willi综合征(Prader-Willi syndrome,PWS)等。科研工作者将这种依靠单亲传递某些遗传学性状的现象称为亲源效应(parent-of-origineffects),Nature杂志甚至将印记性(imprinting)作为专栏进行报道,以引起学术界的重视。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉菲沙基因信息有限公司,未经武汉菲沙基因信息有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010441252.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种矿用设备状态检控方法
- 下一篇:一体式万向节叉头冷镦成型方法