[发明专利]一种基于Pacbio subreads和Hi-C reads的全基因组分型方法在审
申请号: | 202010441252.3 | 申请日: | 2020-05-22 |
公开(公告)号: | CN111816248A | 公开(公告)日: | 2020-10-23 |
发明(设计)人: | 卢锐 | 申请(专利权)人: | 武汉菲沙基因信息有限公司 |
主分类号: | G16B20/00 | 分类号: | G16B20/00;G16B30/10;G16B30/20 |
代理公司: | 上海精晟知识产权代理有限公司 31253 | 代理人: | 安曼 |
地址: | 430000 湖北省武汉市东湖高新技术开发区高新*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 pacbio subreads hi reads 基因 组分 方法 | ||
1.一种基于Pacbio subreads和Hi-C reads的全基因组分型方法,其特征在于,包括以下步骤:
S1.准备参考基因组;
S2.将二代测序数据比对到参考基因组,检测出各染色体的所有SNP位点;
S3.将Hi-C建库测序数据比对到参考基因组,结合上步检测出的SNP位点,采用HapCUT2构建连锁SNP群和MVP Block;其中,所述MVP Block为SNP位点数最多,且在染色体上跨度最大的SNP群;
S4.基于MVP Block对Pacbio subreads进行分组,然后再分别组装,最终获取到每条染色单体序列;
S5.对亲本基因组进行全基因组测序,将测序结果比对到步骤S4分型出的染色单体序列上,按照比对结果将染色单体分为两组,对应父母本基因组。
2.根据权利要求1所述的一种基于Pacbio subreads和Hi-C reads的全基因组分型方法,其特征在于,所述步骤S1为:
a.采用软件对Pacbio subreads进行组装;
b.采用软件对基因组去杂合;
c.采用Hi-C辅助组装方法对基因组进行组装获取到collapsed genome,作为参考基因组。
3.根据权利要求1所述的一种基于Pacbio subreads和Hi-C reads的全基因组分型方法,其特征在于,所述步骤S1中组装软件为MECAT2或Falcon。
4.根据权利要求1所述的一种基于Pacbio subreads和Hi-C reads的全基因组分型方法,其特征在于,所述步骤S1中去杂合软件为purge_haplotigs或purge_dups。
5.根据权利要求1所述的一种基于Pacbio subreads和Hi-C reads的全基因组分型方法,其特征在于,所述步骤S4按照Pacbio subreads上各haplotype中SNP的个数以及SNP的占比来进行分组。
6.根据权利要求1所述的一种基于Pacbio subreads和Hi-C reads的全基因组分型方法,其特征在于,所述步骤S5对亲本基因组进行全基因组测序选择二代测序方法。
7.根据权利要求1或5所述的一种基于Pacbio subreads和Hi-C reads的全基因组分型方法,其特征在于,所述步骤S4分组步骤如下:
1)选取SNP位点数大于3的subreads,进入下一步;将SNP位点数为0的subreads既分到phase1又分到phase2;弃除SNP位点数为其他值的subreads;
2)按照MVP block信息计算所选subreads经过的SNP位点,分别得到对应phase1和phase2的bases数量;
3)分别计算phase1与phase2的bases数量与连接的总的SNP位点数的比值,若phase1的bases数量与连接的总的SNP位点数的比值大于80%,则该subreads划分到列phase1,若phase2的bases数与连接的总的SNP位点数的比值大于80%,则该subreads划分到列phase2,若两者比值均不大于大于80%,则弃除该subreads。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉菲沙基因信息有限公司,未经武汉菲沙基因信息有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010441252.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种矿用设备状态检控方法
- 下一篇:一体式万向节叉头冷镦成型方法