[发明专利]利用软件运行基因组序列比对修补GAP的方法在审
申请号: | 202010407899.4 | 申请日: | 2020-05-14 |
公开(公告)号: | CN111724858A | 公开(公告)日: | 2020-09-29 |
发明(设计)人: | 侯志军;韩磊;李德生;李海盟;邓林华;彭智伟;周艳强 | 申请(专利权)人: | 东北林业大学;中国大熊猫保护研究中心 |
主分类号: | G16B30/00 | 分类号: | G16B30/00 |
代理公司: | 北京科龙寰宇知识产权代理有限责任公司 11139 | 代理人: | 孙皓晨 |
地址: | 150040 黑龙*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 利用 软件 运行 基因组 序列 修补 gap 方法 | ||
1.一种利用软件运行基因组序列比对修补GAP的方法,其特征在于,通过以下步骤进行:
步骤1.配置文件:将输入文件及软件配置路径加入到profile文件中;
步骤2.Lastz比对:将组装基因组与数据库中已经公布的参考基因组进行比对;
步骤3.BWA比对:将原始下机数据比对到数据库中已经公布的参考基因组;
步骤4.筛选获得的最佳候选碱基信息;
步骤5.获得所有GAP的位置信息;
步骤6.将最佳候选碱基替换组装基因组的GAP区域;
步骤7.得到最终补全GAP的基因序列。
2.如权利要求1所述利用软件运行基因组序列比对修补GAP的方法,其特征在于,所述步骤1中的所述输入文件包含:基因组数据库中已经公布的参考基因组的版本;自己组装的需要补GAP的基因组fasta格式的版本;原始测序下机数据或过滤后的clean data。
3.如权利要求1所述利用软件运行基因组序列比对修补GAP的方法,其特征在于,所述步骤4中的所述筛选步骤包含:首先利用samtools获得包含每个位置碱基的覆盖率以及碱基频率的VCF文件;然后计算比对到数据库基因组每个碱基位置上的最大覆盖频率reads及其碱基,并将其作为该位点的最佳候选碱基保存输出;其中,只计算比对到完全匹配位置的碱基,若两个基因组之间比对序列存在插入和缺失序列的位置则不作计算。
4.权利要求1所述利用软件运行基因组序列比对修补GAP的方法,其特征在于,所述利用软件运行基因组序列比对修补GAP的方法所需的环境配置为:硬件配置为奔腾II以上CPU,16G以上内存,80G以上硬盘的PC客户端;软件配置为Linux操作系统并配置有gcc4.9.3及以上版本、Python 2.7.9及以上版本、Perl 5.22.0及以上版本以及任意版本的Lastz,BWA和samtools软件。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北林业大学;中国大熊猫保护研究中心,未经东北林业大学;中国大熊猫保护研究中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010407899.4/1.html,转载请声明来源钻瓜专利网。