[发明专利]利用软件运行基因组序列比对修补GAP的方法在审
申请号: | 202010407899.4 | 申请日: | 2020-05-14 |
公开(公告)号: | CN111724858A | 公开(公告)日: | 2020-09-29 |
发明(设计)人: | 侯志军;韩磊;李德生;李海盟;邓林华;彭智伟;周艳强 | 申请(专利权)人: | 东北林业大学;中国大熊猫保护研究中心 |
主分类号: | G16B30/00 | 分类号: | G16B30/00 |
代理公司: | 北京科龙寰宇知识产权代理有限责任公司 11139 | 代理人: | 孙皓晨 |
地址: | 150040 黑龙*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 利用 软件 运行 基因组 序列 修补 gap 方法 | ||
本发明公开一种利用软件运行基因组序列比对修补GAP的方法,其通过将自己组装的有GAP的基因组序列与数据库中已发布的参考基因组进行比对得到GAP位置信息,再将原始下机数据与参考基因组进行比对得到最佳候选碱基信息,然后将最佳候选碱基替换组装基因组的GAP区域,从而得到最终的补全GAP的基因序列。
技术领域
本发明涉及基因工程领域,具体而言,涉及一种利用软件运行基因组序列比对修补GAP的方法,更具体地涉及蛔虫基因组序列比对修补GAP的方法。
背景技术
基因测序技术,即测定基因序列的技术,对生物和医疗行业都有重大意义。第一代基因测序技术通常指Sanger测序技术,随着生物技术的不断发展,拥有高通量、高精度、低成本的第二代基因测序技术(简称二代测序技术)逐渐成熟起来。但是,利用二代测序数据组装的基因组通常含有很多的GAP,导致其结果质量很差,有些组装的基因组的版本不得不被废弃,因此增加了组装成本。
发明内容
为了解决上述问题,本发明提供一种利用软件运行基因组序列比对修补GAP的方法,利用多序列比对的原理,通过比较基因组序列及一系列条件的筛选,最终达到获得GAP位置的碱基信息并补全GAP的目的。
为达到上述目的,本发明提供了一种利用软件运行基因组序列比对修补GAP的方法,其通过将自己组装的有GAP的基因组序列与数据库中已发布的参考基因组进行比对得到GAP位置信息,再将原始下机数据与参考基因组进行比对得到最佳候选碱基信息,然后将最佳候选碱基替换组装基因组的GAP区域,从而得到最终的补全GAP的基因序列,本发明所述的方法通过以下步骤进行:
步骤1.配置文件:将输入文件及软件配置路径加入到profile文件中;
步骤2.Lastz比对:将组装基因组与数据库中已经公布的参考基因组进行比对;
步骤3.BWA比对:将原始下机数据比对到数据库中已经公布的参考基因组;
步骤4.筛选获得的最佳候选碱基信息;
步骤5.获得所有GAP的位置信息;
步骤6.将最佳候选碱基替换组装基因组的GAP区域;
步骤7.得到最终补全GAP的基因序列。
在本发明一实施例中,其中所述步骤1中的所述输入文件包含:基因组数据库中已经公布的参考基因组的版本;自己组装的需要补GAP的基因组fasta格式的版本;原始测序下机数据或过滤后的clean data。
在本发明一实施例中,其中所述步骤4中的所述筛选步骤包括:首先利用samtools获得包含每个位置碱基的覆盖率以及碱基频率的VCF文件;然后计算比对到数据库基因组每个碱基位置上的最大覆盖频率reads及其碱基,并将其作为该位点的最佳候选碱基保存输出;其中,只计算比对到完全匹配位置的碱基,若两个基因组之间比对序列存在插入和缺失序列的位置则不作计算。
在本发明一实施例中,所述利用软件运行基因组序列比对修补GAP的方法所需的环境配置为:硬件配置为奔腾II以上CPU,16G以上内存,80G以上硬盘的PC客户端;软件配置为Linux操作系统并配置有gcc 4.9.3及以上版本、Python 2.7.9及以上版本、Perl 5.22.0及以上版本以及任意版本的Lastz,BWA和samtools软件。
本发明通过软件将自己组装的基因组与基因组数据库中已经有前人发布的基因组版本进行对比,再通过一系列的条件筛选最终获得GAP位置的碱基信息并补全,避免了现有技术中利用二代测序数据组装的基因组含有很多的GAP而导致其结果质量很差的问题,改善了基因组的组装质量,降低组装成本,并且降低了组装的基因组版本被废弃的可能性。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北林业大学;中国大熊猫保护研究中心,未经东北林业大学;中国大熊猫保护研究中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010407899.4/2.html,转载请声明来源钻瓜专利网。