[发明专利]一种基于参考序列的基因压缩方法有效
申请号: | 201910598102.0 | 申请日: | 2019-07-04 |
公开(公告)号: | CN110310709B | 公开(公告)日: | 2022-08-16 |
发明(设计)人: | 季一木;陈帅;尧海昌;李奎;刘尚东;方厚之;刘强 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G16B50/50 | 分类号: | G16B50/50 |
代理公司: | 南京瑞弘专利商标事务所(普通合伙) 32249 | 代理人: | 彭雄 |
地址: | 210000 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于参考序列的基因压缩方法,首先任意选取一个基因序列作为参考序列。其次,获取参考序列的小写字符和ACGT,并以二元组表示小写字符。然后,读取参考文件,获得参考文件的头部、换行信息、小写字符、N字符、碱基信息和其他字符,并将换行长度、小写字符、N字符和其他字符表示成二元组。接着,匹配参考序列和待压缩序列的小写字符二元组。最后匹配Hash值。解压缩过种采用压缩过程相反的步骤。采用本压缩方法的压缩比高,压缩速度快,而且二元组编码与基因次序无关,有利于分布式存储和分析基因序列。 | ||
搜索关键词: | 一种 基于 参考 序列 基因 压缩 方法 | ||
【主权项】:
1.一种基于参考序列的基因压缩方法,其特征在于,包括以下步骤:步骤1)、遍历参考基因文件;将其中小写字符写入内存,此小写字符信息包括碱基、N字符和其他字符在内的所有小写字符信息;遍历过程中遇到大写的碱基字符时,将其写入内存;遇到小写的碱基字符时,将其转成大写字符,然后写入内存,并且使用开始位置与长度二元组记录参考基因文件小写字符的位置信息,得到参考基因文件小写字符二元组;步骤2)、参考基因文件碱基信息Hash值计算;使用k‑mer方法将基因分段,对碱基ACGT分别编码,并计算Hash值,使得每一个Hash值代表一个基因片段;步骤3)、遍历待压缩基因文件;将其中小写字符写入内存,此小写字符信息包括碱基、N字符和其他字符在内的所有小写字符信息;遍历过程中遇到大写的碱基字符、N字符和其他字符时,将其写入内存;遇到小写的碱基字符、N字符和其他字符时,将其转成大写字符,然后写入内存;同时将换行信息也写入内存;并且使用开始位置与长度二元组记录压缩基因文件小写字符的位置信息,得到压缩基因文件小写字符二元组;步骤4)、小写字符写入压缩文件;对比已经生成的小写字符二元组,将待压缩基因文件的小写字符二元组对比参考基因文件的小写字符二元组,进一步将相同的部分用二元组表示,并写入压缩文件;不同的部分直接写入压缩文件;步骤5)、换行信息、N字符和其他字符写入压缩文件;将带压缩文件中换行信息、N字符和其他字符以二元组形式表示并将二元组写入压缩文件;步骤6)、碱基信息写入压缩文件;使用k‑mer方法对带压缩基因文件每一段求取Hash值,并根据Hash值匹配得到与参考基因文件相同的k‑mer段,记录该k‑mer段的开始位置与连续重复最大长度为一个新二元组,直至遍历待压缩基因文件小写字符二元组完成,生成新二元组写入压缩文件。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910598102.0/,转载请声明来源钻瓜专利网。