[发明专利]基于SIMD的哈希函数的基因序列快速分类方法及系统有效
申请号: | 202010196384.4 | 申请日: | 2020-03-19 |
公开(公告)号: | CN111370064B | 公开(公告)日: | 2023-05-05 |
发明(设计)人: | 刘卫国;徐晓明;殷泽坤 | 申请(专利权)人: | 山东大学 |
主分类号: | G16B30/10 | 分类号: | G16B30/10;G16B40/00;G06F18/241;G06F18/22 |
代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 黄海丽 |
地址: | 250101 *** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 simd 函数 基因 序列 快速 分类 方法 系统 | ||
本公开公开了基于SIMD的哈希函数的基因序列快速分类方法及系统,包括:基于单指令多数据流SIMD改进的哈希函数,构建已知基因序列的哈希值列表;基于单指令多数据流SIMD改进的哈希函数,构建待分类序列的哈希列表;基于已构建的已知基因序列的哈希值列表和待分类序列的哈希列表,采用基于统计学的抽样算法,将待分类基因序列的向量与所有已知类型基因序列的哈希值进行相似性比较,当相似性高于设定阈值的时候,判断参与碰撞检测的两条序列的相似性高,从而待分类序列属于相似性最高的已知序列的类别。
技术领域
本公开涉及基因比对技术领域,特别是涉及基于SIMD的哈希函数的基因序列快速分类方法及系统。
背景技术
本部分的陈述仅仅是提到了与本公开相关的背景技术,并不必然构成现有技术。
随着高通量生物基因技术的发展,生物基因的数据库规模越来越大。在基于局部对比算法的搜索工具(BasicLocalAlignmentSearchTool,BLAST)刚刚诞生的时候,公开的基因库数据总量不到5千万条核苷酸序列,而现在,一个单独的基因处理工具一次性可以产生超过1万亿条序列。之前的精确比对算法在复杂度上比较高,计算时间非常长,针对于这种数据规模需要新的基因比对算法。近些年来出现流行很多基于统计学估计的非精确比对算法,对于基因数据的比对转化为对基因序列中长度较小的一系列公共子序列片段(k-mer,长度为k的子字符串)的数目的统计,在这一类算法中,一般会用相应的哈希算法将这些子字符串映射成相应的哈希值,从而对于子字符串的统计、计算等操作转化为对相应的哈希值的操作,而MurmurHash哈希算法是其中较为高效的并且应用较为广泛的一种哈希算法。
在实现本公开的过程中,发明人发现现有技术中存在以下技术问题:
现有的基因序列分类速度慢,不适合当前基因数据库规模的处理。
现有的哈希函数的计算速率较慢,在基因数据规模较大的时候成为最耗时的部分。
发明内容
为了解决现有技术的不足,本公开提供了基于SIMD的哈希函数的基因序列快速比对方法及系统;
第一方面,本公开提供了基于SIMD的哈希函数的基因序列快速分类方法;
基于SIMD的哈希函数的基因序列快速分类方法,包括:
基于单指令多数据流SIMD改进的哈希函数,构建已知基因序列的哈希值列表;
基于单指令多数据流SIMD改进的哈希函数,构建待分类序列的哈希列表;
基于已构建的已知基因序列的哈希值列表和待分类序列的哈希列表,采用基于统计学的抽样算法,将待分类基因序列的向量与所有已知类型基因序列的哈希值进行相似性比较,当相似性高于设定阈值的时候,判断参与碰撞检测的两条序列的相似性高,从而待分类序列属于相似性最高的已知序列的类别。
第二方面,本公开还提供了基于SIMD的哈希函数的基因序列快速分类系统;
基于SIMD的哈希函数的基因序列快速分类系统,包括:
第一构建模块,其被配置为:基于单指令多数据流SIMD改进的哈希函数,构建已知基因序列的哈希值列表;
第二构建模块,其被配置为:基于单指令多数据流SIMD改进的哈希函数,构建待分类序列的哈希列表;
分类模块,其被配置为:基于已构建的已知基因序列的哈希值列表和待分类序列的哈希列表,采用基于统计学的抽样算法,将待分类基因序列的向量与所有已知类型基因序列的哈希值进行相似性比较,当相似性高于设定阈值的时候,判断参与碰撞检测的两条序列的相似性高,从而待分类序列属于相似性最高的已知序列的类别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东大学,未经山东大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010196384.4/2.html,转载请声明来源钻瓜专利网。