[发明专利]一种快速比对基因数据的方法和比对系统有效
申请号: | 201810706545.2 | 申请日: | 2018-06-29 |
公开(公告)号: | CN108985008B | 公开(公告)日: | 2022-03-08 |
发明(设计)人: | 史宏志;赵健;崔星辰;尹云峰 | 申请(专利权)人: | 郑州云海信息技术有限公司 |
主分类号: | G16B30/10 | 分类号: | G16B30/10;G16B40/00 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王宝筠 |
地址: | 450018 河南省郑州市*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 速比 基因 数据 方法 系统 | ||
本申请实施例公开了一种快速比对基因数据的方法,包括:FPGA从缓存中读取待比对基因和参考基因,待比对基因长度为L;FPGA根据待比对基因和预设算法从参考基因中确定多个目标种子,目标种子为与待比对基因匹配的一定长度的基因序列;FPGA从多个目标种子选取相似度最高的种子作为最优种子;FPGA根据最优种子在参考序列中的位置截取预设长度的基因序列得到估计序列,估计序列的长度大于或等于最优种子的长度;FPGA将最优种子和估计序列通过计算最短编辑距离对最优种子进行评分,评分用于指示最优种子的准确性和真实性;FPGA根据最优种子的评分输出最优的比对结果。可改善算法执行时的吞吐率性能,提高基因比对的效率。
技术领域
本申请涉及基因分析领域,尤其涉及一种快速比对基因数据的方法和比对系统。
背景技术
基因的研究也对人类的重大进步有着深远的影响,基因数据比对也是生物信息学的基本组成和重要基础,基因比对的基本方法是将两个或多个序列排列在一起,标明其相似之处。序列中可以插入间隔,对应的相同或相似的符号排列在同一列上。碱基对可看成是组成DNA的基本单位,碱基对是一对相互匹配,根据一定的匹配规则被氢键连接起来的碱基,而组成碱基对的碱基包括A腺嘌呤,T胸腺嘧啶,C胞嘧啶,G鸟嘌呤,匹配规则是A—T,G—C。
基因数据对比是基因数据分析过程中耗时最长的步骤之一,该过程的性能直接影响基因测序技术可用性。目前广泛采用的基因数据分析流程是(TheGenome AnalysisToolkit,GATK)流程,基因数据比对是其第一步,基因数据比对过程多采用bwa mem算法实现基因数据到参考基因序列的映射。
但该算法是以节省内存为目的进行设计的,算法结构较为复杂,主要是通过串行的方法比对基因,导致基因比对过程耗费资源过大、耗费时间过长,比对效率低下成为了整个基因数据分析过程的性能瓶颈。
发明内容
本申请实施例提供了一种快速比对基因数据的方法、主机、现场可编程门阵列(Field-Programmable Gate Array,FPGA)和比对系统。
有鉴于此,本发明第一方面提供了一种快速比对基因数据的方法,包括:
所述FPGA从缓存中读取待比对基因和参考基因,所述待比对基因长度为L;
所述FPGA根据所述待比对基因和预设算法从所述参考基因中确定多个目标种子,所述目标种子为与所述待比对基因匹配的一定长度的基因序列;
所述FPGA从所述多个目标种子选取相似度最高的种子作为最优种子;
所述FPGA根据所述最优种子在所述参考序列中的位置截取预设长度的基因序列得到估计序列,所述估计序列的长度大于或等于所述最优种子的长度;
所述FPGA将所述最优种子和所述估计序列通过计算最短编辑距离对所述最优种子进行评分,所述评分用于指示所述最优种子的准确性和真实性;
所述FPGA根据所述最优种子的评分输出最优的比对结果。
结合本申请实施例第一方面,在本申请实施例第一方面的第一种实施方式中,所述根据所述待比对基因和预设算法从所述参考基因中确定多个目标种子,包括:
根据所述待比对基因的碱基从所述参考基因中确定第一位置,所述第一位置为所述待比对基因与所述参考基因不一致的位置;
根据所述待比对基因和所述第一位置从参考基因中确定目标种子。
结合本申请实施例第一方面至第一方面的第一种实施方式,在本申请实施例第一方面的第二种实施方式中,所述预设算法包括:
伯罗斯惠勒变换BWT算法和哈希算法。
结合本申请实施例第一方面的第二种实施方式中的任一实施方式,在本申请实施例第一方面的第三种实施方式中,所述方法还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于郑州云海信息技术有限公司,未经郑州云海信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810706545.2/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置