[发明专利]一种基因序列识别方法、系统和计算机可读存储介质有效
申请号: | 201910199795.6 | 申请日: | 2019-03-15 |
公开(公告)号: | CN110070914B | 公开(公告)日: | 2020-07-03 |
发明(设计)人: | 崔大超 | 申请(专利权)人: | 崔大超 |
主分类号: | G16B30/00 | 分类号: | G16B30/00;G16B40/00 |
代理公司: | 深圳市兰锋盛世知识产权代理有限公司 44504 | 代理人: | 马世中 |
地址: | 518000 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基因 序列 识别 方法 系统 计算机 可读 存储 介质 | ||
本发明提供一种基因序列识别方法、系统和计算机可读存储介质,所述方法包括:获取训练数据集;对所述训练数据集的数据进行转码处理,以生成对应的输入矩阵;将所述输入矩阵置入深度学习框架中进行训练,以得到可成长数据模型;接收待识别的基因序列数据,并将其置入所述可成长数据模型,以生成基因序列识别结果信息;本发明直接利用深度学习的“学习”特性,从源头开始对识别方法的优化,使识别结果随数据集的增加与完善变得更为准确;同时,本发明的深度学习框架可以通过GPU进行加速运算,缩短识别时间;另外,本发明还通过学习其他不同软件的分类数据,生成融合数据模型,实现对复杂基因序列的进一步识别分类的参考。
技术领域
本发明涉及机器学习和生物信息技术领域,尤其涉及一种基因序列识别方法、系统和计算机可读存储介质。
背景技术
目前,生物信息学的研究主要针对基因和蛋白质数据,包括序列、结构等方面的分析研究。然而,由于数据巨大的规模和极高的复杂性,如果没有有效的算法,就会导致求解过程花费大量时间,甚至成为无法解决的难题。同源性是预测基因和蛋白质功能的主要线索,而序列同源性的判断则离不开两个或多个序列之间相似性的检测。一般来说,序列间的相似度越高,它们是同源序列的可能性就越高。
序列比对无疑是评估序列相似性的最简单方法。现有的序列比对检测工具主要包括BLAST(Basic Local Alignment Search Tool)、HMMER等。BLAST用于各种核苷酸序列,蛋白质序列等在数据库内与已知数据的比对检索,可以找出相似的序列,用于蛋白质和核酸等的功能结构预测分析。HMMER被用于在序列数据库中搜索同源序列,产生同源序列比对,所使用的方法是基于隐马尔科夫模型。HMMER常常与profile数据库连用,例如Pfam等,与BLAST等序列比对和数据库搜索工具相比,HMMER更准确,并可以检测到远的同源序列。然而,上述两种检测工具主要基于CPU,计算速度较慢。另外,上述两种检测工具基于固定的算法,并不具备学习特性,难以通过其他软件数据完成自身优化。
发明内容
为了解决上述至少一个技术问题,本发明提出了一种基因序列识别方法、系统和计算机可读存储介质。
为了实现上述目的,本发明第一方面提出了一种基因序列识别方法,包括:
获取训练数据集;
对所述训练数据集的数据进行转码处理,以生成对应的输入矩阵;
将所述输入矩阵置入深度学习框架中进行训练,以得到可成长数据模型;
接收待识别的基因序列数据,并将其置入所述可成长数据模型,以生成基因序列识别结果信息。
本方案中,所述基因序列识别方法,还包括:
获取初始训练数据集;
对所述初始训练数据集的数据进行转码处理,以生成对应的输入矩阵;
将所述输入矩阵置入深度学习框架中进行训练,以得到初始数据模型;
接收待识别的基因序列数据,并将其置入所述初始数据模型,以生成基因序列识别结果信息。
本方案中,在得到初始数据模型之后,还包括:
获取第三方平台的分类数据;
通过预设的合并规则,将所述分类数据与初始训练数据集合并以形成融合训练数据集;
对所述融合训练数据集的数据进行转码处理,以生成对应的输入矩阵;
将所述输入矩阵置入深度学习框架中进行训练,以得到可成长数据模型;
接收待分类未知基因序列数据,并将其置入所述可成长数据模型,以生成基因序列识别结果信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于崔大超,未经崔大超许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910199795.6/2.html,转载请声明来源钻瓜专利网。