[发明专利]一种基因序列识别方法、系统和计算机可读存储介质有效

专利信息
申请号: 201910199795.6 申请日: 2019-03-15
公开(公告)号: CN110070914B 公开(公告)日: 2020-07-03
发明(设计)人: 崔大超 申请(专利权)人: 崔大超
主分类号: G16B30/00 分类号: G16B30/00;G16B40/00
代理公司: 深圳市兰锋盛世知识产权代理有限公司 44504 代理人: 马世中
地址: 518000 广东*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基因 序列 识别 方法 系统 计算机 可读 存储 介质
【说明书】:

发明提供一种基因序列识别方法、系统和计算机可读存储介质,所述方法包括:获取训练数据集;对所述训练数据集的数据进行转码处理,以生成对应的输入矩阵;将所述输入矩阵置入深度学习框架中进行训练,以得到可成长数据模型;接收待识别的基因序列数据,并将其置入所述可成长数据模型,以生成基因序列识别结果信息;本发明直接利用深度学习的“学习”特性,从源头开始对识别方法的优化,使识别结果随数据集的增加与完善变得更为准确;同时,本发明的深度学习框架可以通过GPU进行加速运算,缩短识别时间;另外,本发明还通过学习其他不同软件的分类数据,生成融合数据模型,实现对复杂基因序列的进一步识别分类的参考。

技术领域

本发明涉及机器学习和生物信息技术领域,尤其涉及一种基因序列识别方法、系统和计算机可读存储介质。

背景技术

目前,生物信息学的研究主要针对基因和蛋白质数据,包括序列、结构等方面的分析研究。然而,由于数据巨大的规模和极高的复杂性,如果没有有效的算法,就会导致求解过程花费大量时间,甚至成为无法解决的难题。同源性是预测基因和蛋白质功能的主要线索,而序列同源性的判断则离不开两个或多个序列之间相似性的检测。一般来说,序列间的相似度越高,它们是同源序列的可能性就越高。

序列比对无疑是评估序列相似性的最简单方法。现有的序列比对检测工具主要包括BLAST(Basic Local Alignment Search Tool)、HMMER等。BLAST用于各种核苷酸序列,蛋白质序列等在数据库内与已知数据的比对检索,可以找出相似的序列,用于蛋白质和核酸等的功能结构预测分析。HMMER被用于在序列数据库中搜索同源序列,产生同源序列比对,所使用的方法是基于隐马尔科夫模型。HMMER常常与profile数据库连用,例如Pfam等,与BLAST等序列比对和数据库搜索工具相比,HMMER更准确,并可以检测到远的同源序列。然而,上述两种检测工具主要基于CPU,计算速度较慢。另外,上述两种检测工具基于固定的算法,并不具备学习特性,难以通过其他软件数据完成自身优化。

发明内容

为了解决上述至少一个技术问题,本发明提出了一种基因序列识别方法、系统和计算机可读存储介质。

为了实现上述目的,本发明第一方面提出了一种基因序列识别方法,包括:

获取训练数据集;

对所述训练数据集的数据进行转码处理,以生成对应的输入矩阵;

将所述输入矩阵置入深度学习框架中进行训练,以得到可成长数据模型;

接收待识别的基因序列数据,并将其置入所述可成长数据模型,以生成基因序列识别结果信息。

本方案中,所述基因序列识别方法,还包括:

获取初始训练数据集;

对所述初始训练数据集的数据进行转码处理,以生成对应的输入矩阵;

将所述输入矩阵置入深度学习框架中进行训练,以得到初始数据模型;

接收待识别的基因序列数据,并将其置入所述初始数据模型,以生成基因序列识别结果信息。

本方案中,在得到初始数据模型之后,还包括:

获取第三方平台的分类数据;

通过预设的合并规则,将所述分类数据与初始训练数据集合并以形成融合训练数据集;

对所述融合训练数据集的数据进行转码处理,以生成对应的输入矩阵;

将所述输入矩阵置入深度学习框架中进行训练,以得到可成长数据模型;

接收待分类未知基因序列数据,并将其置入所述可成长数据模型,以生成基因序列识别结果信息。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于崔大超,未经崔大超许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910199795.6/2.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top