[发明专利]一种基于三元组神经网络的物种生物学分类方法及系统有效
申请号: | 202010385660.1 | 申请日: | 2020-05-09 |
公开(公告)号: | CN111564179B | 公开(公告)日: | 2022-04-29 |
发明(设计)人: | 王颖;王怡雯 | 申请(专利权)人: | 厦门大学 |
主分类号: | G16B30/00 | 分类号: | G16B30/00;G16B40/20 |
代理公司: | 北京高沃律师事务所 11569 | 代理人: | 杜阳阳 |
地址: | 361005 *** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 三元 神经网络 物种 生物学 分类 方法 系统 | ||
本发明公开了一种基于三元组神经网络的物种生物学分类方法及系统。该方法包括:获取待分类序列,所述待分类序列为DNA序列、RNA序列、氨基酸序列、基因组数据序列、转录组数据序列、宏基因组数据序列或宏转录组数据序列;确定所述待分类序列的k‑tuple频度向量;采用神经网络模型对所述待分类序列的k‑tuple频度向量进行降维处理;基于降维后的k‑tuple频度向量分别计算所述待分类序列与各类样本序列之间的距离;将与所述待分类序列距离最近的类别确定为所述待分类序列的类别。本发明具有数据预处理简单、分类速度快的特点。
技术领域
本发明涉及物种分类技术领域,特别是涉及一种基于三元组神经网络的物 种生物学分类方法及系统。
背景技术
随着测序技术的迅速发展,生物领域产生了许多未知的序列数据。对其进 行分类定位是对序列分析的关键步骤。传统的物种分类是基于序列比对,不仅 需要较大的计算能力和耗费大量时间,而且准确率不高。
基于深度学习的物种分类方法比基于比对的传统方法计算效率更高,并且 已经广泛应用于基因组和宏基因组的分类。现有的基于深度学习的分类算法能 够以端到端的方式对输入数据(如基因组片段)和目标变量(如物种起源)之间的 复杂依赖关系进行建模。然而,这些方法要对输入数据进行复杂的预处理过程, 而且对模型结果有复杂的要求,需要较长的预处理和学习时间,从而限制了这 些方法在物种分类上应用。
发明内容
本发明的目的是提供一种基于三元组神经网络的快速物种生物学分类方 法及系统。
为实现上述目的,本发明提供了如下方案:
一种基于三元组神经网络的物种生物学分类方法,包括:
获取待分类序列,所述待分类序列为DNA序列、RNA序列、氨基酸序列、 基因组数据序列、转录组数据序列、宏基因组数据序列或宏转录组数据序列;
确定所述待分类序列的k-tuple频度向量;
采用神经网络模型对所述待分类序列的k-tuple频度向量进行降维处理;
基于降维后的k-tuple频度向量分别计算所述待分类序列与各类样本序列 之间的距离;
将与所述待分类序列距离最近的类别确定为所述待分类序列的类别。
可选的,所述确定所述待分类序列的k-tuple频度向量,具体包括:
确定k-tuple j在所述待分类序列中出现的频次aj,其中,j=1,…,4k,k为 tuple的长度,4k为tuple的数量;
将所述待分类序列的k-tuple频度向量确定为
可选的,在所述采用神经网络模型对所述待分类序列的k-tuple频度向量 进行降维处理之前,还包括:训练所述神经网络模型;
所述训练所述神经网络模型,具体包括:
建立权重共享的三个相同的神经网络;
获取样本序列;
确定所述样本序列的k-tuple频度向量,记为样本向量;
确定与第i个样本向量xi所属同一类别中,且与所述样本向量xi相似度相 对小的样本向量,记为
确定与第i个样本向量xi所属不同类别中,且与所述样本向量xi相似度相 对大的样本向量,记为
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门大学,未经厦门大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010385660.1/2.html,转载请声明来源钻瓜专利网。