[发明专利]一种基于三元组神经网络的物种生物学分类方法及系统有效

申请号：	202010385660.1	申请日：	2020-05-09
公开（公告）号：	CN111564179B	公开（公告）日：	2022-04-29
发明（设计）人：	王颖;王怡雯	申请（专利权）人：	厦门大学
主分类号：	G16B30/00	分类号：	G16B30/00;G16B40/20
代理公司：	北京高沃律师事务所 11569	代理人：	杜阳阳
地址：	361005 ***	国省代码：	福建;35
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于三元神经网络物种生物学分类方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于三元组神经网络的物种生物学分类方法及系统。该方法包括：获取待分类序列，所述待分类序列为DNA序列、RNA序列、氨基酸序列、基因组数据序列、转录组数据序列、宏基因组数据序列或宏转录组数据序列；确定所述待分类序列的k‑tuple频度向量；采用神经网络模型对所述待分类序列的k‑tuple频度向量进行降维处理；基于降维后的k‑tuple频度向量分别计算所述待分类序列与各类样本序列之间的距离；将与所述待分类序列距离最近的类别确定为所述待分类序列的类别。本发明具有数据预处理简单、分类速度快的特点。

技术领域

本发明涉及物种分类技术领域，特别是涉及一种基于三元组神经网络的物种生物学分类方法及系统。

背景技术

随着测序技术的迅速发展，生物领域产生了许多未知的序列数据。对其进行分类定位是对序列分析的关键步骤。传统的物种分类是基于序列比对，不仅需要较大的计算能力和耗费大量时间，而且准确率不高。

基于深度学习的物种分类方法比基于比对的传统方法计算效率更高，并且已经广泛应用于基因组和宏基因组的分类。现有的基于深度学习的分类算法能够以端到端的方式对输入数据(如基因组片段)和目标变量(如物种起源)之间的复杂依赖关系进行建模。然而，这些方法要对输入数据进行复杂的预处理过程，而且对模型结果有复杂的要求，需要较长的预处理和学习时间，从而限制了这些方法在物种分类上应用。

发明内容

本发明的目的是提供一种基于三元组神经网络的快速物种生物学分类方法及系统。

为实现上述目的，本发明提供了如下方案：

一种基于三元组神经网络的物种生物学分类方法，包括：

获取待分类序列，所述待分类序列为DNA序列、RNA序列、氨基酸序列、基因组数据序列、转录组数据序列、宏基因组数据序列或宏转录组数据序列；

确定所述待分类序列的k-tuple频度向量；

采用神经网络模型对所述待分类序列的k-tuple频度向量进行降维处理；

基于降维后的k-tuple频度向量分别计算所述待分类序列与各类样本序列之间的距离；

将与所述待分类序列距离最近的类别确定为所述待分类序列的类别。

可选的，所述确定所述待分类序列的k-tuple频度向量，具体包括：

确定k-tuple j在所述待分类序列中出现的频次a_j，其中，j＝1,…,4^k，k为 tuple的长度，4^k为tuple的数量；

将所述待分类序列的k-tuple频度向量确定为