[发明专利]一种基于三元组神经网络的物种生物学分类方法及系统有效
申请号: | 202010385660.1 | 申请日: | 2020-05-09 |
公开(公告)号: | CN111564179B | 公开(公告)日: | 2022-04-29 |
发明(设计)人: | 王颖;王怡雯 | 申请(专利权)人: | 厦门大学 |
主分类号: | G16B30/00 | 分类号: | G16B30/00;G16B40/20 |
代理公司: | 北京高沃律师事务所 11569 | 代理人: | 杜阳阳 |
地址: | 361005 *** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 三元 神经网络 物种 生物学 分类 方法 系统 | ||
1.一种基于三元组神经网络的物种生物学分类方法,其特征在于,包括:
获取待分类序列,所述待分类序列为DNA序列、RNA序列、氨基酸序列、基因组数据序列、转录组数据序列、宏基因组数据序列或宏转录组数据序列;
确定所述待分类序列的k-tuple频度向量;
采用神经网络模型对所述待分类序列的k-tuple频度向量进行降维处理;
基于降维后的k-tuple频度向量分别计算所述待分类序列与各类样本序列之间的距离;
将与所述待分类序列距离最近的类别确定为所述待分类序列的类别;
其中,所述确定所述待分类序列的k-tuple频度向量,具体包括:
确定k-tuple j在所述待分类序列中出现的频次aj,其中,j=1,…,4k,k为tuple的长度,4k为tuple的数量;
将所述待分类序列的k-tuple频度向量确定为
在所述采用神经网络模型对所述待分类序列的k-tuple频度向量进行降维处理之前,还包括:训练所述神经网络模型;
所述训练所述神经网络模型,具体包括:
建立权重共享的三个相同的神经网络;
获取样本序列;
确定所述样本序列的k-tuple频度向量,记为样本向量;
确定与第i个样本向量xi所属同一类别中,且与所述样本向量xi相似度相对小的样本向量,记为所述相对小的样本向量表示与所述样本向量xi相似度由小到大排序中靠前的前几个中的一个,或是与所述样本向量xi相似度小于设定值的样本向量中的一个,或是与所述样本向量xi相似度最小的样本向量;
确定与第i个样本向量xi所属不同类别中,且与所述样本向量xi相似度相对大的样本向量,记为所述相对大的样本向量表示与所述样本向量xi相似度由大到小排序中靠前的前几个中的一个,或是与所述样本向量xi相似度大于设定值的样本向量中的一个,或是与所述样本向量xi相似度最大的样本向量;
分别以xi、作为三个所述神经网络的输入,以作为损失函数,对所述神经网络进行训练,得到所述神经网络模型,其中,f(xi)为xi对应的输出,为对应的输出,为对应的输出,α为预设值。
2.根据权利要求1所述的基于三元组神经网络的物种生物学分类方法,其特征在于,所述采用神经网络模型对所述待分类序列的k-tuple频度向量进行降维处理,具体包括:
将所述待分类序列的k-tuple频度向量x输入训练好的三个神经网络中的任意一个中,得到所述待分类序列的k-tuple频度向量对应的输出f(x)。
3.根据权利要求2所述的基于三元组神经网络的物种生物学分类方法,其特征在于,所述基于降维后的k-tuple频度向量分别计算所述待分类序列与各类样本序列之间的距离,具体包括:
分别将第P类别中的每一个样本向量作为x+,将不属于第P类别的所有样本向量作为x-,构建三元组(x,x+,x-),并将x+,x-分别输入所述神经网络,分别得到x+对应的输出f(x+)和x-对应的输出f(x-);
根据计算所述待分类序列与第P类别的欧式距离,m为第P类别中样本向量的数量,n为除第P类别样本向量以外的样本向量数量,为第P类别中的第t个样本向量,为除第P类别样本向量以外的样本向量中的第s个样本向量,其中,P=1,2,…,r,r为类别的数量;
将与所述待分类序列欧式距离最短的类别确定为所述待分类序列的类别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门大学,未经厦门大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010385660.1/1.html,转载请声明来源钻瓜专利网。