[发明专利]一种蛋白质序列特征的生成方法、装置和计算设备在审
申请号: | 202010357685.0 | 申请日: | 2020-04-29 |
公开(公告)号: | CN111462822A | 公开(公告)日: | 2020-07-28 |
发明(设计)人: | 翟珂;王天元;赖力鹏;温书豪;马健 | 申请(专利权)人: | 北京晶派科技有限公司 |
主分类号: | G16B30/00 | 分类号: | G16B30/00;G16B35/00;G16B40/00;G06N3/04;G06N3/08 |
代理公司: | 北京思睿峰知识产权代理有限公司 11396 | 代理人: | 谢建云;赵爱军 |
地址: | 100190 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 蛋白质 序列 特征 生成 方法 装置 计算 设备 | ||
1.一种蛋白质序列特征的生成方法,适于在计算设备中执行,所述方法包括步骤:
获取待处理的目标蛋白质序列,所述目标蛋白质序列表示为单字母缩写的氨基酸标识;
以三肽为最小单位对所述目标蛋白质序列进行切分,并从切分结果中删除二肽和离散的单个氨基酸,得到所述目标蛋白质序列的三肽词汇序列;
利用预设的蛋白质序列特征模型对所述目标蛋白质序列的三肽词汇序列进行处理,以得到该三肽词汇序列的语义特征向量。
2.如权利要求1所述的方法,其中,所述蛋白质序列特征模型为BERT模型,其模型结构包括:
输入层:适于接收输入的三肽词汇序列;
嵌入层:适于将每个三肽词汇编码为词向量;
拼接层:适于将每个三肽词汇的词向量、位置向量和分割向量进行拼接,所述位置向量和分割向量分别代表所述三肽词汇的字符位置编号和上下句编号;
多个编码器层:适于通过多头注意力机制对每个三肽词汇的上下文信息进行学习;以及
语义向量输出层:适于输出三肽词汇序列的语义特征向量。
3.如权利要求2所述的方法,其中,所述词向量为504维的词向量,所述编码器层为6层,所述三肽词汇序列的最大词汇数量为128。
4.如权利要求1-3中任一项所述的方法,还包括所述蛋白质序列特征模型的训练步骤:
获取多条已知的样本蛋白质序列,所述样本蛋白质序列表示为单字母缩写的氨基酸标识;
以三肽为最小单位对所述样本蛋白质序列进行切分,并从切分结果中删除二肽和离散的单个氨基酸,得到所述样本蛋白质序列的三肽词汇序列;以及
以所述样本蛋白质序列的三肽词汇序列为输入,以该三肽词汇序列的语义特征向量为输出,对预训练的蛋白质序列特征模型进行训练,得到训练好的蛋白质序列特征模型。
5.如权利要求4所述的方法,其中,所述对预训练的蛋白质序列特征模型进行训练的步骤包括三肽词汇之间的关系训练和/或三肽句子之间的关系训练。
6.如权利要求5所述的方法,其中,所述三肽词汇之间的关系训练步骤包括:
随机遮蔽所述三肽词汇序列的部分三肽词汇后,输入到所述预训练的蛋白质序列特征模型,以输出所遮蔽的三肽词汇,并基于实际词汇结果对所述模型进行训练。
7.如权利要求6所述的方法,其中,所述部分三肽词汇在所述三肽词汇序列的占比为15%,所遮蔽的部分三肽词汇用默认符号表示。
8.一种蛋白质序列特征的生成装置,适于驻留在计算设备中,所述装置包括:
序列获取模块,适于获取待处理的目标蛋白质序列,所述目标蛋白质序列表示为单字母缩写的氨基酸标识;
序列切分模块,适于以三肽为最小单位对所述目标蛋白质序列进行切分,并从切分结果中删除二肽和离散的单个氨基酸,得到所述目标蛋白质序列的三肽词汇序列;
特征生成模块,适于利用预设的蛋白质序列特征模型对所述目标蛋白质序列的三肽词汇序列进行处理,以得到该三肽词汇序列的语义特征向量。
9.一种计算设备,包括:
存储器;
一个或多个处理器;
一个或多个程序,其中所述一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行根据权利要求1-7所述方法中的任一方法的指令。
10.一种存储一个或多个程序的计算机可读存储介质,所述一个或多个程序包括指令,所述指令当计算设备执行时,使得所述计算设备执行根据权利要求1-7所述的方法中的任一方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京晶派科技有限公司,未经北京晶派科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010357685.0/1.html,转载请声明来源钻瓜专利网。