[发明专利]一种蛋白质性能预测方法、装置和计算设备在审
申请号: | 202010358971.9 | 申请日: | 2020-04-29 |
公开(公告)号: | CN111401534A | 公开(公告)日: | 2020-07-10 |
发明(设计)人: | 王天元;翟珂;赖力鹏;温书豪;马健 | 申请(专利权)人: | 北京晶派科技有限公司 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08;G16B5/00;G16B15/00 |
代理公司: | 北京思睿峰知识产权代理有限公司 11396 | 代理人: | 谢建云;赵爱军 |
地址: | 100190 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 蛋白质 性能 预测 方法 装置 计算 设备 | ||
1.一种蛋白质性能预测方法,适于在计算设备中执行,所述计算设备包括蛋白质性质预测模型,该模型包括相互耦接的蛋白质序列特征模型和下游预测模型,所述蛋白质序列特征模型基于输入的三肽词汇序列输出对应的语义特征向量,所述下游预测模型基于所述语义特征向量输出蛋白质序列的性能属性,所述方法包括步骤:
获取待处理的目标蛋白质序列,所述目标蛋白质序列表示为单字母缩写的氨基酸标识;
以三肽为最小单位对所述目标蛋白质序列进行切分,并从切分结果中删除二肽和离散的单个氨基酸,得到所述目标蛋白质序列的三肽词汇序列;以及
利用所述蛋白质性能预测模型对所述目标蛋白质序列的三肽词汇序列进行处理,以得到该目标蛋白质序列的特征向量,进而得到该特征向量所对应的蛋白质性能属性。
2.如权利要求1所述的方法,其中,所述蛋白质性能预测模型包括:
蛋白质序列特征模型:适于基于蛋白质序列的三肽序列生成对应的语义特征向量;
参数冻结层:适于冻结训练好的蛋白质特征生成模型的部分参数,以完成所述蛋白质性能预测模型的训练;以及
下游预测模型层,其为回归模型层或分类模型层。
3.如权利要求1所述的方法,其中,
所述分类模型的输出包括细胞水平是否具有特定活性,所述回归模型的输出包括细菌生长速率。
4.如权利要求1-3中任一项所述的方法,其中,所述蛋白质序列特征模型为BERT模型,该模型结构包括:
输入层:适于接收输入的三肽词汇序列;
嵌入层:适于将每个三肽词汇编码为词向量;
拼接层:适于将每个三肽词汇的词向量、字符位置向量和分割向量进行拼接,所述字符位置向量和分割向量分别代表所述三肽词汇的字符位置编号和上下句编号;
多个编码器层:适于通过多头注意力机制对每个三肽词汇的上下文信息进行学习;
语义向量输出层:适于输出三肽词汇序列的语义特征向量。
5.如权利要求1-4中任一项所述的方法,还包括所述蛋白质序列特征模型的训练步骤:
获取多条已知的样本蛋白质序列,所述样本蛋白质序列表示为单字母缩写的氨基酸标识;
以三肽为最小单位对所述样本蛋白质序列进行切分,并从切分结果中删除二肽和离散的单个氨基酸,得到所述样本蛋白质序列的三肽词汇序列;以及
以所述样本蛋白质序列的三肽词汇序列为输入,以该三肽词汇序列的语义特征向量为输出,对预训练的蛋白质序列特征模型进行训练,得到训练好的蛋白质序列特征模型。
6.如权利要求1或5所述的方法,其中,以三肽为最小单位对所述目标蛋白质序列或样本蛋白质序列进行切分的步骤包括:
从所述目标蛋白质序列或样本蛋白质序列的第一个氨基酸开始,每三个氨基酸组成一个三肽词汇,且相邻两个三肽词汇重复一个氨基酸;和/或
将所述目标蛋白质序列或样本蛋白质序列的第一个氨基酸作为离散的单个氨基酸,从第二个氨基酸开始,每三个氨基酸组成一个三肽词汇,且相邻两个三肽词汇重复一个氨基酸。
7.如权利要求1或5所述的方法,其中,在以三肽为最小单位对所述目标蛋白质序列或样本蛋白质序列进行切分之前,还包括步骤:
若该蛋白质序列的氨基酸数目m大于预定数值n,则将该蛋白质序列切分为多个两两互相重叠的短蛋白序列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京晶派科技有限公司,未经北京晶派科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010358971.9/1.html,转载请声明来源钻瓜专利网。