[发明专利]一种基于蛋白质预训练表征学习的抗菌肽预测方法和装置在审
申请号: | 202011498422.8 | 申请日: | 2020-12-17 |
公开(公告)号: | CN112614538A | 公开(公告)日: | 2021-04-06 |
发明(设计)人: | 刘向荣;张悦;曾湘祥;林剑远;赵连敏 | 申请(专利权)人: | 厦门大学 |
主分类号: | G16B5/00 | 分类号: | G16B5/00;G16B30/10;G16B35/00;G16B40/00;G06N3/08 |
代理公司: | 厦门市精诚新创知识产权代理有限公司 35218 | 代理人: | 何家富 |
地址: | 361000 *** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 蛋白质 训练 表征 学习 抗菌 预测 方法 装置 | ||
1.一种基于蛋白质预训练表征学习的抗菌肽预测方法,其特征在于,包括以下步骤:
步骤S1:采用预训练策略,对来自蛋白质数据库的无标签蛋白质序列进行分词、遮盖处理,进行掩盖语言模型和句子连续性预测两个任务的预训练,捕捉词语级别和句子级别的表示,帮助模型学习蛋白质序列通用的结构化特征;
步骤S2:针对抗菌肽识别和预测任务,更改预训练模型的输出层,使用带标签的抗菌肽数据集对模型进行微调,生成抗菌肽预测模型;
步骤S3:根据抗菌肽识别和预测任务,采用抗菌肽预测模型进行识别,输出预测结果。
2.如权利要求1所述的基于蛋白质预训练表征学习的抗菌肽预测方法,其特征在于,
所述步骤S1中的蛋白质序列的分词处理是指将蛋白质序列文本按固定氨基酸数量进行等长分组,允许最后一个分组例外,每条蛋白质序列二分断开形成语句对和上下文关系。
3.如权利要求1所述的基于蛋白质预训练表征学习的抗菌肽预测方法,其特征在于,所述预训练策略中采用的预训练模型为BERT预训练模型,所述BERT预训练模型为深度双向语言表征模型,采用双向Transformer作为编码器,所述预训练的过程具体包括:
从蛋白质数据库获取大量无标记的蛋白质序列,形成预训练数据集;
将预训练数据集引入BERT预训练模型进行预训练;使用掩盖语言模型和句子连续性预测两个任务进行联合训练,所述预训练包括两个预训练任务:采用掩盖语言模型训练模型预测蛋白质序列的蒙面氨基酸,采用句子连续性预测判断蛋白质序列文本的语句对是否上下文连续。
4.如权利要求3所述的基于蛋白质预训练表征学习的抗菌肽预测方法,其特征在于,所述预训练任务中,采用掩盖语言模型训练预测蛋白质序列的蒙面氨基酸,具体包括:
以掩盖语言模型作为源任务,随机掩盖数据中15%的单词,通过使似然函数p=p(xmasked|xunmasked)最大化来预测这些被掩盖的单词;执行掩盖策略,80%的情况下用[MASK]掩码来替换被掩盖的单词,10%的情况下用一个随机的词来替换,10%的情况下是保持被选择的词不变。
5.如权利要求3所述的基于蛋白质预训练表征学习的抗菌肽预测方法,其特征在于:所述预训练任务中,采用句子连续性预测判断蛋白质序列文本的语句对是否上下文连续,具体包括:随机将数据划分为两部分,50%的数据中的两个语句对是上下文连续的,另50%的数据中的两个语句对是上下文不连续的,通过识别这些语句对是否连续来训练BERT模型。
6.如权利要求1所述的基于蛋白质预训练表征学习的抗菌肽预测方法,其特征在于,
所述步骤S2中,使用带标签的抗菌肽数据集对模型进行微调,生成特定的抗菌肽预测模型,具体包括:
选取抗菌肽数据集为训练集,所述抗菌肽数据集包含已标记的抗菌肽序列和非抗菌肽序列;
对抗菌肽数据集进行平衡处理:对抗菌肽数据集的负样本进行随机向下采样,使训练集中的负样本的数量和正样本的数量可以比拟;所述正样本是指抗菌肽序列,所述负样本是指非抗菌肽序列。
7.如权利要求6所述的基于蛋白质预训练表征学习的抗菌肽预测方法,其特征在于,所述带标签的抗菌肽数据集的数量为多个。
8.一种计算装置,包括一个或多个处理器、存储器,其特征在于:所述存储器存储有一段计算机程序,所述计算机程序被处理器执行时实现如权利要求1-7任一项所述的基于蛋白质预训练表征学习的抗菌肽预测方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门大学,未经厦门大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011498422.8/1.html,转载请声明来源钻瓜专利网。