[发明专利]抗原肽呈递预测模型的构建方法、抗原肽预测方法及装置有效
申请号: | 202210170086.7 | 申请日: | 2022-02-24 |
公开(公告)号: | CN114242159B | 公开(公告)日: | 2022-06-07 |
发明(设计)人: | 王天元;翟珂 | 申请(专利权)人: | 北京晶泰科技有限公司 |
主分类号: | G16B5/00 | 分类号: | G16B5/00;G16B35/00;G16B40/00 |
代理公司: | 北京汇鑫君达知识产权代理有限公司 11769 | 代理人: | 刘湘菲 |
地址: | 100083 北京市海淀区中*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 抗原 呈递 预测 模型 构建 方法 装置 | ||
1.一种抗原肽呈递预测模型的构建方法,其特征在于,包括:
获取预选种类的目标HLA及与所述目标HLA对应的具有预设比例的正样本数据和负样本数据,其中,针对每种目标HLA,将正样本数据与负样本数据按照1:(8~10)生成训练数据,及将正样本数据与负样本数据按照1:(800~1000)生成测试数据;将所述训练数据按照K折交叉验证划分获得训练集和验证集;和将所述训练数据按照K折交叉验证划分获得训练集和验证集,并将预设数量的伪标签数据加入所述训练集;其中,所述伪标签数据由空白标签的所述测试数据根据预先训练的子模型预测获得对应的伪标签后形成;所述正样本数据包括正样本多肽序列、正样本多肽序列的上游序列、正样本多肽序列的下游序列、及正样本多肽序列与目标HLA的正呈递结果;所述负样本数据包括与所述正样本多肽序列不同的负样本多肽序列、负样本多肽序列的上游序列、负样本多肽序列的下游序列、及负样本多肽序列与所述目标HLA的负呈递结果;
将所述目标HLA及相应的所述正样本数据和负样本数据分别输入多种基于BERT模型的不同架构的子模型进行训练,获得多个训练好的所述子模型;
通过预设规则对各所述训练好的子模型进行筛选,获得包括优选子模型的预测模型;其中,所述预测模型综合所述优选子模型的预测呈递结果预测目标抗原肽被所述目标HLA呈递的结果。
2.根据权利要求1所述的方法,其特征在于,所述将所述目标HLA及相应的所述正样本数据和负样本数据分别输入多种基于BERT模型的不同架构的子模型进行训练,获得多个训练好的所述子模型,包括:
将所述正样本数据中的正样本多肽序列及正呈递结果、和所述负样本数据中的负样本多肽序列及负呈递结果作为训练数据对至少部分基于BERT模型的不同架构的子模型进行训练,获得对应的训练好的所述子模型;和/或
将所述正样本数据和所述负样本数据作为训练数据对至少部分基于BERT模型的不同架构的子模型进行训练,获得对应的训练好的所述子模型。
3.根据权利要求1所述的方法,其特征在于,所述多种基于BERT模型的不同架构的子模型,包括以下至少之一:
BERT与CNN融合模型、BERT与LSTM融合模型、BERT与LSTM及GRU融合模型、含双层句向量隐藏层的BERT模型、含三层句向量隐藏层的BERT模型、含全局平均池化层的BERT模型、含词向量批标准化的BERT模型、及标准BERT模型。
4.根据权利要求1所述的方法,其特征在于,所述通过预设规则对各所述训练好的子模型进行筛选,获得包括优选子模型的预测模型,包括:
分别获取各所述子模型的预测呈递结果的精确率和召回率;
根据所述精确率和召回率,通过预设评估函数确定各所述子模型的准确性评估分数;
根据对应的所述准确性评估分数,在所述子模型中筛选获得优选子模型。
5.根据权利要求4所述的方法,其特征在于,所述分别获取各所述子模型的预测呈递结果的精确率和召回率,包括:
分别统计每个子模型的预测呈递结果中的TP、FP、FN的个数;
根据对应的TP、FP及FN的个数,确定对应的各所述子模型的精确率和召回率。
6.根据权利要求1所述的方法,其特征在于,所述获取预选种类的目标HLA及与所述目标HLA对应的具有预设比例的正样本数据和负样本数据之前,包括:
获得被候选HLA结合和呈递的多肽序列,并根据序列相似度对获得的被所述候选HLA结合和呈递的多肽序列进行聚类处理,获得多种候选HLA和对应的正样本多肽序列集;
在各所述候选HLA中筛选获得多种所述目标HLA,并将所述候选HLA对应的所述正样本多肽序列集作为所述目标HLA的正样本数据。
7.一种抗原肽预测方法,其特征在于,包括:
获取目标抗原肽序列;
根据权利要求1至6中任一项构建所述的预测模型,预测所述目标抗原肽序列被所述预测模型中的目标HLA呈递的结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京晶泰科技有限公司,未经北京晶泰科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210170086.7/1.html,转载请声明来源钻瓜专利网。