[发明专利]模型训练、抗体改造和结合位点预测的方法与装置有效
申请号: | 202110594661.1 | 申请日: | 2021-05-28 |
公开(公告)号: | CN113764037B | 公开(公告)日: | 2023-10-27 |
发明(设计)人: | 蒋彪彬;许振雷;刘伟;黄俊洲 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G16B20/30 | 分类号: | G16B20/30;G16B15/30;G16B40/00 |
代理公司: | 北京励诚知识产权代理有限公司 11647 | 代理人: | 赵爽 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 模型 训练 抗体 改造 结合 预测 方法 装置 | ||
1.一种用于抗体的预测模型的训练方法,其特征在于,包括:
获取N条第一抗体序列,所述N为正整数,所述第一抗体序列中未标注出所述第一抗体序列与抗原的结合位点;
使用所述N条第一抗体序列,对预测模型进行预训练,得到预训练后的预测模型;
其中,所述预训练后的预测模型用于预测抗体序列中被掩盖的氨基酸的预测值,在所述预测模型的预训练过程中,所述第一抗体序列的可变区的学习频率高于所述第一抗体序列的不可变区的学习频率。
2.根据权利要求1所述的方法,其特征在于,所述使用所述N条第一抗体序列,对所述预测模型进行预训练,得到预训练后的预测模型,包括:
使用所述N条第一抗体序列,对所述预测模型进行无监督预训练,得到预训练后的预测模型。
3.根据权利要求2所述的方法,其特征在于,所述使用所述N条第一抗体序列,对所述预测模型进行无监督预训练,得到预训练后的预测模型,包括:
基于MASK策略,使用所述N条第一抗体序列,对所述预测模型进行预训练,得到预训练后的预测模型。
4.根据权利要求3所述的方法,其特征在于,所述基于MASK策略,使用所述N条第一抗体序列,对所述预测模型进行预训练,得到预训练后的预测模型,包括:
针对所述N条第一抗体序列中的每一个第一抗体序列,按照第一掩盖频率对所述第一抗体序列的可变区的氨基酸进行掩盖,按照第二掩盖频率对所述第一抗体序列的不可变区的氨基酸进行掩盖,得到所述预测模型所预测的被掩盖的氨基酸的预测值;
根据所述被掩盖的氨基酸的预测值和真实值之间的损失,对所述预测模型进行预训练,得到预训练后的预测模型。
5.根据权利要求4所述的方法,其特征在于,所述第一掩盖频率大于所述第二掩盖频率。
6.根据权利要求1-5任一项所述的方法,其特征在于,所述方法还包括:
获取M条第二抗体序列,所述M为正整数,所述第二抗体序列中标注出所述第二抗体序列与抗原的结合位点;
使用所述M条第二抗体序列,对所述预训练后的预测模型进行微调,得到目标预测模型,所述目标预测模型用于预测抗体序列与抗原的结合位点。
7.根据权利要求6所述的方法,其特征在于,所述使用所述M条第二抗体序列,对所述预训练后的预测模型进行微调,得到目标预测模型,包括:
针对所述M条第二抗体序列中的每条第二抗体序列,将所述第二抗体序列输入所述预训练后的预测模型中,得到所述预训练后的预测模型所预测的所述第二抗体序列与抗原的预测结合位点;
根据预测的所述第二抗体序列与抗原的结合位点和所述第二抗体序列与抗原的结合位点的真实值之间的损失,对所述预训练后的预测模型进行微调,得到目标预测模型。
8.根据权利要求6所述的方法,其特征在于,所述第二抗体序列通过标签序列标注所述第二抗体序列与抗原的结合位点,其中所述标签序列的长度与所述第二抗体序列的长度相等,所述标签序列中的每一个值表示该值对应的氨基酸是否与抗原结合。
9.一种抗体改造方法,其特征在于,包括:
获取待改造的目标抗体序列;
接收用户对所述目标抗体序列中待改造的目标位点氨基酸的掩盖操作;
响应于所述掩盖操作,将目标位点氨基酸被掩盖的所述目标抗体序列输入预训练后的预测模型中,得到所述预训练后的预测模型输出的所述目标位点氨基酸的预测值;
其中,所述预训练后的预测模型是经过第一抗体序列训练得到的,所述第一抗体序列中未标注出所述第一抗体序列与抗原的结合位点,在所述预测模型的预训练过程中,所述第一抗体序列的可变区的学习频率高于所述第一抗体序列的不可变区的学习频率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110594661.1/1.html,转载请声明来源钻瓜专利网。