[发明专利]抗体库的构建方法及装置有效
申请号: | 202010229877.3 | 申请日: | 2020-03-27 |
公开(公告)号: | CN111445962B | 公开(公告)日: | 2022-12-16 |
发明(设计)人: | 赵文祥;刘明耀;魏海涛;褚敏;晁瑞华;李亚男 | 申请(专利权)人: | 上海祥耀生物科技有限责任公司;浙江祥耀生物医药有限公司 |
主分类号: | G16C20/64 | 分类号: | G16C20/64;G06N3/04;G06N3/08 |
代理公司: | 上海领誉知识产权代理有限公司 31383 | 代理人: | 车超平 |
地址: | 200241 上海*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 抗体 构建 方法 装置 | ||
1.一种抗体库的构建方法,其特征在于,包括:
对初级抗体库中的待预测抗体序列进行预处理,以得到字符级抗体序列集合;
利用训练好的神经网络模型对所述字符级抗体序列集合进行处理,以得到待预测抗体序列的预测结果;
基于已知具有高活性的抗体序列对所述训练好的神经网络模型进行调整,以优化所述训练好的神经网络模型;
利用优化后的所述训练好的神经网络模型从所述待预测抗体序列的预测结果中筛选出高活性抗体序列,以建立次级抗体库;
其中,所述待预测抗体序列是由一系列氨基酸序列对应的英文字母组成的字符串;
所述字符级抗体序列集合是根据氨基酸编码对照表将氨基酸序列中的每个英文字母映射为一个具体的实数,得到的氨基酸序列向量集合。
2.如权利要求1所述的抗体库的构建方法,其特征在于,所述训练好的神经网络模型通过如下方法训练完成:
将训练抗体序列中的氨基酸序列中的每个氨基酸映射为对应的实数,以得到氨基酸序列向量;
基于抗体类别对所述训练抗体序列进行分组,以得到对应不同分组的各个氨基酸序列向量,形成字符级抗体序列集合;
从所述字符级抗体序列集合中随机选取不同分组的氨基酸序列向量作为迭代数据;
将选取的各个氨基酸序列向量中的每个氨基酸映射的实数通过Embedding操作映射为固定长度的1维向量,以得到抗体序列矩阵;
将所述抗体序列矩阵输入神经网络模型以训练神经网络模型参数,直至损失值迭代趋于稳定时停止训练,得到所述训练好的神经网络模型。
3.如权利要求2所述的抗体库的构建方法,其特征在于,所述神经网络模型包括:2阶段卷积层、双向长短期记忆网络以及全链接层;
所述将所述抗体序列矩阵输入神经网络模型以训练神经网络模型参数,直至损失值迭代趋于稳定时停止训练,得到所述训练好的神经网络模型包括:
将所述抗体序列矩阵中的各个氨基酸序列向量输入所述2阶段卷积层,以得到氨基酸序列中的高维特征;
利用池化操作从所述高维特征中选取最大值,从而得到的氨基酸序列的特征映像;
将氨基酸序列的特征映像输入所述双向长短期记忆网络中,以输出所述特征映像的固定长度向量;
将所述特征映像的固定长度向量输入所述全链接层进行分类;
根据分类结果计算损失值,直至所述损失值迭代趋于稳定时停止训练,以得到所述训练好的神经网络模型。
4.如权利要求2所述的抗体库的构建方法,其特征在于,训练神经网络模型参数的方法是Adam梯度下降算法。
5.如权利要求1所述的抗体库的构建方法,其特征在于,所述对初级抗体库中的待预测抗体序列进行预处理,以得到字符级抗体序列集合包括:
分别将所述待预测抗体序列中的每个氨基酸映射为对应的实数,以得到氨基酸序列向量;
基于抗体类别对所述待预测抗体序列进行分组,以得到对应不同分组的各个氨基酸序列向量,形成字符级抗体序列集合。
6.如权利要求3所述的抗体库的构建方法,其特征在于,所述基于已知具有高活性的抗体序列对所述训练好的神经网络模型进行调整,以优化所述训练好的神经模型包括:
将已知具有高活性的抗体序列作为训练集再次输入所述训练好的神经网络模型;
结合迁移学习方法,冻结部分卷积层,训练未被冻结的卷积层和全连接层,以对所述训练好的神经网络模型进行调整,以优化所述训练好的神经模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海祥耀生物科技有限责任公司;浙江祥耀生物医药有限公司,未经上海祥耀生物科技有限责任公司;浙江祥耀生物医药有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010229877.3/1.html,转载请声明来源钻瓜专利网。