[发明专利]基于深度强化学习的蛋白降解靶向嵌合体连接物生成方法在审
申请号: | 202111473384.5 | 申请日: | 2021-12-02 |
公开(公告)号: | CN114171125A | 公开(公告)日: | 2022-03-11 |
发明(设计)人: | 杨跃东;谭游海;郑双佳;戴凌雪 | 申请(专利权)人: | 中山大学 |
主分类号: | G16B40/20 | 分类号: | G16B40/20;G16B50/30;G16B15/30;G06N3/08;G06N3/04 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 禹小明 |
地址: | 510275 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 强化 学习 蛋白 降解 靶向 嵌合体 接物 生成 方法 | ||
1.一种基于深度强化学习的蛋白降解靶向嵌合体连接物生成方法,其特征在于:所述的方法包括步骤如下:
使用数据增强方法扩充构建的ZINC数据集和PROTAC数据集,将扩充得到的第一ZINC数据集和第一PROTAC数据集作为监督训练集;
构建一个Transformer模型,并设置训练步数、网络层数、注意力层数和优化器参数;
使用第一ZINC数据集作为输入训练Transformer模型,根据目标函数和反向传播算法,更新Transformer模型的参数值;
使用第一PROTAC数据集作为输入训练更新后的Transformer模型,继续根据所述的目标函数和所述的反向传播算法训练,进一步更新网络权重,将Transformer模型迁移至PROTAC目标域上,得到Prior先验模型;
将需要生成连接物的片段SMILES输入Prior先验模型进行批量生成,对生成PROTAC使用制定的打分函数打分,引入强化学习的策略梯度算法,使得打分梯度可被传导,更新Agent模型,以最大化PROTAC打分;重复该步骤至批量生成的PROTAC打分不再提升或者达到一定的训练步数,得到更新后的Agent模型;
利用更新后的Agent模型在给定片段的情况下实现大规模生成蛋白降解靶向嵌合体连接物。
2.根据权利要求1所述的基于深度强化学习的蛋白降解靶向嵌合体连接物生成方法,其特征在于:构建ZINC数据集和PROTAC数据集,具体如下:从ZINC数据库下载分子数据,使用匹配分子对切割算法对下载的分子进行切割,得到形式同“含有切口的第一碎片SMILES、连接物、含有切口的第二碎片SMILES、完整分子”的碎片分子四元组;若对同一个分子切割得到多个四元组,则仅保留连接物最长的四元组;
随后,参考PROTAC弹头、连接物、E3连接酶配体以及完整PROTAC的属性分布,从ZINC数据库中筛选出类似于PROTAC的分子,构建ZINC数据集;
所述的PROTAC属性分布包括分子量、碳原子数目、芳香环数目、氢键供体数目、氢键受体数目、柔性系数以及拓扑极性表面积;
从PROTAC-DB数据库上下载真实PROTAC分子及其对应的弹头、连接物和E3连接酶,按照上述四元组方式构建PROTAC数据集。
3.根据权利要求2所述的基于深度强化学习的蛋白降解靶向嵌合体连接物生成方法,其特征在于:使用数据增强方法扩充构建的ZINC数据集和PROTAC数据集,具体如下:引入随机SMILES,若输入的标准碎片SMILES左右对换位置,则输出仍为标准完整分子SMILES,得到一条增强数据;若输入中的碎片SMILES随机,且左右位置随机,则输出SMILES随机,得到三条增强数据,最后扩充数据量至原来的5倍,得到扩充后的第一ZINC数据集和第一PROTAC数据集。
4.根据权利要求3所述的基于深度强化学习的蛋白降解靶向嵌合体连接物生成方法,其特征在于:所述的Transformer模型包括若干个编码器、若干个解码器。
5.根据权利要求4所述的基于深度强化学习的蛋白降解靶向嵌合体连接物生成方法,其特征在于:设置Transformer模型包括6个编码器、6个解码器;构建8个注意力头,使用Adam做为优化器,其中β1=0.99,β2=0.999,一个批次包含约4096个符号,训练步数一共为20万步,每一步训练一个批次;定义最后一个输出层大小为99,表示含有99个符号可供选择。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111473384.5/1.html,转载请声明来源钻瓜专利网。