[发明专利]基于双向长短记忆模型的药物小分子活性预测的方法和系统在审

专利信息
申请号: 202010464590.9 申请日: 2020-05-27
公开(公告)号: CN111640471A 公开(公告)日: 2020-09-08
发明(设计)人: 牛张明;韦德·门佩斯-史密斯 申请(专利权)人: 牛张明;韦德·门佩斯-史密斯
主分类号: G16C20/30 分类号: G16C20/30;G16C20/70;G16B15/30;G16B40/00;G06F40/284;G06F40/30
代理公司: 上海智晟知识产权代理事务所(特殊普通合伙) 31313 代理人: 张东梅
地址: 浙江省杭州市钱塘*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 双向 长短 记忆 模型 药物 分子 活性 预测 方法 系统
【权利要求书】:

1.一种基于双向长短记忆模型的药物小分子活性预测的方法,包括:

获取数据集;

对所述数据集进行预处理,包括将所述数据集中的所有化合物分子用SMILES表示,对所有分子的SMILES表达式做标准化处理,统一分子SMILES表达式中的原子、键、连接关系的编码方式和顺序,利用分子的InChIKey,进行去重复化处理;

对预处理的数据集进行编码,其中通过独热编码对SMILES序列的单个元素、单个数字、单个符号以及整个方括号看作一个序列令牌,每个令牌本身具有化学意义和指向性,任何令牌的组合符合化学规则;

构建双向长短记忆核心片段识别模型;

将编码数据输入所述双向长短记忆核心片段识别模型,得到隐藏状态矩;以及

对上述双向长短记忆核心片段识别模型进行评估。

2.如权利要求1所述的基于双向长短记忆模型的药物小分子活性预测的方法,其特征在于,所述数据集包括三种开源的数据集。

3.如权利要求1所述的基于双向长短记忆模型的药物小分子活性预测的方法,其特征在于,利用分子的InChIKey进行去重复化处理包括将SMILES表达式转化成每个分子特有的InChIKey,通过比对InChIKey,直接去除完全一致的InChIKey对应的SMILES,

其中对所述数据集进行预处理还包括将每个数据集按一定比例随机划分为训练集、验证集、测试集。

4.如权利要求1所述的基于双向长短记忆模型的药物小分子活性预测的方法,其特征在于,还包括将每个令牌对应的正整数序列转化为向量,SMILES序列转换为词嵌入矩阵S:

S=(w1,w2,...,wL)T

其中每个w是一个d维行向量。

5.如权利要求4所述的基于双向长短记忆模型的药物小分子活性预测的方法,其特征在于,将词嵌入矩阵S输入所述双向长短记忆核心片段识别模型,由当前输入xt和上一个状态传递下来的ht-1通过不同的权重训练计算得到四个状态z、zi、zf和zo

其中z通过一个tanh激活函数将转换成-1到1之间的值,而zi、zf和zo通过激活函数转换成0到1之间的数值,来作为一种门控状态,

z=tanh(W·[xt,ht-1])

zi=σ(Wi·[xt,ht-1])

zf=σ(Wf·[xt,ht-1])

zo=σ(Wo·[xt,ht-1])

其中σ为relu激活函数,W为网络权重,

接着通过zf对上一个节点传进来的输入进行选择性忘记,通过zi选择性记忆,使得这里的隐藏向量权重ct不同于RNN中的ht,会随着不同节点下改变较小,慢慢的传递下去,最后通过zo选择性输出得到的隐藏状态ht

ct=zf·ct-1+zi·z

ht=zo·tanh(ct)。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于牛张明;韦德·门佩斯-史密斯,未经牛张明;韦德·门佩斯-史密斯许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010464590.9/1.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top