[发明专利]基于双向长短记忆模型的药物小分子活性预测的方法和系统在审
申请号: | 202010464590.9 | 申请日: | 2020-05-27 |
公开(公告)号: | CN111640471A | 公开(公告)日: | 2020-09-08 |
发明(设计)人: | 牛张明;韦德·门佩斯-史密斯 | 申请(专利权)人: | 牛张明;韦德·门佩斯-史密斯 |
主分类号: | G16C20/30 | 分类号: | G16C20/30;G16C20/70;G16B15/30;G16B40/00;G06F40/284;G06F40/30 |
代理公司: | 上海智晟知识产权代理事务所(特殊普通合伙) 31313 | 代理人: | 张东梅 |
地址: | 浙江省杭州市钱塘*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 双向 长短 记忆 模型 药物 分子 活性 预测 方法 系统 | ||
1.一种基于双向长短记忆模型的药物小分子活性预测的方法,包括:
获取数据集;
对所述数据集进行预处理,包括将所述数据集中的所有化合物分子用SMILES表示,对所有分子的SMILES表达式做标准化处理,统一分子SMILES表达式中的原子、键、连接关系的编码方式和顺序,利用分子的InChIKey,进行去重复化处理;
对预处理的数据集进行编码,其中通过独热编码对SMILES序列的单个元素、单个数字、单个符号以及整个方括号看作一个序列令牌,每个令牌本身具有化学意义和指向性,任何令牌的组合符合化学规则;
构建双向长短记忆核心片段识别模型;
将编码数据输入所述双向长短记忆核心片段识别模型,得到隐藏状态矩;以及
对上述双向长短记忆核心片段识别模型进行评估。
2.如权利要求1所述的基于双向长短记忆模型的药物小分子活性预测的方法,其特征在于,所述数据集包括三种开源的数据集。
3.如权利要求1所述的基于双向长短记忆模型的药物小分子活性预测的方法,其特征在于,利用分子的InChIKey进行去重复化处理包括将SMILES表达式转化成每个分子特有的InChIKey,通过比对InChIKey,直接去除完全一致的InChIKey对应的SMILES,
其中对所述数据集进行预处理还包括将每个数据集按一定比例随机划分为训练集、验证集、测试集。
4.如权利要求1所述的基于双向长短记忆模型的药物小分子活性预测的方法,其特征在于,还包括将每个令牌对应的正整数序列转化为向量,SMILES序列转换为词嵌入矩阵S:
S=(w1,w2,...,wL)T
其中每个w是一个d维行向量。
5.如权利要求4所述的基于双向长短记忆模型的药物小分子活性预测的方法,其特征在于,将词嵌入矩阵S输入所述双向长短记忆核心片段识别模型,由当前输入xt和上一个状态传递下来的ht-1通过不同的权重训练计算得到四个状态z、zi、zf和zo,
其中z通过一个tanh激活函数将转换成-1到1之间的值,而zi、zf和zo通过激活函数转换成0到1之间的数值,来作为一种门控状态,
z=tanh(W·[xt,ht-1])
zi=σ(Wi·[xt,ht-1])
zf=σ(Wf·[xt,ht-1])
zo=σ(Wo·[xt,ht-1])
其中σ为relu激活函数,W为网络权重,
接着通过zf对上一个节点传进来的输入进行选择性忘记,通过zi选择性记忆,使得这里的隐藏向量权重ct不同于RNN中的ht,会随着不同节点下改变较小,慢慢的传递下去,最后通过zo选择性输出得到的隐藏状态ht
ct=zf·ct-1+zi·z
ht=zo·tanh(ct)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于牛张明;韦德·门佩斯-史密斯,未经牛张明;韦德·门佩斯-史密斯许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010464590.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:样本融合方法和装置
- 下一篇:一种高温重油拱顶罐罐顶气处理系统