[发明专利]基于双向长短记忆模型的药物小分子活性预测的方法和系统在审

申请号：	202010464590.9	申请日：	2020-05-27
公开（公告）号：	CN111640471A	公开（公告）日：	2020-09-08
发明（设计）人：	牛张明;韦德·门佩斯-史密斯	申请（专利权）人：	牛张明;韦德·门佩斯-史密斯
主分类号：	G16C20/30	分类号：	G16C20/30;G16C20/70;G16B15/30;G16B40/00;G06F40/284;G06F40/30
代理公司：	上海智晟知识产权代理事务所(特殊普通合伙) 31313	代理人：	张东梅
地址：	浙江省杭州市钱塘***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于双向长短记忆模型药物分子活性预测方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于双向长短记忆模型的药物小分子活性预测的方法，包括：

获取数据集；

对所述数据集进行预处理，包括将所述数据集中的所有化合物分子用SMILES表示，对所有分子的SMILES表达式做标准化处理，统一分子SMILES表达式中的原子、键、连接关系的编码方式和顺序，利用分子的InChIKey，进行去重复化处理；

对预处理的数据集进行编码，其中通过独热编码对SMILES序列的单个元素、单个数字、单个符号以及整个方括号看作一个序列令牌，每个令牌本身具有化学意义和指向性，任何令牌的组合符合化学规则；

构建双向长短记忆核心片段识别模型；

将编码数据输入所述双向长短记忆核心片段识别模型，得到隐藏状态矩；以及

对上述双向长短记忆核心片段识别模型进行评估。

2.如权利要求1所述的基于双向长短记忆模型的药物小分子活性预测的方法，其特征在于，所述数据集包括三种开源的数据集。

3.如权利要求1所述的基于双向长短记忆模型的药物小分子活性预测的方法，其特征在于，利用分子的InChIKey进行去重复化处理包括将SMILES表达式转化成每个分子特有的InChIKey，通过比对InChIKey，直接去除完全一致的InChIKey对应的SMILES，

其中对所述数据集进行预处理还包括将每个数据集按一定比例随机划分为训练集、验证集、测试集。

4.如权利要求1所述的基于双向长短记忆模型的药物小分子活性预测的方法，其特征在于，还包括将每个令牌对应的正整数序列转化为向量，SMILES序列转换为词嵌入矩阵S：

S＝(w₁，w₂，...，w_L)^T

其中每个w是一个d维行向量。

5.如权利要求4所述的基于双向长短记忆模型的药物小分子活性预测的方法，其特征在于，将词嵌入矩阵S输入所述双向长短记忆核心片段识别模型，由当前输入x^t和上一个状态传递下来的h^t-1通过不同的权重训练计算得到四个状态z、zⁱ、z^f和z^o，

其中z通过一个tanh激活函数将转换成-1到1之间的值，而zⁱ、z^f和z^o通过激活函数转换成0到1之间的数值，来作为一种门控状态，

z＝tanh(W·[x^t，h^t-1])

zⁱ＝σ(Wⁱ·[x^t，h^t-1])

z^f＝σ(W^f·[x^t，h^t-1])

z^o＝σ(W^o·[x^t，h^t-1])

其中σ为relu激活函数，W为网络权重，

接着通过z^f对上一个节点传进来的输入进行选择性忘记，通过zⁱ选择性记忆，使得这里的隐藏向量权重c^t不同于RNN中的h^t，会随着不同节点下改变较小，慢慢的传递下去，最后通过z^o选择性输出得到的隐藏状态h^t

c^t＝z^f·c^t-1+zⁱ·z

h^t＝z^o·tanh(c^t)。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于牛张明;韦德·门佩斯-史密斯，未经牛张明;韦德·门佩斯-史密斯许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010464590.9/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载