[发明专利]基于对抗学习的化合物图像分子结构式提取方法有效
申请号: | 202010728797.2 | 申请日: | 2020-07-20 |
公开(公告)号: | CN111860507B | 公开(公告)日: | 2022-09-20 |
发明(设计)人: | 陈琳;尚明生;朱帆 | 申请(专利权)人: | 中国科学院重庆绿色智能技术研究院 |
主分类号: | G06V20/62 | 分类号: | G06V20/62;G06V10/764;G06V10/82;G06N3/04;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 400714 重庆市北*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 对抗 学习 化合物 图像 分子 结构式 提取 方法 | ||
1.基于对抗学习的化合物图像分子结构式提取方法,其特征在于,包含以下步骤:
S1:输入化合物分子式SMILES码数据库,利用化合物图像生成工具生成其对应的化合物图像,构建由化合物图像和SMILES码组成的数据对的数据集;
S2:搭建由SMILES码生成器和SMILES码判定器构成的对抗网络,并进行网络权重初始化;
S3:将数据集按一定比例分为训练集和测试集,利用训练集数据对对抗网络进行交替训练,并利用测试集数据进行测试;
S4:将需要提取分子结构式的化合物图像输入到SMILES码生成器,生成SMILES码;
所述的SMILES码生成器由化合物图像特征提取网络、随机噪声生成器、SMILES码解码器构成;所述的SMILES码判定器由化合物图像特征提取网络、SMILES码编码器、全连接层和三个分类器构成;所述的化合物图像特征提取网络为CNN网络;所述的SMILES码解码器和SMILES码编码器分别为多级串联的双向LSTM 网络。
2.根据权利要求1所述的基于对抗学习的化合物图像分子结构式提取方法,其特征在于,所述的SMILES码生成器具体工作原理为:(1)、化合物图像特征提取网络对化合物图像的图像特征进行提取;(2)、随机噪声生成器生成噪声,并与图像特征进行concat连接作为SMILES码解码器的输入向量;(3)、SMILES码解码器对输入向量进行解码操作,生成SMILES码。
3.根据权利要求1所述的基于对抗学习的化合物图像分子结构式提取方法,其特征在于,所述的SMILES码判定器具体工作原理为:(1)、化合物图像特征提取网络对化合物图像的图像特征进行提取;(2)、SMILES码编码器将输入的化合物SMILES码进行字符串解析成词向量,该词向量为文本特征;(3)、将图像特征和文本特征输入到全连接层后得到整体特征;(4)将对应的整体特征和数据对分别输入到三个并联的分类器中进行判定。
4.根据权利要求3所述的基于对抗学习的化合物图像分子结构式提取方法,其特征在于,步骤(4)所述的三个并联的分类器的构成和分类结果分别为:(一)、由softmax构成的分类器,判定生成的SMILES码是否对应当前化合物图像;(二)、由softmax构成的分类器,判定生成的SMILES码是否与训练集数据对中的SMILES码一致;(三)、由分类树构成的分类器,判定生成的SMILES码是否符合化合物生成规则,即是否为真的SMILES码。
5.根据权利要求1所述的基于对抗学习的化合物图像分子结构式提取方法,其特征在于,所述的步骤S3具体为:(1)、人为的将数据集按一定比例分为训练集和测试集;(2)、构建SMILES码判定器的损失函数,并采用训练集进行训练;(3)、构建交替训练损失函数并分别对SMILES码生成器和SMILES码判定器进行训练和测试,使SMILES码判定器对于SMILES码生成器生成的SMILES码识别越来越精确,同时也使得SMILES码生成器生成的SMILES码越来越靠近真实分布,从而使得SMILES码判定器无法判定对错。
6.根据权利要求5所述的基于对抗学习的化合物图像分子结构式提取方法,其特征在于,所述的SMILES码判定器的损失函数LD为:
LD=log(Sr)+α·log(Sw)+β·log(1-Sf) ①
其中,log(Sr)为SMILES码判定器生成的SMILES码和数据对化合物图像的相似度,log(Sw)为SMILES码判定器生成的SMILES码与数据对SMILES码的相似度,log(1-Sf)为SMILES码判定器生成的SMILES码的化学生成规则的相似度,α和β为人为设定的0~1范围内的超参数;
所述的交替训练损失函数L为;
L=ES~P[log(D(S))]+Ez~N[log(1-D(G(I,z)))] ②
其中,S表示SMILES码,S~P表示SMILES码对应的化合物图像分布,z~N表示噪声生成器的正态分布,E[·]为期望,D(S)为SMILES码在SMILES码判定器中的判定概率,I为化合物图像,D(G(I,z))为SMILES码生成器生成的SMILES码在SMILES码判定器中的判定概率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院重庆绿色智能技术研究院,未经中国科学院重庆绿色智能技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010728797.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种项目业务管理系统
- 下一篇:一种便于控制温度的炒茶设备