[发明专利]基于对抗学习的化合物图像分子结构式提取方法有效

专利信息
申请号: 202010728797.2 申请日: 2020-07-20
公开(公告)号: CN111860507B 公开(公告)日: 2022-09-20
发明(设计)人: 陈琳;尚明生;朱帆 申请(专利权)人: 中国科学院重庆绿色智能技术研究院
主分类号: G06V20/62 分类号: G06V20/62;G06V10/764;G06V10/82;G06N3/04;G06N3/08
代理公司: 暂无信息 代理人: 暂无信息
地址: 400714 重庆市北*** 国省代码: 重庆;50
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 对抗 学习 化合物 图像 分子 结构式 提取 方法
【说明书】:

本发明为基于对抗学习的化合物图像分子结构式提取方法,属于深度学习、图像识别和化合物分子式提取领域,包含以下步骤:S1:构建由化合物图像和SMILES码组成的数据对的数据集;S2:搭建由SMILES码生成器和SMILES码判定器构成的对抗网络,并进行网络权重初始化;S3:对对抗网络进行交替训练,并进行测试;S4:将需要提取分子结构式的化合物图像输入到SMILES码生成器,生成SMILES码。本发明提高了化合物图像特征提取的自适应性和泛化性能,并融入了对化合物生成规则的判定,提高了分子结构式提取的识别率、精度和鲁棒性。

技术领域

本发明涉及一种基于对抗学习的化合物图像分子结构式提取方法,属于深度学习、图像识别和化合物分子式提取,尤其适用于化合物图像分子结构式提取。

背景技术

在药物研发工作中经常需要阅读大量的文档,例如各种期刊杂志发表的文章、专利等。这些文档包含了很多化合物的结构信息,并且通常以图片的形式进行描述。虽然这种图形化的化学结构方便了大家浏览,但是却不能对其直接进行编辑。当然,我们可以依照图片中的化学结构在化学编辑器中进行绘制,但这种人工提取的方式太费时费力,而且还容易出错,特别是化学结构数量多难以实现快速处理。在信息化快速发展的今天,亟需可以帮助我们从图片中自动提取化学结构的工具,类似于光学字符识别技术(OCR),这些工具就是利用OCR技术识别图片中的文字,所以不管是各种类型的图片、PDF、扫描版的文档等,都可以通过OCR处理实现电子化,极大地节省了用户的时间。

当前,大多数关于分子数据的出版物都没有提供分子结构的计算机可读格式,如简化分子线性输入规范(Simplified Molecular Input Line Entry System,SMILES)、Connection table等。而现有的提取方法依赖于人工定制的规则和人工设计的识别特征,这些识别规则和特征在常规简单化合物结构提取时可以保持较高的识别率,但在实际应用场景中识别率和准确性都比较低,例如:所处理的图像中化学结构样式复杂、出版物存在不同的风格、存在各类噪声、较低的分辨率不能适应识别需求等各类问题。人工设计的规则和特征难以获取较高的自适应性和泛化性能力,同时各种规则和特征也存在相互依赖关系,如化合物分子式切分、化学键与化学符号特征相互依赖,化学键分割效果不好通常容易导致漏识别或者错误识别。

发明内容

有鉴于此,本发明提供一种基于对抗学习的化合物图像分子结构式提取方法,能够提高化合物图像特征提取的自适应性和泛化性能,并能够融入对化合物生成规则的判定,提高分子结构式提取的识别率、精度和鲁棒性。

为达到上述目的,本发明提供如下技术方案:

基于对抗学习的化合物图像分子结构式提取方法,包含以下步骤:

S1:输入化合物分子式SMILES码数据库,利用化合物图像生成工具生成其对应的化合物图像,构建由化合物图像和SMILES码组成的数据对的数据集;

S2:搭建由SMILES码生成器和SMILES码判定器构成的对抗网络,并进行网络权重初始化;

S3:将数据集按一定比例分为训练集和测试集,利用训练集数据对对抗网络进行交替训练,并利用测试集数据进行测试;

S4:将需要提取分子结构式的化合物图像输入到SMILES码生成器,生成SMILES码。

进一步,所述的SMILES码生成器由化合物图像特征提取网络、随机噪声生成器、SMILES码解码器构成,具体工作原理为:(1)、化合物图像特征提取网络对化合物图像的图像特征进行提取;(2)、随机噪声生成器生成噪声,并与图像特征进行concat连接作为SMILES码解码器的输入向量;(3)、SMILES码解码器对输入向量进行解码操作,生成SMILES码。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院重庆绿色智能技术研究院,未经中国科学院重庆绿色智能技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010728797.2/2.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top