[发明专利]一种基于对比学习的自监督图神经网络预训练方法在审

申请号：	202110983302.5	申请日：	2021-08-25
公开（公告）号：	CN114038517A	公开（公告）日：	2022-02-11
发明（设计）人：	官全龙;叶贤斌;赖兆荣;罗伟其;汪超男;方良达	申请（专利权）人：	暨南大学
主分类号：	G16C20/70	分类号：	G16C20/70;G16C20/20;G06N3/04;G06N3/08
代理公司：	广州粤高专利商标代理有限公司 44102	代理人：	林丽明
地址：	510632 广东***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于对比学习监督神经网络训练方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及一种基于对比学习的自监督图神经网络预训练方法，步骤为：对公开数据库的化合物分子进行预处理，筛选出有机分子；对筛选出的有机分子进行结构分解并提取，将所得的子结构作为标识符，并构建子结构的语料库；将分解后的子结构看作超级节点并构建相应的子图数据，该子图数据与原分子图数据构成正样本对，随机选出若干个子图数据与原分子图数据组成负样本对；构建基于注意力机制的图卷积神经网络、基于多层次的门控循环单元和多层感知机模块，组成自监督学习模型；将所有正负样本对数据输入自监督学习模型进行预训练并保存，便于下游任务的微调。解决对缺乏标注的药物分子的场景时，进行深度学习模型训练所产生的泛化性能不足的问题。

技术领域

本发明涉及深度学习领域，更具体地，涉及一种基于对比学习的自监督图神经网络预训练方法。

背景技术

药物研究与开发是一个多学科交叉、长周期、高投入的系统工程，面临着研发成本高、周期长、失败率高等问题，因此人们开始借助人工智能的技术来辅助药物研发。近年来，图神经网络作为深度学习中的新兴技术，在图数据上表现了优异的性能。化合物分子是一种天然的图数据，因此为研究深度学习在辅助药物研发开辟了新的路径。

如今，基于监督学习的图神经网络在过去几年取得了巨大的成功，为了学习到强大的表达能力，它依赖大量人工给出标签的图数据来优化。大规模的带有标签的图数据，尤其是基于药物化学领域的标签数据通常是很难获取的，而且这些数据的标注往往需要生物化学领域的专家知识。在大多数情况下，我们很难获取大量标签数据，因此基于监督学习的图神经网络很难施展其强大的学习能力。如何利用大规模无标注的分子数据进行预训练，使图神经网络学习到潜在的特征和信息是研究的热点和难点。

现有的技术中，中国发明专利CN112862093A公开了“一种图神经网络训练方法及装置”，公开日为2021年05月28日，上述方法包括：获得未标记图数据集和第一标记图数据集；将未标记图数据集作为训练样本，通过对预设的图神经网络模型进行训练，调整图神经网络模型的参数，得到第一图神经网络模型；将第一标记图数据集作为训练样本，通过对所述第一图神经网络模型进行训练，调整第一图神经网络模型的参数，得到第二图神经网络模型；将图神经网络的待应用场景的第二标记图数据集作为训练样本，通过对第二图神经网络模型进行训练，调整第二图神经网络模型的参数，得到应用于待应用场景的图神经网络；该发明中，方案进行图神经网络训练时，提高了图神经网络训练的效率，但是其泛化性能不足，只能针对与特定场景，无法激发图神经网络的学习能力。

发明内容

本发明为解决现有的图神经网络技术对缺乏标注的药物分子数据的场景进行模型训练所产生的泛化性能不足的技术缺陷，提供了一种基于对比学习的自监督图神经网络预训练方法。

为实现以上发明目的，采用的技术方案是：

一种基于对比学习的自监督图神经网络预训练方法，包括以下步骤：

S1：对公开数据库的化合物分子进行预处理，筛选出有机分子；

S2：对筛选出的有机分子进行结构分解并提取，将所得的子结构作为标识符，并构建子结构的语料库；

S3：将分解后的子结构看作超级节点并构建相应的子图数据，该子图数据与原分子图数据构成正样本对，随机选出十个子图数据与原分子图数据组成负样本对；

S4：构建基于注意力机制的图卷积神经网络、基于多层次的门控循环单元和用于全图特征的变换的多层感知机模块，组成自监督学习模型；

S5：将所有正负样本对数据输入自监督学习模型进行预训练并保存。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于暨南大学，未经暨南大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】