[发明专利]一种基于对比学习的自监督图神经网络预训练方法在审
申请号: | 202110983302.5 | 申请日: | 2021-08-25 |
公开(公告)号: | CN114038517A | 公开(公告)日: | 2022-02-11 |
发明(设计)人: | 官全龙;叶贤斌;赖兆荣;罗伟其;汪超男;方良达 | 申请(专利权)人: | 暨南大学 |
主分类号: | G16C20/70 | 分类号: | G16C20/70;G16C20/20;G06N3/04;G06N3/08 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 林丽明 |
地址: | 510632 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 对比 学习 监督 神经网络 训练 方法 | ||
1.一种基于对比学习的自监督图神经网络预训练方法,其特征在于,包括以下步骤:
S1:对公开数据库的化合物分子进行预处理,筛选出有机分子;
S2:对筛选出的有机分子进行结构分解并提取,将所得的子结构作为标识符,并构建子结构的语料库;
S3:将分解后的子结构看作超级节点并构建相应的子图数据,该子图数据与原分子图数据构成正样本对,随机选出若干个子图数据与原分子图数据组成负样本对;
S4:构建基于注意力机制的图卷积神经网络、基于多层次的门控循环单元和用于全图特征的变换的多层感知机模块,组成自监督学习模型;
S5:将所有正负样本对数据输入自监督学习模型进行预训练并保存。
2.根据权利要求1所述的一种基于对比学习的自监督图神经网络预训练方法,其特征在于,在步骤S1中,对公开数据库zinc化合物分子进行预处理的过程包括:从公开化合物数据库zinc中下载若干化合物,首先对重元素进行去除,随后过滤单原子化合物和惰性气体,得到有效化合物分子。
3.根据权利要求2所述的一种基于对比学习的自监督图神经网络预训练方法,其特征在于,在所述步骤S2中,对化合物分子进行子结构分解并构建训练语料库的过程包括:
对有效化合物分子依次进行SMILES到分子结构的转换、子结构分解和子结构反序列化操作;
根据上述哈希表的映射关系,将原分子的子结构利用Rdkit进行反序列化,即用子结构的SMILES字符串表示,该SMILES用于子结构语料库的构建并保存在本地文件中。
4.根据权利要求3所述的一种基于对比学习的自监督图神经网络预训练方法,其特征在于,SMILES到分子结构的转换操作通过Python工具库Rdkit转换并获取每个原子对应的原子编号,环结构信息,官能团信息;
子结构分解操作通过对环结构信息、官能团信息对应的原子编号,使用哈希表记录,其余的普通原子编号也记录在哈希表中,每一个分子的哈希表的键为子图的新编号,从1开始记录,所对应的值为原分子的环结构所对应的原子编号,官能团对应的原子编号以及普通原子编号。
5.根据权利要求4所述的一种基于对比学习的自监督图神经网络预训练方法,其特征在于,在步骤S3中,根据原分子,读取对应保存子结构的哈希表,并根据哈希表进行子图数据的构建,将子结构看作超级节点,将上述原分子图数据以及子结构图数据作为正样本对,并随机从所有子图数据中抽取10个子图与该原子图构成负样本对。
6.根据权利要求5所述的一种基于对比学习的自监督图神经网络预训练方法,其特征在于,子图数据的节点数量为哈希表的最大键值N,并用N×N的邻接矩阵表示该子图,子图的连接关系与原分子图中子结构的连接关系相同,0表示无边连接,1表示有边连接;根据原分子的原子数目R,用R×R的邻接矩阵表示,连接关系与分子的化学键连接关系相同,0表示无边连接,1表示有边连接;正负样本对的比例为1:10。
7.根据权利要求6所述的一种基于对比学习的自监督图神经网络预训练方法,其特征在于,原分子图数据的节点特征包括:原子类型,电荷数,自由基电子数,手性类型,杂化轨道类型,连接氢的数目,度,芳香性;除了电荷数和自由基的电子数被编码为整数以外,每一种特征是以独热编码表示;
经子结构分解的子图数据使用其每个节点对应的子结构SMILES字符串的嵌入向量作为节点的特征,所有分子的子结构SMILES所构成语料库,其对应的嵌入向量随模型一并训练。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于暨南大学,未经暨南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110983302.5/1.html,转载请声明来源钻瓜专利网。