[发明专利]一种基于化学元素知识图谱的分子图对比学习方法在审
申请号: | 202111181509.7 | 申请日: | 2021-10-11 |
公开(公告)号: | CN113990408A | 公开(公告)日: | 2022-01-28 |
发明(设计)人: | 陈华钧;方尹;杨海宏;庄祥;陈卓 | 申请(专利权)人: | 浙江大学 |
主分类号: | G16C20/30 | 分类号: | G16C20/30;G16C20/70;G16C20/80;G06N3/04;G06K9/62;G06V10/74;G06V10/774 |
代理公司: | 杭州天勤知识产权代理有限公司 33224 | 代理人: | 曹兆霞 |
地址: | 310013 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 化学元素 知识 图谱 分子 对比 学习方法 | ||
1.一种基于化学元素知识图谱的分子图对比学习方法,其特征在于,包括以下步骤:
依据从化学元素周期表获得的每个化学元素的所有化学属性,构建化学元素知识图谱,以建立化学元素之间的微观化学联系;
利用化学元素知识图谱对分子图进行图增强,以获得同时包含拓扑结构和化学领域知识的分子增强图;
利用可插拔表示模型获得分子图和分子增强图的图表示;
采用硬负样本挖掘技术选出与分子图在分子指纹空间相似的其他分子图作为负样本,分子图与其对应的分子增强图组成正样本对,分子图分别与其对应的负样本、负样本对应的分子增强图组成负样本对,分子图对应的分子增强图分别与分子图对应的负样本、负样本对应的分子增强图组成负样本对;
将正样本对和负样本对的图表示映射到同一空间后,通过最大化正样本对之间的一致性同时最小化负样本对之间的一致性构建对比损失函数,利用对比损失函数优化可插拔表示模型参数和对比损失函数的超参数,优化结束后,得到参数确定的可插拔表示模型;
应用时,将参数确定的可插拔表示模型与非线性分类器形成预测模型并进行预测模型的参数微调,利用参数微调的预测模型进行分子图的分子性质的预测。
2.根据权利要求1所述的基于化学元素知识图谱的分子图对比学习方法,其特征在于,所述化学属性包括金属性、周期性、族、状态、原子量、电负性、熔点、沸点、电子亲合能、电离能、半径、硬度、模量、密度、导率、热能、丰度;
构建的化学元素知识图谱中,每个三元组为(属性,关系,元素),即头实体为属性,尾实体为化学元素,关系为化学元素与属性之间的关系。
3.根据权利要求1所述的基于化学元素知识图谱的分子图对比学习方法,其特征在于,利用化学元素知识图谱对分子图进行图增强的过程包括:
对于分子图中每个节点,节点表示原子或元素,在化学元素知识图谱找到以节点作为尾实体的三元组,并将该三元组的头实体作为新节点,该三元组的关系作为节点与新节点之间的连边,对分子图进行拓扑和增强,得到分子图对应的分子增强图。
4.根据权利要求1所述的基于化学元素知识图谱的分子图对比学习方法,其特征在于,所述可插拔表示模型为基于图神经网络构建的图编码模型,包括GCN、GAT、MPNN、CMPNN。
5.根据权利要求1所述的基于化学元素知识图谱的分子图对比学习方法,其特征在于,所述采用过硬负样本挖掘技术选出与分子图在分子指纹空间相似的其他分子图作为负样本的过程包括:
将分子图转换为分子指纹,采用谷本系数计算两个分子指纹之间的相似度,当相似度大于设定阈值时,认为两个分子指纹对应的两个分子图互为负样本,即当一个分子图为正样本时,另一个分子图为负样本。
6.根据权利要求5所述的基于化学元素知识图谱的分子图对比学习方法,其特征在于,采用化学信息学工具Rdkit将分子转化为分子指纹;所述分子指纹为Morgan指纹。
7.根据权利要求1所述的基于化学元素知识图谱的分子图对比学习方法,其特征在于,采用双层MLP作为映射头,利用该映射头将将正样本对和负样本对的图表示映射到同一空间。
8.根据权利要求1所述的基于化学元素知识图谱的分子图对比学习方法,其特征在于,构建的对比损失函数为:
其中,zi和z′i分别表示组成第i个正样本对的第i个分子图的图表示和分子增强图的图表示,z′j表示与第i个分子图构成负样本对的第j个负样本的图表示或者负样本对应的分子增强图的图表示,τ表示温度参数,sim(·)为余弦相似度。
9.根据权利要求1所述的基于化学元素知识图谱的分子图对比学习方法,其特征在于,所述非线性分类器采用MLP,该MLP与参数确定的可插拔表示模型组成预测模型后,利用预测任务的小样本分子图对预测模型进行参数微调之后,利用参数微调的预测模型进行分子图的分子性质的预测。
10.根据权利要求1所述的基于化学元素知识图谱的分子图对比学习方法,其特征在于,所述预测任务包括在血脑屏障渗透数据集中判断分子是否具有渗透性,在化合物毒性数据集、基于体外高通量筛选的大型化合物毒理学数据集以及临床实验数据集中判断分子是否具有毒性,在已上市药物和药物不良反应数据库中判断药物是否具有副作用,在人类分泌酶BACE-1抑制剂数据集中判断分子是否具有抑制性,对应的分子性质为渗透性、毒性、副作用和抑制性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111181509.7/1.html,转载请声明来源钻瓜专利网。