[发明专利]基于拓扑机器学习的有机化学合成智能分析方法在审

专利信息
申请号: 202211425974.5 申请日: 2022-11-14
公开(公告)号: CN115910225A 公开(公告)日: 2023-04-04
发明(设计)人: 李谦;郭艳慧;王岩;彭李超;杨晓慧 申请(专利权)人: 河南大学
主分类号: G16C20/10 分类号: G16C20/10;G16C20/70;G06F18/23;G06N5/01;G06N20/20
代理公司: 郑州优盾知识产权代理有限公司 41125 代理人: 郑园
地址: 450046 河南省*** 国省代码: 河南;41
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 拓扑 机器 学习 有机 化学合成 智能 分析 方法
【权利要求书】:

1.一种基于拓扑机器学习的有机化学合成智能分析方法,其特征在于,其步骤如下:

步骤一:拓扑特征的获取:通过拓扑数据分析对三维结构描述符进行拓扑不变量的提取,

获取拓扑特征,并将三维结构描述符与拓扑特征级联;

步骤二:智能预测:通过LightGBM算法对级联后的特征进行训练和预测,利用网格搜索法获取LightGBM算法的最佳参数以得到LightGBM模型,并利用LightGBM模型预测化学反应产率;

步骤三:产率和反应条件的相关性分析:根据化学反应产率利用拓扑数据分析对级联后的特征进行聚类分析,挖掘出产率和反应条件之间的关系。

2.根据权利要求1所述的基于拓扑机器学习的有机化学合成智能分析方法,其特征在于,步骤一的实现方法为:

S1.1、将三维结构描述符导入到拓扑数据分析中生成持续性图,然后通过相关方法矢量化持续性图,输出拓扑特征;

S1.2、将三维结构描述符和拓扑特征级联,并将级联后的特征与产率一一对应后分为训练集和测试集。

3.根据权利要求1所述的基于拓扑机器学习的有机化学合成智能分析方法,其特征在于,步骤S1.1中拓扑结构的具体计算过程为:

S1.1.1、将三维描述符信息导入到拓扑数据分析算法中,将其中的拓扑信息转化为持续性图;

S1.1.2、通过持续性图来记录每一个拓扑不变量的变化;

其中,持续性图是将持续同调分析的结果表示为成对的诞生时间和消亡时间,横轴和表示的是拓扑不变量的诞生时的过滤值,纵轴表示的是拓扑不变量的消亡时的过滤值,用bα记录每一个拓扑不变量在过滤轴上诞生的位置,用dα记录每一个拓扑不变量在过滤轴上消亡的位置,则pα=dα-bα表示每一个拓扑不变量的生存周期;

S1.1.3、通过对持续性图的矢量化获取拓扑特征:连接组件H0、循环结构H1和空洞结构H2的真实持续存在的数量、连接组件H0、循环结构H1和空洞结构H2的平均生存期及持续熵;其中,持续熵D={(bα,dα)}α∈A,持续熵D是根据计算得到的,

4.根据权利要求2所述的基于拓扑机器学习的有机化学合成智能分析方法,其特征在于,所述LightGBM模型的实现方法为:将步骤S1.2得到的训练集和测试集的数据导入到LightGBM算法中,利用网格搜索法对LightGBM算法中的多个参数的可能取值进行排列组合,通过计算LightGBM算法中每次迭代的损失函数值,直至损失函数值收敛到最小,输出预测结果以及对应的参数值,最后选取最好的预测结果所对应的参数并保存LightGBM模型。

5.根据权利要求4所述的基于拓扑机器学习的有机化学合成智能分析方法,其特征在于,LightGBM算法的目标函数为:

其中,是线性空间上的损失函数;i是第i个样本;是第i个样本xi的预测值:

是第k棵树,K为树的数量;yi是真实值;

fk(xi)表示每棵树对第i个样本xi的得分。

6.根据权利要求1所述的基于拓扑机器学习的有机化学合成智能分析方法,其特征在于,步骤三的实现方法为:

S3.1、根据分位数的统计概念,将化学反应产率分为低产率和高产率两类;

S3.2、将步骤S1.2得到的级联后的特征导入到拓扑数据分析中,用户根据数据特性,自行调节相邻的滤波值区间的间隔和重叠区间,并设置单链接聚类直方图间隔数,获得最佳聚类结果;

S3.3、根据步骤S3.2中的聚类结果,分析每一簇样本中的反应条件,然后对比分析,得出高产率对应的反应条件。

7.根据权利要求6所述的基于拓扑机器学习的有机化学合成智能分析方法,其特征在于,步骤S3.2的实现方法为:

S3.2.1、利用距离矩阵的中心度指标L-infinity对每个数据点计算一个滤波值:

其中,d为原始数据,len(d)表示样本量,n表示特征个数,d[j]表示第j个样本,d[j][0]表示第j个样本的第1个特征;

S3.2.2、将数据点按照滤波值L-infinity从小到大分到不同的滤波值区间里;相邻的滤波值区间设置有重叠区域,其中,相邻的滤波值区间的间隔为N,重叠区间为P;

S3.2.3、使用单链接集群对每个滤波值区间里的数据进行聚类;

S3.2.4、把各滤波值区间聚类的得到的小类放在一起,每一个小类用圆表示;若两个类之间存在相同的原始数据点,则在它们之间加上一条边。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河南大学,未经河南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202211425974.5/1.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top