[发明专利]基于拓扑机器学习的有机化学合成智能分析方法在审

申请号：	202211425974.5	申请日：	2022-11-14
公开（公告）号：	CN115910225A	公开（公告）日：	2023-04-04
发明（设计）人：	李谦;郭艳慧;王岩;彭李超;杨晓慧	申请（专利权）人：	河南大学
主分类号：	G16C20/10	分类号：	G16C20/10;G16C20/70;G06F18/23;G06N5/01;G06N20/20
代理公司：	郑州优盾知识产权代理有限公司 41125	代理人：	郑园
地址：	450046 河南省***	国省代码：	河南;41
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于拓扑机器学习有机化学合成智能分析方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于拓扑机器学习的有机化学合成智能分析方法，其特征在于，其步骤如下：

步骤一：拓扑特征的获取：通过拓扑数据分析对三维结构描述符进行拓扑不变量的提取，

获取拓扑特征，并将三维结构描述符与拓扑特征级联；

步骤二：智能预测：通过LightGBM算法对级联后的特征进行训练和预测，利用网格搜索法获取LightGBM算法的最佳参数以得到LightGBM模型，并利用LightGBM模型预测化学反应产率；

步骤三：产率和反应条件的相关性分析：根据化学反应产率利用拓扑数据分析对级联后的特征进行聚类分析，挖掘出产率和反应条件之间的关系。

2.根据权利要求1所述的基于拓扑机器学习的有机化学合成智能分析方法，其特征在于，步骤一的实现方法为：

S1.1、将三维结构描述符导入到拓扑数据分析中生成持续性图，然后通过相关方法矢量化持续性图，输出拓扑特征；

S1.2、将三维结构描述符和拓扑特征级联，并将级联后的特征与产率一一对应后分为训练集和测试集。

3.根据权利要求1所述的基于拓扑机器学习的有机化学合成智能分析方法，其特征在于，步骤S1.1中拓扑结构的具体计算过程为：

S1.1.1、将三维描述符信息导入到拓扑数据分析算法中，将其中的拓扑信息转化为持续性图；

S1.1.2、通过持续性图来记录每一个拓扑不变量的变化；

其中，持续性图是将持续同调分析的结果表示为成对的诞生时间和消亡时间，横轴和表示的是拓扑不变量的诞生时的过滤值，纵轴表示的是拓扑不变量的消亡时的过滤值，用b_α记录每一个拓扑不变量在过滤轴上诞生的位置，用d_α记录每一个拓扑不变量在过滤轴上消亡的位置，则p_α＝d_α-b_α表示每一个拓扑不变量的生存周期；

S1.1.3、通过对持续性图的矢量化获取拓扑特征：连接组件H₀、循环结构H₁和空洞结构H₂的真实持续存在的数量、连接组件H₀、循环结构H₁和空洞结构H₂的平均生存期及持续熵；其中，持续熵D＝{(b_α,d_α)}_α∈A，持续熵D是根据计算得到的，

4.根据权利要求2所述的基于拓扑机器学习的有机化学合成智能分析方法，其特征在于，所述LightGBM模型的实现方法为：将步骤S1.2得到的训练集和测试集的数据导入到LightGBM算法中，利用网格搜索法对LightGBM算法中的多个参数的可能取值进行排列组合，通过计算LightGBM算法中每次迭代的损失函数值，直至损失函数值收敛到最小，输出预测结果以及对应的参数值，最后选取最好的预测结果所对应的参数并保存LightGBM模型。

5.根据权利要求4所述的基于拓扑机器学习的有机化学合成智能分析方法，其特征在于，LightGBM算法的目标函数为：

其中，是线性空间上的损失函数；i是第i个样本；是第i个样本x_i的预测值：

是第k棵树，K为树的数量；y_i是真实值；

f_k(x_i)表示每棵树对第i个样本x_i的得分。

6.根据权利要求1所述的基于拓扑机器学习的有机化学合成智能分析方法，其特征在于，步骤三的实现方法为：

S3.1、根据分位数的统计概念，将化学反应产率分为低产率和高产率两类；

S3.2、将步骤S1.2得到的级联后的特征导入到拓扑数据分析中，用户根据数据特性，自行调节相邻的滤波值区间的间隔和重叠区间，并设置单链接聚类直方图间隔数，获得最佳聚类结果；

S3.3、根据步骤S3.2中的聚类结果，分析每一簇样本中的反应条件，然后对比分析，得出高产率对应的反应条件。

7.根据权利要求6所述的基于拓扑机器学习的有机化学合成智能分析方法，其特征在于，步骤S3.2的实现方法为：

S3.2.1、利用距离矩阵的中心度指标L-infinity对每个数据点计算一个滤波值：

其中，d为原始数据，len(d)表示样本量，n表示特征个数，d[j]表示第j个样本，d[j][0]表示第j个样本的第1个特征；

S3.2.2、将数据点按照滤波值L-infinity从小到大分到不同的滤波值区间里；相邻的滤波值区间设置有重叠区域，其中，相邻的滤波值区间的间隔为N，重叠区间为P；