[发明专利]基于定量构效关系的离群值检测方法在审
申请号: | 202010431470.9 | 申请日: | 2020-05-20 |
公开(公告)号: | CN111613266A | 公开(公告)日: | 2020-09-01 |
发明(设计)人: | 曹东升;付丽 | 申请(专利权)人: | 中南大学 |
主分类号: | G16B5/00 | 分类号: | G16B5/00;G16B15/30;G16B40/00 |
代理公司: | 长沙轩荣专利代理有限公司 43235 | 代理人: | 罗莎 |
地址: | 410000 湖南*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 定量 关系 离群 检测 方法 | ||
1.一种基于定量构效关系的离群值检测方法,其特征在于,包括:
步骤1,收集数据作为数据集,对数据集进行预处理;
步骤2,利用蒙特卡洛方法将数据集随机分为训练集和测试集;
步骤3,基于训练集构建定量构效关系模型;
步骤4,通过构建的定量构效关系模型预测测试集,计算出测试集中每个样本的预测误差;
步骤5,根据每个样本的预测误差计算出预测误差的平均值和标准差,通过预测误差的平均值和标准差检测离群值;
步骤6,根据计算出的预测误差的平均值和标准差绘制四分图。
2.根据权利要求1所述的基于定量构效关系的离群值检测方法,其特征在于,还包括:
重复执行所述步骤2、所述步骤3和所述步骤4。
3.根据权利要求2所述的基于定量构效关系的离群值检测方法,其特征在于,所述步骤1具体包括:
去除收集的数据的分子结构中的盐和复合物,对分子结构进行标准化,将属性值和活性值转为相应的负对数的形式,计算所有分子描述符。
4.根据权利要求3所述的基于定量构效关系的离群值检测方法,其特征在于,所述步骤3具体包括:
定量构效关系模型中样本的性质可以通过定量构效关系模型产生的误差来反映,如下所示:
propertyi=f(ei) (1)
其中,propertyi表示预测样本i的属性,ei表示定量构效关系模型生成的第i个预测样本误差。
5.根据权利要求4所述的基于定量构效关系的离群值检测方法,其特征在于,所述步骤4具体包括:
在N个蒙特卡洛交互实验中选择观察值i的次数Ni为:
其中,Ni表示选择观察值i的次数,N表示进行蒙特卡洛交互实验的次数,n表示被m个离群值污染的总观察值,k表示预留观察值的个数。
6.根据权利要求5所述的基于定量构效关系的离群值检测方法,其特征在于,所述步骤4还包括:
异常观察值的概率p,如下所示:
其中,p表示异常观察值的概率,n表示被m个离群值污染的总观察值,m表示离群值污染的个数,k表示预留观察值的个数。
7.根据权利要求6所述的基于定量构效关系的离群值检测方法,其特征在于,所述步骤5具体包括:
计算第j个样本的预测误差的平均值m(j)和标准差s(j),如下所示:
其中,m(j)表示第j个样本的预测误差的平均值,s(j)表示第j个样本的预测误差的标准差,k表示在测试集中找到第j个样本的总次数,error(i)表示第i个循环中第j个样本的预测误差。
8.根据权利要求7所述的基于定量构效关系的离群值检测方法,其特征在于,所述步骤6具体包括:
绘制以预测误差的平均值为X轴,以预测误差的标准差为Y轴的四分图,两条标准线将样本划分为四个区域,其中,X轴的标准线设置为数据集主体平均值的2-2.5倍,Y轴的标准线根据数据的实际误差进行设置。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中南大学,未经中南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010431470.9/1.html,转载请声明来源钻瓜专利网。