[发明专利]基于定量构效关系的离群值检测方法在审

专利信息
申请号: 202010431470.9 申请日: 2020-05-20
公开(公告)号: CN111613266A 公开(公告)日: 2020-09-01
发明(设计)人: 曹东升;付丽 申请(专利权)人: 中南大学
主分类号: G16B5/00 分类号: G16B5/00;G16B15/30;G16B40/00
代理公司: 长沙轩荣专利代理有限公司 43235 代理人: 罗莎
地址: 410000 湖南*** 国省代码: 湖南;43
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 定量 关系 离群 检测 方法
【权利要求书】:

1.一种基于定量构效关系的离群值检测方法,其特征在于,包括:

步骤1,收集数据作为数据集,对数据集进行预处理;

步骤2,利用蒙特卡洛方法将数据集随机分为训练集和测试集;

步骤3,基于训练集构建定量构效关系模型;

步骤4,通过构建的定量构效关系模型预测测试集,计算出测试集中每个样本的预测误差;

步骤5,根据每个样本的预测误差计算出预测误差的平均值和标准差,通过预测误差的平均值和标准差检测离群值;

步骤6,根据计算出的预测误差的平均值和标准差绘制四分图。

2.根据权利要求1所述的基于定量构效关系的离群值检测方法,其特征在于,还包括:

重复执行所述步骤2、所述步骤3和所述步骤4。

3.根据权利要求2所述的基于定量构效关系的离群值检测方法,其特征在于,所述步骤1具体包括:

去除收集的数据的分子结构中的盐和复合物,对分子结构进行标准化,将属性值和活性值转为相应的负对数的形式,计算所有分子描述符。

4.根据权利要求3所述的基于定量构效关系的离群值检测方法,其特征在于,所述步骤3具体包括:

定量构效关系模型中样本的性质可以通过定量构效关系模型产生的误差来反映,如下所示:

propertyi=f(ei) (1)

其中,propertyi表示预测样本i的属性,ei表示定量构效关系模型生成的第i个预测样本误差。

5.根据权利要求4所述的基于定量构效关系的离群值检测方法,其特征在于,所述步骤4具体包括:

在N个蒙特卡洛交互实验中选择观察值i的次数Ni为:

其中,Ni表示选择观察值i的次数,N表示进行蒙特卡洛交互实验的次数,n表示被m个离群值污染的总观察值,k表示预留观察值的个数。

6.根据权利要求5所述的基于定量构效关系的离群值检测方法,其特征在于,所述步骤4还包括:

异常观察值的概率p,如下所示:

其中,p表示异常观察值的概率,n表示被m个离群值污染的总观察值,m表示离群值污染的个数,k表示预留观察值的个数。

7.根据权利要求6所述的基于定量构效关系的离群值检测方法,其特征在于,所述步骤5具体包括:

计算第j个样本的预测误差的平均值m(j)和标准差s(j),如下所示:

其中,m(j)表示第j个样本的预测误差的平均值,s(j)表示第j个样本的预测误差的标准差,k表示在测试集中找到第j个样本的总次数,error(i)表示第i个循环中第j个样本的预测误差。

8.根据权利要求7所述的基于定量构效关系的离群值检测方法,其特征在于,所述步骤6具体包括:

绘制以预测误差的平均值为X轴,以预测误差的标准差为Y轴的四分图,两条标准线将样本划分为四个区域,其中,X轴的标准线设置为数据集主体平均值的2-2.5倍,Y轴的标准线根据数据的实际误差进行设置。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中南大学,未经中南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010431470.9/1.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top