[发明专利]一种基于数据集成的特异数据自适应检测方法在审

专利信息
申请号: 201910071364.1 申请日: 2019-01-25
公开(公告)号: CN109858541A 公开(公告)日: 2019-06-07
发明(设计)人: 宫琳;刘昉;张宏俊;陈西;高俊;杨奥;祝德刚 申请(专利权)人: 北京理工大学
主分类号: G06K9/62 分类号: G06K9/62
代理公司: 北京理工大学专利中心 11120 代理人: 李微微;仇蕾安
地址: 100081 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 自适应检测 数据集成 分类算法 分类效果 基分类器 评价基准 数据仓库 数据检测 数据特征 数据处理 调配 敏感 统一 学习 研究
【权利要求书】:

1.一种特异数据检测方法,其特征在于,包括如下步骤:

步骤1、在目标数据集中切分出训练数据集;

步骤2、判断训练数据集中样本数量是否大于设定阈值:

如果不大于,使用支持向量机作为基分类器;

如果大于,再判断训练数据集中正样本比例是否大于5%:

如果不大于,则使用决策树算法作为基分类器;

如果大于,使用逻辑回归算法作为基分类器;

将训练数据集输入到选择的基分类器中进行训练,得到分类结果和运行时间Tb;

步骤3、基于代价敏感学习方法,对训练数据集进行分类并获得代价矩阵其中,CTP表示真实为正样本而预测为正样本的代价;CFP表示真实为负样本而预测为正样本的代价;CTN表示真实为负样本而预测为负样本的代价;CFN表示真实为正样本而预测为负样本的代价;最后计算代价比

步骤4、判断是否考虑错分代价:

如果不考虑代价矩阵,再判断正样本比例是否大于5%:

如果不大于,使用优化集成学习方法作为分类算法;

如果大于,再判断是否要求最终的分类算法的运行时间低于运行时间Tb:如果不要求,选择欠抽样方法结合步骤2的基分类器作为分类算法;如果要求,使用集成学习方法作为分类算法;

如果考虑代价矩阵,再判断代价比是否大于50:

如果不大于50,再判断正样本比例是否大于5%:如果不大于5%,使用优化集成学习方法作为分类算法,如果大于5%,使用集成学习方法;

如果大于50,再判断正样本比例是否大于5%:

如果不大于5%,且要求最终分类算法运行时间小于Tb时,使用MetaCost-1:1结合步骤2选择的基分类器作为分类算法,如果不大于5%且不要求运行时间时,使用优化集成学习方法作为分类算法;

如果大于5%,使用优化集成学习方法作为分类算法;

步骤5、采用步骤4选择的最终分类算法获得分类结果。

2.如权利要求1所述的一种特异数据检测方法,其特征在于,所述步骤1中,针对不同来源的数据集,先进行过滤和筛选操作,再通过数据库语言建立与数据仓库的连接,实现不同来源、格式和特点的数据的统一处理,得到目标数据集。

3.如权利要求1所述的一种特异数据检测方法,其特征在于,所述步骤1中,所述步骤1中,在目标数据集中切分出测试数据集,代入到最终的分类算法中,对步骤5的分类结果进行检验。

4.如权利要求1所述的一种特异数据检测方法,其特征在于,所述步骤2中,设定阈值为1000。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910071364.1/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top