[发明专利]一种基于数据集成的特异数据自适应检测方法在审

申请号：	201910071364.1	申请日：	2019-01-25
公开（公告）号：	CN109858541A	公开（公告）日：	2019-06-07
发明（设计）人：	宫琳;刘昉;张宏俊;陈西;高俊;杨奥;祝德刚	申请（专利权）人：	北京理工大学
主分类号：	G06K9/62	分类号：	G06K9/62
代理公司：	北京理工大学专利中心 11120	代理人：	李微微;仇蕾安
地址：	100081 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	自适应检测数据集成分类算法分类效果基分类器评价基准数据仓库数据检测数据特征数据处理调配敏感统一学习研究
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种特异数据检测方法，其特征在于，包括如下步骤：

步骤1、在目标数据集中切分出训练数据集；

步骤2、判断训练数据集中样本数量是否大于设定阈值：

如果不大于，使用支持向量机作为基分类器；

如果大于，再判断训练数据集中正样本比例是否大于5％：

如果不大于，则使用决策树算法作为基分类器；

如果大于，使用逻辑回归算法作为基分类器；

将训练数据集输入到选择的基分类器中进行训练，得到分类结果和运行时间Tb；

步骤3、基于代价敏感学习方法，对训练数据集进行分类并获得代价矩阵其中，C_TP表示真实为正样本而预测为正样本的代价；C_FP表示真实为负样本而预测为正样本的代价；C_TN表示真实为负样本而预测为负样本的代价；C_FN表示真实为正样本而预测为负样本的代价；最后计算代价比

步骤4、判断是否考虑错分代价：

如果不考虑代价矩阵，再判断正样本比例是否大于5％：

如果不大于，使用优化集成学习方法作为分类算法；

如果大于，再判断是否要求最终的分类算法的运行时间低于运行时间Tb：如果不要求，选择欠抽样方法结合步骤2的基分类器作为分类算法；如果要求，使用集成学习方法作为分类算法；

如果考虑代价矩阵，再判断代价比是否大于50：

如果不大于50，再判断正样本比例是否大于5％：如果不大于5％，使用优化集成学习方法作为分类算法，如果大于5％，使用集成学习方法；

如果大于50，再判断正样本比例是否大于5％：

如果不大于5％，且要求最终分类算法运行时间小于Tb时，使用MetaCost-1:1结合步骤2选择的基分类器作为分类算法，如果不大于5％且不要求运行时间时，使用优化集成学习方法作为分类算法；

如果大于5％，使用优化集成学习方法作为分类算法；

步骤5、采用步骤4选择的最终分类算法获得分类结果。

2.如权利要求1所述的一种特异数据检测方法，其特征在于，所述步骤1中，针对不同来源的数据集，先进行过滤和筛选操作，再通过数据库语言建立与数据仓库的连接，实现不同来源、格式和特点的数据的统一处理，得到目标数据集。

3.如权利要求1所述的一种特异数据检测方法，其特征在于，所述步骤1中，所述步骤1中，在目标数据集中切分出测试数据集，代入到最终的分类算法中，对步骤5的分类结果进行检验。

4.如权利要求1所述的一种特异数据检测方法，其特征在于，所述步骤2中，设定阈值为1000。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京理工大学，未经北京理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910071364.1/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载