[发明专利]一种基于数据集成的特异数据自适应检测方法在审
申请号: | 201910071364.1 | 申请日: | 2019-01-25 |
公开(公告)号: | CN109858541A | 公开(公告)日: | 2019-06-07 |
发明(设计)人: | 宫琳;刘昉;张宏俊;陈西;高俊;杨奥;祝德刚 | 申请(专利权)人: | 北京理工大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 北京理工大学专利中心 11120 | 代理人: | 李微微;仇蕾安 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 自适应检测 数据集成 分类算法 分类效果 基分类器 评价基准 数据仓库 数据检测 数据特征 数据处理 调配 敏感 统一 学习 研究 | ||
本发明提供了一种基于数据集成的特异数据自适应检测方法,首先把不同来源、格式、特点的数据在数据仓库中集成以实现快速、高效的统一调配,根据数据特征选择不同的基分类器作为实验分类效果评价基准,基于代价敏感学习方法提出了适应不同代价比的分类算法选择模型,获得了自适应检测特异数据的方法,具有良好的稳定性和精确性,为数据处理研究人员在特异数据检测方面提供了新的思路。
技术领域
本发明属于数据处理及大数据分析技术领域,具体涉及一种基于数据集成的特异数据自适应检测方法。
背景技术
随着信息化程度的不断提高,产品设计和制造过程中产生了服务于不同生产阶段的海量数据。人们通过数据挖掘从海量数据中得到了许多潜在的有用信息,从而提升了经济效益。但伴随而来的问题是目标数据中含有少量的特异数据,特异数据会导致挖掘结果精度降低甚至结论不可信。因此,有效检测特异数据,常常成为发现问题进而改进决策的契机,对实际生产生活具有重要意义。
产业的信息化带来了数据的多样化。针对特征不同的数据集,在一些专利中提出了检测特异数据的技术方案。噪声处理领域中,如何区分噪声样本、数据和极少数类样本及其数据一直是研究的热点问题。有的专利提出使用聚类的方法,依靠对离群值的敏感性来剔除异常值,取得了一定效果。如果噪声出现在两类样本的分类边界,那么难以避免影响到训练效果,进而这些噪声和少数样例混合在一起进入模型会极大地降低模型精度。医学诊断领域中,如何检测健康人群中少数患者的生理特征数据是该领域研究的热点问题。有的专利提出使用分类的方法,却没有进行过抽样或样本构造,而且少数类样本绝对数量少,因此其特征数据中包含的信息量也相应的较为不足,数据匮乏使得其规律难以被分类算法检测,也就无法支撑算法构建理想的分类器,容易出现欠拟合或过拟合的现象。
发明内容
有鉴于此,本发明的目的是提供一种基于数据集成的特异数据自适应检测方法,可以提高数据分类的稳定性和精确性。
一种特异数据检测方法,包括如下步骤:
步骤1、在目标数据集中切分出训练数据集;
步骤2、判断训练数据集中样本数量是否大于设定阈值:
如果不大于,使用支持向量机作为基分类器;
如果大于,再判断训练数据集中正样本比例是否大于5%:
如果不大于,则使用决策树算法作为基分类器;
如果大于,使用逻辑回归算法作为基分类器;
将训练数据集输入到选择的基分类器中进行训练,得到分类结果和运行时间Tb;
步骤3、基于代价敏感学习方法,对训练数据集进行分类并获得代价矩阵其中,CTP表示真实为正样本而预测为正样本的代价;CFP表示真实为负样本而预测为正样本的代价;CTN表示真实为负样本而预测为负样本的代价;CFN表示真实为正样本而预测为负样本的代价;最后计算代价比
步骤4、判断是否考虑错分代价:
如果不考虑代价矩阵,再判断正样本比例是否大于5%:
如果不大于,使用优化集成学习方法作为分类算法;
如果大于,再判断是否要求最终的分类算法的运行时间低于运行时间Tb:如果不要求,选择欠抽样方法结合步骤2的基分类器作为分类算法;如果要求,使用集成学习方法作为分类算法;
如果考虑代价矩阵,再判断代价比是否大于50:
如果不大于50,再判断正样本比例是否大于5%:如果不大于5%,使用优化集成学习方法作为分类算法,如果大于5%,使用集成学习方法;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910071364.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于多模态融合的医学图像识别系统及方法
- 下一篇:一种字符识别方法和装置