[发明专利]一种双度集成的不均衡数据流分类算法有效

申请号：	201310624425.5	申请日：	2013-11-29
公开（公告）号：	CN103593470A	公开（公告）日：	2014-02-19
发明（设计）人：	张重生	申请（专利权）人：	河南大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	郑州联科专利事务所(普通合伙) 41104	代理人：	刘建芳;李伊宁
地址：	47500***	国省代码：	河南;41
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种集成均衡数据流分类算法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及一种数据流分类算法，尤其涉及一种双度集成的不均衡数据流分类算法。

背景技术

近年来，数据挖掘技术越来越多地各行各业的实际应用中，包括计算机辅助临床诊断、基于互联网的推荐系统和广告系统、客户分类、金融数据分析和异常交易监测等, 这种面向行业的智能分析与决策系统已经被人们广泛接受。

在很多实际应用中，数据的分布是不平衡的, 又称分布是倾斜的，例如，90%的数据记录同属类别A，称A为多数类；而只有10%的数据记录属于类别B，所以又称B为少数类。例如，在金融数据分析的应用中，多数交易都是正常的，只有极少数交易是异常的；使用分类技术发现异常交易的规则时，如何从少量的异常交易记录中发现异常交易的规律并建立异常交易分类模型，是一件十分有挑战的任务：该分类模型需要能够较为准确地识别出异常交易；同时不能将正常的交易误判为异常的。换而言之，该分类模型既要较为准确地对异常交易进行分类，也需要较为准确地分类正常的交易。

很多数据挖掘的实际应用不仅需要处理静态的数据，而且需要处理大量的流数据，也即数据流，例如：社交媒体挖掘、网站点击流分析、股票交易分析、事件检测、传感数据处理等应用。在这些应用中，分布不均衡的数据流，也即分布倾斜的数据流是常见的。已有分类算法虽然能够提高分布不均衡的数据流中的少数类的分类准确度，但却降低了多数类的分类准确度。因此，需要一种更加理想的不均衡数据流的分类算法，该算法既能较为准确地预测不均衡数据流中的少数类数据记录，又能保证对多数类数据记录的分类准确度。

发明内容

本发明的目的是提供一种双度集成的不均衡数据流分类算法，能较为准确地预测不均衡数据流中的少数类，又能保证对多数类数据记录的分类准确度。

本发明采用下述技术方案：

一种双度集成的不均衡数据流分类算法，包括以下几个步骤：

A: 均衡数据流分类模型和非均衡数据流分类模型训练阶段：对于训练数据集中的每一个最新的数据流记录块，将其分割为训练集和验证集；在训练集上分别训练一个均衡的分类模型和一个非均衡的分类模型；保留在验证集上分类准确度最高的n个均衡的分类模型和n个非均衡的分类模型；

B: 利用步骤A中的n个均衡数据流分类模型和n个非均衡数据流分类模型对验证集中的数据记录进行分类并进行可信度评估，最终得出优化的可信度阈值δ；

C: 使用步骤A中的n个均衡数据流分类模型和n个非均衡数据流分类模型对于测试数据集中的每一个数据记录进行分类，并输出最终分类结果。

所述步骤B中使用数据驱动的方法在验证集上确定优化的可信度阈值δ，具体方法如下:

用m1表示分类的准确度，m2表示分类的灵敏度和特异度的几何均值；初始化变量d=1.0， t=0，在验证数据集上；循环执行如下操：从0开始，每次将δ的值增加0.02，并验证该δ值对应的点(m1，m2)的值与点(1,1)的距离l；如果该l比d还要小，则 d = l, t = δ；该循环运行至δ= 1时结束；循环结束后，将t的当前值赋给δ，此时的δ值即为优化的可信度阈值。

所述的步骤C中对测试数据集中的每条数据记录u进行分类预测包括以下几个步骤：

C1: 首先集成所保留的n个均衡数据流分类模型并对u进行分类预测；

C2:计算对u的分类结果的可信度r(u)，可信度r(u)大于优化的可信度阈值δ的分类结果直接返回给用户；

C3:如果对u的分类可信度低r(u)与优化的可信度阈值δ，则集成n个非均衡的分类模型对u进行再次分类，并返回最终分类结果。

所述的步骤A中训练均衡数据流分类模型包括以下几个步骤：

A11：对训练集进行简单随机抽样，样本大小为记为s, 抽样时不区分样本的类别，该样本记为T1；

A12：使用分类算法，在T1上训练分类模型，称该分类模型为1个均衡数据流分类模型；

A13：测试已有的均衡数据流分类模型，如果均衡数据流分类模型的总数超过n，则在验证集上逐一测试已有均衡数据流分类模型，并淘汰分类准确度最差的均衡数据流分类模型，直到剩余均衡数据流分类模型的总数等于n；

所述的步骤A中训练1个非均衡数据流分类模型包括以下几个步骤：

A21：收集各个数据流记录块的训练集中的少数类数据记录，并放入少数类记录容器中，如果少数类记录容器中数据记录的总数超过规定数目s，则淘汰该块中最老的数据记录，直到剩余数据记录的总数等于s；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载