[发明专利]基于聚类过采样与实例硬度阈值的数据重采样方法在审

申请号：	202010949329.8	申请日：	2020-09-10
公开（公告）号：	CN112115992A	公开（公告）日：	2020-12-22
发明（设计）人：	殷茗;马怀宇;朱奎宇;张小港;高存志	申请（专利权）人：	西北工业大学
主分类号：	G06K9/62	分类号：	G06K9/62;G06K9/40
代理公司：	西北工业大学专利中心 61204	代理人：	常威威
地址：	710072 ***	国省代码：	陕西;61
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于采样实例硬度阈值数据方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供了一种基于聚类过采样与实例硬度阈值的数据重采样方法。首先，利用K‑means方法对数据集进行聚类处理，并对聚类进行过滤处理和采样权重分配；接着，采用SMOTE算法对数据集进行过采样，生成新的数据使数据集中少数类与多数类样本数量相等，数据集变为类平衡；最后，采用实例硬度阈值算法对数据进行清理，得到最终平衡且噪点较少的数据集。本发明可以将类不平衡数据集处理为平衡数据集，提高分类器对少数类样本的预测性能。

技术领域

本发明属不平衡数据处理技术领域，具体涉及一种基于聚类过采样与实例硬度阈值的数据重采样方法。

背景技术

在机器学习中，由于分类算法的目标是提高分类准确性，当数据集存在类不平衡问题时，分类算法会倾向于将样本预测为多数类。这是因为分类算法即便无法将少数类样本正确分类，依然可以实现准确率较高的分类结果。虽然少数类样本数较少，但重要程度更高，将少数类样本错分的代价远高于多数类样本错分的代价。因此，解决类不平衡问题对于模型预测不平衡数据集非常重要。数据重采样是机器学习领域解决数据不平衡问题的重要方法。数据重采样通过减少多数类样本(欠采样)或增加少数类样本(过采样)使得数据集中不同类别分布变得均衡。已有研究表明过采样策略通常优于欠采样策略，并且欠采样会导致数据数量大幅减少，没有充足的数据训练模型。数据重采样方法在数值领域的不平衡问题中应用较为广泛，但在文本数据的不平衡问题中研究较少。

发明内容

为了解决分类算法在不平衡文本数据中对少数类样本的预测偏差问题，本发明提出了一种基于聚类过采样与实例硬度阈值的数据重采样方法。首先，利用K-means方法对数据集进行聚类处理，并对聚类进行过滤处理和采样权重分配；接着，采用SMOTE算法对数据集进行过采样，生成新的数据使数据集中少数类与多数类样本数量相等，数据集变为类平衡；最后，采用实例硬度阈值算法对数据进行清理，得到最终平衡且噪点较少的数据集。本发明可以将类不平衡数据集处理为平衡数据集，提高分类器对少数类样本的预测性能。

一种基于聚类过采样与实例硬度阈值的数据重采样方法，其特征在于步骤如下：

步骤1：从文本数据集中随机选择k条文本样本作为初始聚类中心，采用K-means算法对数据集中的所有文本进行聚类处理，然后，以聚类后各个类别的中心为初始聚类中心，采用K-means算法对数据集中的所有样本进行聚类处理，重复以上过程，直至所有样本所属的聚类类别不再发生变化，得到聚类结果；所述的k的取值为2、5、10或15；

步骤2：对于步骤1得到的每一个聚类，如果其中少数类文本与多数类文本的数量比小于不平衡率阈值irt，则删除该聚类；所述的不平衡率阈值irt的取值为1、1.5或2；

设经过上述处理后剩余n个聚类，按以下过程对剩余聚类进行采样权重分配：

步骤a：计算每个聚类中所有两两少数类文本数据之间的欧几里得距离，然后计算每个聚类中所有少数类文本之间的欧几里得距离的均值作为其平均距离；

步骤b：按照下式计算得到每个聚类的少数类文本密度D(i)：

其中，M(i)表示第i个聚类中所包含的少数类文本的数量，m为文本对应的特征项数量，i＝1,…,n；

步骤c：按照下式计算得到每个聚类的稀疏度量值S(i)：

其中，N(i)表示第i个聚类中所包含的文本总数，i＝1,…,n；

步骤d：按照下式计算得到每个聚类的采样权重W(i)：

其中，S(i)表示第i个聚类的稀疏度量值，i＝1,…,n；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于西北工业大学，未经西北工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】