[发明专利]基于HDBSCAN聚类的文本分类自适应过采样方法有效
申请号: | 201910605272.7 | 申请日: | 2019-07-05 |
公开(公告)号: | CN110443281B | 公开(公告)日: | 2023-09-26 |
发明(设计)人: | 董宏成;赵学华;刘颖;解如风;范荣妹 | 申请(专利权)人: | 重庆信科设计有限公司;重庆市质量和标准化研究院 |
主分类号: | G06F18/23 | 分类号: | G06F18/23;G06F18/214;G06F18/241 |
代理公司: | 重庆市恒信知识产权代理有限公司 50102 | 代理人: | 刘小红;陈栋梁 |
地址: | 401121 重庆市北部*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 hdbscan 文本 分类 自适应 采样 方法 | ||
本发明请求保护一种基于HDBSCAN聚类的自适应过采样方法,主要解决现有方法中利用完整数据信息的不平衡数据分类问题。所述技术的步骤为:(1)输入训练数据集;(2)对训练集中的少数类样本进行聚类得到不同规模且互不相交的集群;(3)计算每个少数类集群中需要合成的样本数量;(4)根据每个集群需要合成的样本数量自适应地合成新的样本得到新的少数类数据集;(5)多数类数据集和新的少数类数据集形成新的平衡数据集;(6)利用新的平衡数据集训练并测试分类器。本技术可有效避免不平衡数据集中噪声的产生并同时克服类间和类内不平衡问题,为不平衡学习提供了一种全新的过采样策略。
技术领域
本发明属于计算机人工智能领域,具体涉及不平衡数据的重采样技术和聚类相结合的集成分类方法。
背景技术
近年来研究人员所提出来的绝大部分标准机器学习算法都是建立在数据集分布平衡或者是错误代价相等的假设之上,但是在现实生活中,我们往往会碰到很多数据分布极其不平衡或者错误分类代价严重不等的情景。比如现行的很多分类学习算法在信用卡欺诈检测、癌症风险预测、文本分类、软件缺陷预测和生物信息等领域难以达到精准预测效果,因为这些分类学习算法由于训练数据集的分布不平衡、噪声、数据重叠等问题难以准确建立学习规则,因此提出一个新的数据采样方法使数据平衡化,对提升现有的标准学习算法的分类能力有着重大的推动作用。
不平衡数据集的分类主要包括数据层面的方法和算法层面的方法。数据层面上的方法主要对原始数据集进行处理,目的是使类分布更加平衡。算法层面方法主要是指代价敏感的方法,代价敏感的方法旨在为每个类别提供具有不同误分类成本的分类算法,该方法很多时候只能应用特定的算法中,泛化能力不强,所以当下的不平衡数据学习研究主要方向是数据层面方法。研究表明,分类器在平衡后的数据上的整体分类性能比在原始数据上的性能好很多,所以近年来有很多旨在改善不平衡学习问题的研究,但目前数据层面上的方法存在很多的局限性:如随机过采样Random Oversampling是随机复制少数类样本使类分布达到平衡,该方法可有效提高分类器的分类性能但容易导致过拟合。José等人提出了一种改进型的SMOTE过采样方法,该方法简单有效但其合成样本机制是盲目的。Annisa等人采用一种改进型的自适应过采样方法ADNSYN来重新平衡数据集。该算法虽然可有效提升分类器的分类性能,但忽略了类内不平衡问题。为了解决类内不平衡,Georgios等人提出一种K-SMOTE算法,该算法采用K-means聚类方法先对整个输入空间进行聚类,然后对过滤的集群进行随机过采样。该方法可同时解决类间和类内不平衡问题,但其无法加强分类器对一些重要少数类样本的学习。
综上所述,虽然大多数算法都能克服现有过采样算法的一些缺点,但很少有算法能够在避免产生噪声的同时并减轻类间和类内不平衡问题。此外,许多技术都是比较盲目的合成新的样本,并不能根据数据的分布特征进行合理的抽样处理。
发明内容
本发明旨在解决以上现有技术的问题。提供一种将聚类与重采样技术融合的不平衡数据集成分类方法(HD-SMOTE),最终获得一个平滑的平衡数据集,大幅提升主流的分类学习算法在不平衡学习问题上的分类效果。本发明的技术方案如下:
一种基于HDBSCAN聚类的文本分类自适应过采样方法,其包括以下步骤:
首先,将文本分类不平衡数据集分为训练集和测试集,选取数据集的70%作为训练集;其次,利用HDBSCAN(基于分层密度的噪声应用空间聚类)聚类技术对训练集中的少数类样本进行聚类,得到互不相交且不同规模的集群;随后,计算每个集群的稀疏度和对应的采样样本数量;
然后,根据每个集群的稀疏度和采样数量自适应地合成新的样本,在合成样本的时候,选择在集群中隶属度高的样本邻域中进行插值合成新的样本,用于保证新的样本点靠近集群中心,在稀疏度高的集群中自适应合成更多的文本分类样本,相应的越密集的集群合成更少的样本;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆信科设计有限公司;重庆市质量和标准化研究院,未经重庆信科设计有限公司;重庆市质量和标准化研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910605272.7/2.html,转载请声明来源钻瓜专利网。