[发明专利]一种针对不平衡样本的机器学习分类方法在审

申请号：	202111461693.0	申请日：	2021-12-02
公开（公告）号：	CN114219018A	公开（公告）日：	2022-03-22
发明（设计）人：	单曙光	申请（专利权）人：	玖特（北京）医学科技有限公司
主分类号：	G06K9/62	分类号：	G06K9/62;G06N5/00;G06N20/00
代理公司：	暂无信息	代理人：	暂无信息
地址：	100872 北京市海***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种针对不平衡样本机器学习分类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及机器学习分类方法技术领域，尤其涉及一种针对不平衡样本的机器学习分类方法，针对当前现有的针对不平衡样本的机器学习分类方法对于样本比例超过4：1的仍存在效果不好的问题，现提出如下方案，其中包括以下步骤：S1：下定义，S2：定义输入，S3：公式计算，S4：输出及处理，本发明的目的是通过利用相对危险度来替换分类回归树的建立树分割点的基尼指数来解决样本分类比例超过4：1的不平衡数据的问题，且在正负样本为40：1的样本集上，此算法测试效果为准确性80％，远高于SVC等常用机器学习算法。

技术领域

本发明涉及机器学习分类方法技术领域，尤其涉及一种针对不平衡样本的机器学习分类方法。

背景技术

近年来，机器学习技术得到了前所未有的发展。在机器学习任务中，我们经常会遇到这种困扰：数据不平衡问题。数据不平衡问题主要存在于有监督机器学习任务中。当遇到不平衡数据时，以总体分类准确率为学习目标的传统分类算法会过多地关注多数类，从而使得少数类样本的分类性能下降。绝大多数常见的机器学习算法对于不平衡数据集都不能很好地工作。

对于分类问题，永远都逃不过的一个痛点就是样本不均衡问题。样本不均衡是指在一组数据集中，标签的一类占有很大的比例，但我们有着捕捉出某种特定的分类的需求的状况。

分类学习方法都有一个共同的基本假设，即不同类别的训练样例数目相当。如果不同类别的训练样例数目稍有差别，对学习结果的影响通常也不大，但若样本类别数目差别很大，属于极端不均衡，则会对学习过程(模型训练)造成困扰。这些学习算法的设计背后隐含的优化目标是数据集上的分类准确度，而这会导致学习算法在不平衡数据上更偏向于含更多样本的多数类。一般而言，如果正负类样本类别不平衡比例超过4:1，那么其分类器会大大地因为数据不平衡性而无法满足分类要求的。因此在构建分类模型之前，需要对分类不均衡性问题进行处理。

当前，解决这一问题的方法有如下几种，可采用上采样下采样的方法。但这些采样方法会增加样本的总数，对于支持向量机这个样本总是对计算速度影响巨大的算法来说，我们完全不想轻易地增加样本数量。因此在支持向量机中，我们要大力依赖我们调节样本均衡的参数：SVC类中的class_weight参数。在逻辑回归中，参数class_weight 默认None，此模式表示假设数据集中的所有标签是均衡的，即自动认为标签的比例是1：1。所以当样本不均衡的时候，我们可以使用形如{“标签的值1”：权重1，“标签的值2”：权重2}的字典来输入真实的样本标签比例，来让算法意识到样本是不平衡的。但是目前现有的针对不平衡样本的机器学习分类方法对于样本比例超过4：1 的仍存在效果不好等问题，因此，我们提出一种针对不平衡样本的机器学习分类方法用于解决上述问题。

发明内容

本发明目的是为了解决现有的针对不平衡样本的机器学习分类方法对于样本比例超过4：1的仍存在效果不好的问题，而提出的一种针对不平衡样本的机器学习分类方法。

为了实现上述目的，本发明采用了如下技术方案：

一种针对不平衡样本的机器学习分类方法，包括以下步骤：

S1：下定义：根据相对危险度的非暴露组和暴露组的定义进行类似定义；

S2：定义输入：通过定义输入代入相应公式，得到对应取值及对应的损失函数值RR；

S3：公式计算：根据RR公式计算训练集T损失函数值RR；

S4：输出及处理：输出：并根据最优划分特征f^*及其取值将训练集T划分为T₁和T₂；

优选的，所述S1中，通过公式进行定义，其中公式为

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于玖特（北京）医学科技有限公司，未经玖特（北京）医学科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】