[发明专利]一种针对不平衡样本的机器学习分类方法在审
申请号: | 202111461693.0 | 申请日: | 2021-12-02 |
公开(公告)号: | CN114219018A | 公开(公告)日: | 2022-03-22 |
发明(设计)人: | 单曙光 | 申请(专利权)人: | 玖特(北京)医学科技有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N5/00;G06N20/00 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100872 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 针对 不平衡 样本 机器 学习 分类 方法 | ||
本发明涉及机器学习分类方法技术领域,尤其涉及一种针对不平衡样本的机器学习分类方法,针对当前现有的针对不平衡样本的机器学习分类方法对于样本比例超过4:1的仍存在效果不好的问题,现提出如下方案,其中包括以下步骤:S1:下定义,S2:定义输入,S3:公式计算,S4:输出及处理,本发明的目的是通过利用相对危险度来替换分类回归树的建立树分割点的基尼指数来解决样本分类比例超过4:1的不平衡数据的问题,且在正负样本为40:1的样本集上,此算法测试效果为准确性80%,远高于SVC等常用机器学习算法。
技术领域
本发明涉及机器学习分类方法技术领域,尤其涉及一种针对不平 衡样本的机器学习分类方法。
背景技术
近年来,机器学习技术得到了前所未有的发展。在机器学习任务 中,我们经常会遇到这种困扰:数据不平衡问题。数据不平衡问题主 要存在于有监督机器学习任务中。当遇到不平衡数据时,以总体分类 准确率为学习目标的传统分类算法会过多地关注多数类,从而使得少 数类样本的分类性能下降。绝大多数常见的机器学习算法对于不平衡 数据集都不能很好地工作。
对于分类问题,永远都逃不过的一个痛点就是样本不均衡问题。 样本不均衡是指在一组数据集中,标签的一类占有很大的比例,但我 们有着捕捉出某种特定的分类的需求的状况。
分类学习方法都有一个共同的基本假设,即不同类别的训练样例 数目相当。如果不同类别的训练样例数目稍有差别,对学习结果的影 响通常也不大,但若样本类别数目差别很大,属于极端不均衡,则会 对学习过程(模型训练)造成困扰。这些学习算法的设计背后隐含的 优化目标是数据集上的分类准确度,而这会导致学习算法在不平衡数 据上更偏向于含更多样本的多数类。一般而言,如果正负类样本类别 不平衡比例超过4:1,那么其分类器会大大地因为数据不平衡性而无 法满足分类要求的。因此在构建分类模型之前,需要对分类不均衡性 问题进行处理。
当前,解决这一问题的方法有如下几种,可采用上采样下采样的 方法。但这些采样方法会增加样本的总数,对于支持向量机这个样本 总是对计算速度影响巨大的算法来说,我们完全不想轻易地增加样本 数量。因此在支持向量机中,我们要大力依赖我们调节样本均衡的参 数:SVC类中的class_weight参数。在逻辑回归中,参数class_weight 默认None,此模式表示假设数据集中的所有标签是均衡的,即自动 认为标签的比例是1:1。所以当样本不均衡的时候,我们可以使用 形如{“标签的值1”:权重1,“标签的值2”:权重2}的字典来输 入真实的样本标签比例,来让算法意识到样本是不平衡的。但是目前 现有的针对不平衡样本的机器学习分类方法对于样本比例超过4:1 的仍存在效果不好等问题,因此,我们提出一种针对不平衡样本的机 器学习分类方法用于解决上述问题。
发明内容
本发明目的是为了解决现有的针对不平衡样本的机器学习分类 方法对于样本比例超过4:1的仍存在效果不好的问题,而提出的一 种针对不平衡样本的机器学习分类方法。
为了实现上述目的,本发明采用了如下技术方案:
一种针对不平衡样本的机器学习分类方法,包括以下步骤:
S1:下定义:根据相对危险度的非暴露组和暴露组的定义进行类 似定义;
S2:定义输入:通过定义输入代入相应公式,得到对应取值及对应的损失函数值RR;
S3:公式计算:根据RR公式计算训练集T损失函数值RR;
S4:输出及处理:输出:并根据最优划分特征f*及 其取值将训练集T划分为T1和T2;
优选的,所述S1中,通过公式进行定义,其中公式为
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于玖特(北京)医学科技有限公司,未经玖特(北京)医学科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111461693.0/2.html,转载请声明来源钻瓜专利网。