[发明专利]一种针对不平衡样本的机器学习分类方法在审

专利信息
申请号: 202111461693.0 申请日: 2021-12-02
公开(公告)号: CN114219018A 公开(公告)日: 2022-03-22
发明(设计)人: 单曙光 申请(专利权)人: 玖特(北京)医学科技有限公司
主分类号: G06K9/62 分类号: G06K9/62;G06N5/00;G06N20/00
代理公司: 暂无信息 代理人: 暂无信息
地址: 100872 北京市海*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 针对 不平衡 样本 机器 学习 分类 方法
【权利要求书】:

1.一种针对不平衡样本的机器学习分类方法,其特征在于,包括以下步骤:

S1:下定义:根据相对危险度的非暴露组和暴露组的定义进行类似定义,并通过公式下定义;

S2:定义输入:通过定义输入代入相应公式,得到对应取值及对应的损失函数值RR;

S3:公式计算:根据RR公式计算训练集T损失函数值RR;

S4:输出及处理:输出:f*,RR,并根据最优划分特征f*及其取值将训练集T划分为T1和T2

2.根据权利要求1所述的一种针对不平衡样本的机器学习分类方法,其特征在于,所述S1中,通过公式进行定义,其中公式为

RR=p/q或者RR=(p(1-p))/(q(1-q)) (3)

High_per=high/low (4)。

3.根据权利要求2所述的一种针对不平衡样本的机器学习分类方法,其特征在于,通过根据相对危险度的非暴露组和暴露组的定义,采用相似方法定义了高精度组和低精度组,定义p为错误预测的样本数量与低精度预测样本总数的比值,变量q定义为不正确预测的样本数量与高精度预测样本总数的比值,通过此定义,推导出错误预测的样本数量+不正确预测的样本数量等于错误识别的样本个数,并在p和q的分子上加1。

4.根据权利要求1所述的一种针对不平衡样本的机器学习分类方法,其特征在于,所述S2中,进行定义输入时训练集为T={(x1,y1),(x2,y2),...,(xN,yN)},特征集为F={f1,f2,...,fd},最少样本集为min_sample=k,损失函数阈值为threshold=ε,并以node为根节点,其中以node为根节点时特征集F为空或训练集T中样本关于特征集F中类别全部相同时需将node标记为叶结点,训练集T中的样本数量少于min_sample需将该标记为叶结点,且其类别标记为T中样本数最多的类。

5.根据权利要求4所述的一种针对不平衡样本的机器学习分类方法,其特征在于,从特征集F中选择最优划分特征f*,并得到对应取值及对应的损失函数值RR,其中训练集为T={(x1,y1),(x2,y2),...,(xN,yN)},特征集为F={f1,f2,...,fd},阈值为θ1和θ2,且θ1<θ2

6.根据权利要求1所述的一种针对不平衡样本的机器学习分类方法,其特征在于,所述S3中,根据RR公式计算训练集T损失函数值RR,其中令且对于特征集F中的每一个特征f执行,并对于训练集T中关于特征f的每一个取值fvalue执行,根据fvalue将训练集划分为低置信度训练集和高置信度训练集,分别记为通过计算将Tlow和Thigh的损失函数值记为RR(Tlow,Thigh),(RR(Tlow,Thigh)>1并且RR(Tlow,Thigh)>RR,同时θ1<high_per≤θ2,f*={f},RR=RR(Tlow,Thigh)。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于玖特(北京)医学科技有限公司,未经玖特(北京)医学科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111461693.0/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top