[发明专利]基于设置总的错分率的可控置信机器算法有效
申请号: | 201410817003.4 | 申请日: | 2014-12-24 |
公开(公告)号: | CN104573709B | 公开(公告)日: | 2018-08-03 |
发明(设计)人: | 蒋方纯 | 申请(专利权)人: | 深圳信息职业技术学院 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 深圳中一专利商标事务所 44237 | 代理人: | 张全文 |
地址: | 518000 广东省深圳市龙*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 二元样本 置信 样本分配 可控 输出 算法 机器学习领域 分类结果 灵活控制 分类器 接受域 拒绝域 分类 转换 | ||
本发明适用机器学习领域,提供了一种基于设置总的错分率的可控置信机器算法,所述方法包括如下步骤:确定待分类的未知二元样本;利用二类分类器对未知二元样本进行二元置信分类;将二元置信分类结果转换成未知二元样本的输出值(Output Score);根据未知二元样本的理想错分率计算该理想错分率对应的阈值范围(‑t,t);如未知二元样本的输出值(Output Score)属于该阈值范围,将未知样本分配到拒绝域,如未知二元样本的输出值(Output Score)不属于该阈值范围,将未知样本分配到接受域。本发明提供的技术方案具有控制精度,实现灵活控制的优点。
技术领域
本发明属于机器学习领域,尤其涉及一种基于设置总的错分率的可控置信机器算法。
背景技术
置信机器就是在机器学习的过程中对学习的结果同时提供一个可信的程度判断或可以对学习结果进行预设的分类处理。置信机器在医疗诊断等高风险的应用领域有着重要的现实意义。置信机器是机器学习领域中研究时间不长的一个分支,实现置信机器学习的理论基础与方法并不多,有直接构造置信度的方法,有间接构造置信度的方法,有通过设置拒绝选项,可以进行预设的分类处理,来排除低可信的部分,从而提高剩余部分的可信度,实现置信分类,并对错分率可控。
2005年由Vladimir Vovk,Alexander Gammerman,Glenn Shafer出版了关于信任机器学习的专著《Algorithmic Learning in a Random World》。2004年邱德红等在计算机研究与发展期刊Vol.41,No.9中发表了《基于算法随机性理论和奇异描述的置信学习机器》,根据Kolmogorov算法随机性理论,为学习机器建立了一种置信机制,描述了置信学习机器的算法。
现有的方案有以下几个问题:
(1)置信控制的精度不够。目前上述的置信机器学习方法是通过设置Bin的方法来计算错分率,并根据计算结果设置阈值,但最后总的错分率控制与当初预设值比较,有时差距会很大。
(2)置信控制不够灵活。设置Bin的方法有一定的限制,不能任意设置数值,进行灵活多变的控制,满足不同的要求。
发明内容
本发明实施例的目的在于提供一种基于设置总的错分率的可控置信机器算法,其解决现有技术的置信控制的精度不够,置信控制不够灵活的问题。
本发明实施例是这样实现的,一方面,一种基于设置总的错分率的可控置信机器算法,所述方法包括如下步骤:
确定待分类的未知二元样本;
利用二类分类器对未知二元样本进行二元置信分类;
将二元置信分类结果转换成未知二元样本的输出值(Output Score);
根据未知二元样本的理想错分率计算该理想错分率对应的阈值范围(-t,t);
如未知二元样本的输出值(Output Score)属于该阈值范围,将未知样本分配到拒绝域,如未知二元样本的输出值(Output Score)不属于该阈值范围,将未知样本分配到接受域。
可选的,所述根据未知二元样本的理想错分率计算该理想错分率对应的阈值范围(-t,t)的实现方法具体为:
设定等距离步长和理想错分率,以原点为基准,以等距离步长向左、右一步步的移动阈值范围(-t1,t1),当阈值(-t1,t1)满足已知二元样本的理想错分率时,确定阈值(-t1,t1)为未知二元样本的理想错分率对应的阈值范围(-t,t)。
可选的,,所述以等距离步长向左、右一步步的移动阈值范围(-t1,t1)具体为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳信息职业技术学院,未经深圳信息职业技术学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410817003.4/2.html,转载请声明来源钻瓜专利网。