[发明专利]基于设置总的错分率的可控置信机器算法有效

申请号：	201410817003.4	申请日：	2014-12-24
公开（公告）号：	CN104573709B	公开（公告）日：	2018-08-03
发明（设计）人：	蒋方纯	申请（专利权）人：	深圳信息职业技术学院
主分类号：	G06K9/62	分类号：	G06K9/62
代理公司：	深圳中一专利商标事务所 44237	代理人：	张全文
地址：	518000 广东省深圳市龙***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	二元样本置信样本分配可控输出算法机器学习领域分类结果灵活控制分类器接受域拒绝域分类转换
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明适用机器学习领域，提供了一种基于设置总的错分率的可控置信机器算法，所述方法包括如下步骤：确定待分类的未知二元样本；利用二类分类器对未知二元样本进行二元置信分类；将二元置信分类结果转换成未知二元样本的输出值(Output Score)；根据未知二元样本的理想错分率计算该理想错分率对应的阈值范围(‑t，t)；如未知二元样本的输出值(Output Score)属于该阈值范围，将未知样本分配到拒绝域，如未知二元样本的输出值(Output Score)不属于该阈值范围，将未知样本分配到接受域。本发明提供的技术方案具有控制精度，实现灵活控制的优点。

技术领域

本发明属于机器学习领域，尤其涉及一种基于设置总的错分率的可控置信机器算法。

背景技术

置信机器就是在机器学习的过程中对学习的结果同时提供一个可信的程度判断或可以对学习结果进行预设的分类处理。置信机器在医疗诊断等高风险的应用领域有着重要的现实意义。置信机器是机器学习领域中研究时间不长的一个分支，实现置信机器学习的理论基础与方法并不多，有直接构造置信度的方法，有间接构造置信度的方法，有通过设置拒绝选项，可以进行预设的分类处理，来排除低可信的部分，从而提高剩余部分的可信度，实现置信分类，并对错分率可控。

2005年由Vladimir Vovk，Alexander Gammerman，Glenn Shafer出版了关于信任机器学习的专著《Algorithmic Learning in a Random World》。2004年邱德红等在计算机研究与发展期刊Vol.41，No.9中发表了《基于算法随机性理论和奇异描述的置信学习机器》，根据Kolmogorov算法随机性理论，为学习机器建立了一种置信机制，描述了置信学习机器的算法。

现有的方案有以下几个问题：

(1)置信控制的精度不够。目前上述的置信机器学习方法是通过设置Bin的方法来计算错分率，并根据计算结果设置阈值，但最后总的错分率控制与当初预设值比较，有时差距会很大。

(2)置信控制不够灵活。设置Bin的方法有一定的限制，不能任意设置数值，进行灵活多变的控制，满足不同的要求。

发明内容

本发明实施例的目的在于提供一种基于设置总的错分率的可控置信机器算法，其解决现有技术的置信控制的精度不够，置信控制不够灵活的问题。

本发明实施例是这样实现的，一方面，一种基于设置总的错分率的可控置信机器算法，所述方法包括如下步骤：

确定待分类的未知二元样本；

利用二类分类器对未知二元样本进行二元置信分类；

将二元置信分类结果转换成未知二元样本的输出值(Output Score)；

根据未知二元样本的理想错分率计算该理想错分率对应的阈值范围(-t，t)；

如未知二元样本的输出值(Output Score)属于该阈值范围，将未知样本分配到拒绝域，如未知二元样本的输出值(Output Score)不属于该阈值范围，将未知样本分配到接受域。

可选的，所述根据未知二元样本的理想错分率计算该理想错分率对应的阈值范围(-t，t)的实现方法具体为：