[发明专利]分类器筛选方法、系统、储存介质及计算机设备有效
申请号: | 202010722712.X | 申请日: | 2020-07-24 |
公开(公告)号: | CN111931829B | 公开(公告)日: | 2023-09-01 |
发明(设计)人: | 陈泽鹏;徐维超;陈昌润 | 申请(专利权)人: | 广东工业大学 |
主分类号: | G06F18/21 | 分类号: | G06F18/21;G06F18/24 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 张金福 |
地址: | 510062 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分类 筛选 方法 系统 储存 介质 计算机 设备 | ||
本发明提出了一种分类器筛选方法、系统、储存介质及计算机设备,方法部分包括以下步骤:对数据集进行预处理,将数据集的文本转化为向量化矩阵;根据所述向量化矩阵,获取对应分类问题下分类器AUC的方差表达式;通过运用动态规划项对所述方差表达式进行重构,获取基于动态规划的AUC表达式;根据所述基于动态规划的AUC表达式获取待选分类器的AUC样本估计值,将所述AUC样本估计值最大的待选分类器作为对应分类问题下最优的分类器。
技术领域
本发明涉及机器学习技术领域,更具体地,涉及一种分类器筛选方法、系统、储存介质及计算机设备。
背景技术
机器学习通常被划分为两种类型:有监督学习和无监督学习。分类是一个有监督的学习过程,目标数据库中有哪些类别是已知的,分类过程需要做的就是把每一条记录归到对应的类别之中,分类问题的输出不再是连续值,而是离散值,用来指定其属于哪个类别。对概率分类器而言,可以通过设定一个阈值获得对应的离散(二类)分类器:当分类器的输出超过阈值时,输出结果1,否则为0。每个阈值可以在接收机工作特性(ReceiverOperating Characteristic,以下简称ROC)平面上产生一个不同的点。从概念上理解,我们可以通过绘制每一个阈值在ROC空间中的对应点来生成一条曲线,这条曲线即为ROC曲线,ROC曲线本质上表示的是在不同判决门限下真阳性率和假阳性率的折衷关系。该曲线下的面积(Area Under the Curve,以下简称AUC)可以用来评估一个分类器能否有效地将特定问题中的阳性类样本和阴性类样本区分出来。通过AUC算法对分类器进行评估,能筛选出更合适的分类器。
如《基于AUC的分类器性能评估问题研究(吉林大学,蒋帅)》所示,现有的方法适用性窄、效率差、处理过程复杂、结果有偏差,局限性明显。
发明内容
针对现有技术的局限,本发明提出一种分类器筛选方法、系统、储存介质及计算机设备,本发明采用的技术方案是:
一种分类器筛选方法,包括以下步骤:
对数据集进行预处理,将数据集的文本转化为向量化矩阵;
根据所述向量化矩阵,获取对应分类问题下分类器AUC的方差表达式;
通过运用动态规划项对所述方差表达式进行重构,获取基于动态规划的AUC表达式;
根据所述基于动态规划的AUC表达式获取待选分类器的AUC样本估计值,将所述AUC样本估计值最大的待选分类器作为对应分类问题下最优的分类器。
相较于现有技术,本发明可以作为MWUS方差的无偏估计量,其时间复杂度是线性的,远低于常规的,并且与最先进的基于秩的方法相当;同时,其处理速度远远高于其他同类的方法,能够快速选择最合适的分类器。除了这些优点外,该算法的结构可以很容易地扩展到三分类或多分类情况,方法适用范围广。此外,基于本发明提供的方法,还可以用于改进当前的细胞检测方法。
作为一种优选方案,在二分类问题下,所述基于动态规划的AUC表达式如下:
其中,表示AUC样本估计值;m表示所述数据集的正样本个数,n表示所述数据集的负样本个数;Xi表示所述数据集的正样本序列,Yj表示所述数据集的负样本序列;表示指数函数,当括号中的声明为真时指示函数取值为1,为假时指示函数取值为0;动态规划项S1所满足的范围为ε(X=Y);动态规划项S2所满足的范围为ε(XY)。
作为一种优选方案,在二分类问题下,所述动态规划项S1,S2,....S9,S10所对应的满足范围如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东工业大学,未经广东工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010722712.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种包覆铁钴镍三元合金的氮掺杂碳框架材料的制备方法
- 下一篇:一种油气分离器