[发明专利]分类器筛选方法、系统、储存介质及计算机设备有效
申请号: | 202010722712.X | 申请日: | 2020-07-24 |
公开(公告)号: | CN111931829B | 公开(公告)日: | 2023-09-01 |
发明(设计)人: | 陈泽鹏;徐维超;陈昌润 | 申请(专利权)人: | 广东工业大学 |
主分类号: | G06F18/21 | 分类号: | G06F18/21;G06F18/24 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 张金福 |
地址: | 510062 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分类 筛选 方法 系统 储存 介质 计算机 设备 | ||
1.一种分类器筛选方法,其特征在于,包括以下步骤:
对数据集进行预处理,将数据集的文本转化为向量化矩阵;
根据所述向量化矩阵,获取对应分类问题下分类器AUC的方差表达式;
通过运用动态规划项对所述方差表达式进行重构,获取基于动态规划的AUC表达式;
根据所述基于动态规划的AUC表达式获取待选分类器的AUC样本估计值,将所述AUC样本估计值最大的待选分类器作为对应分类问题下最优的分类器;
在二分类问题下,所述动态规划项S1,S2,....S9,S10所对应的满足范围如下:
S1,ε(X=Y);S2,ε(XY);S3,ε(XYY′)orε(XY′Y);
S4,ε(XY=Y′);S5,ε(X=Y′Y)orε(X=YY′);S6,ε(X=Y=Y′);
S7,ε(X=X′Y)orε(X′=XY);S8,ε(X=X′Y);
S9,ε(X′=XY)orε(XX′=Y);S10,ε(X=X′=Y);
其中,X和Y分别表示从两个母体分布选取的独立同分布样本集,X'和Y'分别对应X和Y拥有相同元素的独立同分布样本集;
所述动态规划项的表达式如下:
i和j分别表示两个独立同分别样本数从i=1,…,n;j=1,…,m的取值范围,l表示Xi和Yj中样本的排序中的取值顺序;cl、tl分别表示数据在两个独立同分别样本的数据排序的位置及个数;表示指数函数,当括号中的声明为真时指示函数取值为1,为假时指示函数取值为0;m表示所述数据集的正样本个数,n表示所述数据集的负样本个数;Xi表示所述数据集的正样本序列,Yj表示所述数据集的负样本序列,Zk表示Xi与Yj的序列联结,按照非降序进行排列,K=m+n,1≤k≤K;ai表示Xi在Zk中的序列;ci表示Yj在Zk中的序列。
2.根据权利要求1所述的分类器筛选方法,其特征在于,在二分类问题下,所述基于动态规划的AUC表达式如下:
其中,表示AUC样本估计值;m表示所述数据集的正样本个数,n表示所述数据集的负样本个数;Xi表示所述数据集的正样本序列,Yj表示所述数据集的负样本序列;表示指数函数,当括号中的声明为真时指示函数取值为1,为假时指示函数取值为0;动态规划项S1所满足的范围为ε(X=Y);动态规划项S2所满足的范围为ε(XY)。
3.根据权利要求1所述的分类器筛选方法,其特征在于,在二分类问题下,根据所述向量化矩阵,获取到的分类器AUC的方差表达式如下:
其中,
表示随机变量的期望,m表示所述数据集的正样本个数,n表示所述数据集的负样本个数;表示AUC样本估计值;表示指数函数
4.根据权利要求1所述的分类器筛选方法,其特征在于,在二分类问题下,在通过运用动态规划项对所述方差表达式进行重构后,所述方差表达式如下:
其中,
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东工业大学,未经广东工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010722712.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种包覆铁钴镍三元合金的氮掺杂碳框架材料的制备方法
- 下一篇:一种油气分离器