[发明专利]分类器筛选方法、系统、储存介质及计算机设备有效

专利信息
申请号: 202010722712.X 申请日: 2020-07-24
公开(公告)号: CN111931829B 公开(公告)日: 2023-09-01
发明(设计)人: 陈泽鹏;徐维超;陈昌润 申请(专利权)人: 广东工业大学
主分类号: G06F18/21 分类号: G06F18/21;G06F18/24
代理公司: 广州粤高专利商标代理有限公司 44102 代理人: 张金福
地址: 510062 广东*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 分类 筛选 方法 系统 储存 介质 计算机 设备
【权利要求书】:

1.一种分类器筛选方法,其特征在于,包括以下步骤:

对数据集进行预处理,将数据集的文本转化为向量化矩阵;

根据所述向量化矩阵,获取对应分类问题下分类器AUC的方差表达式;

通过运用动态规划项对所述方差表达式进行重构,获取基于动态规划的AUC表达式;

根据所述基于动态规划的AUC表达式获取待选分类器的AUC样本估计值,将所述AUC样本估计值最大的待选分类器作为对应分类问题下最优的分类器;

在二分类问题下,所述动态规划项S1,S2,....S9,S10所对应的满足范围如下:

S1,ε(X=Y);S2,ε(XY);S3,ε(XYY′)orε(XY′Y);

S4,ε(XY=Y′);S5,ε(X=Y′Y)orε(X=YY′);S6,ε(X=Y=Y′);

S7,ε(X=X′Y)orε(X′=XY);S8,ε(X=X′Y);

S9,ε(X′=XY)orε(XX′=Y);S10,ε(X=X′=Y);

其中,X和Y分别表示从两个母体分布选取的独立同分布样本集,X'和Y'分别对应X和Y拥有相同元素的独立同分布样本集;

所述动态规划项的表达式如下:

i和j分别表示两个独立同分别样本数从i=1,…,n;j=1,…,m的取值范围,l表示Xi和Yj中样本的排序中的取值顺序;cl、tl分别表示数据在两个独立同分别样本的数据排序的位置及个数;表示指数函数,当括号中的声明为真时指示函数取值为1,为假时指示函数取值为0;m表示所述数据集的正样本个数,n表示所述数据集的负样本个数;Xi表示所述数据集的正样本序列,Yj表示所述数据集的负样本序列,Zk表示Xi与Yj的序列联结,按照非降序进行排列,K=m+n,1≤k≤K;ai表示Xi在Zk中的序列;ci表示Yj在Zk中的序列。

2.根据权利要求1所述的分类器筛选方法,其特征在于,在二分类问题下,所述基于动态规划的AUC表达式如下:

其中,表示AUC样本估计值;m表示所述数据集的正样本个数,n表示所述数据集的负样本个数;Xi表示所述数据集的正样本序列,Yj表示所述数据集的负样本序列;表示指数函数,当括号中的声明为真时指示函数取值为1,为假时指示函数取值为0;动态规划项S1所满足的范围为ε(X=Y);动态规划项S2所满足的范围为ε(XY)。

3.根据权利要求1所述的分类器筛选方法,其特征在于,在二分类问题下,根据所述向量化矩阵,获取到的分类器AUC的方差表达式如下:

其中,

表示随机变量的期望,m表示所述数据集的正样本个数,n表示所述数据集的负样本个数;表示AUC样本估计值;表示指数函数

4.根据权利要求1所述的分类器筛选方法,其特征在于,在二分类问题下,在通过运用动态规划项对所述方差表达式进行重构后,所述方差表达式如下:

其中,

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东工业大学,未经广东工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010722712.X/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top