[发明专利]一种分类器输出不确定性与泛化能力间的匹配度的方法在审
申请号: | 201810223261.8 | 申请日: | 2018-03-19 |
公开(公告)号: | CN108446732A | 公开(公告)日: | 2018-08-24 |
发明(设计)人: | 朱红;王熙照;王冉 | 申请(专利权)人: | 深圳大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 重庆市信立达专利代理事务所(普通合伙) 50230 | 代理人: | 包晓静 |
地址: | 518061 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分类问题 分类器 分类器输出 不确定性 复杂度 匹配度 数据挖掘技术 分类器性能 低复杂度 高复杂度 特性提取 性能评估 用户提供 数据集 评估 判定 应用 发现 | ||
1.一种分类器输出不确定性与泛化能力间的匹配度的方法,其特征在于,所述分类器输出不确定性与泛化能力间的匹配度的方法根据分类问题中数据的特性提取出描述分类问题复杂度的指标;不同的分类器在不同复杂度的数据集上进行训练,根据分类器的性能表现判断出分类器适合解决哪种复杂程度的分类问题,得到分类器不确定性与分类器泛化能力之间的统计关系;对于不同的分类问题,根据复杂度的大小,划分为不同复杂程度的分类问题;
根据得到的结果选择合适的分类器,根据分类器不确定性与分类器泛化能力之间的统计关系调整分类器的参数,使分类器的输出不确定性发生变化,并且根据分类器输出不确定性程度的高低将分类器划分为不同的类别,根据泛化能力的大小,将分类器划分为高泛化能力分类器,中泛化能力分类器和低泛化能力分类器;
通过多次调整分类器的参数,得到分类器具有较好泛化能力时,分类问题的复杂度、分类问题输出不确定性与分类器泛化能力之间各自高、中、低级别的对应关系。
2.如权利要求1所述的分类器输出不确定性与泛化能力间的匹配度的方法,其特征在于,所述分类器输出不确定性与泛化能力间的匹配度的方法的4个指标为:
(1)类别间重叠区域的体积,Aj表示分类问题中的第j个特征,对于特征Aj两个类别间重叠区域的长度:
其中max(Aj,c1),max(Aj,c2),min(Aj,c1)和min(Aj,c2)分别表示两个类别中所包含样例的特征Aj的最大取值和最小取值;
分类问题中的样例有n个特征,两个类别间重叠区域的体积为:
(2)分类问题特征的Fisher判别率,μ1j,μ2j,σ1j,σ2j分别为两个类别中所包含样例关于第j个特征的均值和方差,第j个特征的Fisher判别率的定义式为:
分类问题的Fisher判别率的倒数的表达式:
(3)类间/类内距离比,每个样例xi,分别计算它与同类的和不同类的最近邻样例之间欧式距离和表达式为:
其中,yi和yj分别是样例xi和xj的类标;计算样例xi和xj两个距离的平均值表达式:
其中N是样例的总个数;
(4)线性可分性,可分样例和不可分样例的线性可分性的定义式为:
minaTt,s.t.ZTw=t≥b;
其中,a和b是任意取值的常数向量,w是权值向量,t≥0是误差向量,Z是一个矩阵,组成它的每一个列向量z的定义式为:
其中x是输入向量,c是输入向量对应的类标;
可划分程度表达式为:
Index4=aTt;
指标值越大,表示两个类别越难划分;当指标值为0时,两个类别线性可分。
3.如权利要求2所述的分类器输出不确定性与泛化能力间的匹配度的方法,其特征在于,根据描述数据集复杂度的四个指标,对于每个数据集,计算出相应的四个指标值,根据指标的值判断数据集的复杂性;挑选不同复杂度的各个数据集评估分类器的性能。
4.如权利要求1所述的分类器输出不确定性与泛化能力间的匹配度的方法,其特征在于,根据待分类数据选择分类器的方法包括:计算出分类问题的复杂度,对分类问题在各个分类器上的性能预判,选择出分类器。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳大学,未经深圳大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810223261.8/1.html,转载请声明来源钻瓜专利网。