[发明专利]基于代价敏感和半监督分类的客户分类方法及装置在审
申请号: | 201810258062.0 | 申请日: | 2018-03-27 |
公开(公告)号: | CN108388929A | 公开(公告)日: | 2018-08-10 |
发明(设计)人: | 肖进;刘潇潇 | 申请(专利权)人: | 四川大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06Q30/02 |
代理公司: | 成都厚为专利代理事务所(普通合伙) 51255 | 代理人: | 夏柯双 |
地址: | 610000 四川省成都*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 类别标签 数据集 随机子空间 分类结果 敏感 基本分类模型 半监督学习 客户分类 目标客户 选择性能 半监督 测试集 分类 样本 学习 投票 | ||
1.基于代价敏感和半监督分类的客户分类方法,其特征在于,包括:
S1.获取有类别标签数据集L、无类别标签数据集U和测试集Test;
S2.对有类别标签数据集L和无类别标签数据集U采用随机子空间法训练N个基本分类模型CS;
S3.分别使用所述N个基本分类模型CS对测试集Test中的样本进行分类,得到N个中间分类结果R1,R2,...,RN;
S4.对N个中间分类结果R1,R2,...,RN使用多数投票集成得到最终分类结果。
2.根据权利要求1所述的基于代价敏感和半监督分类的客户分类方法,其特征在于,所述步骤S2包括:
S21.从无类别标签数据集U中选择性标记一部分样本加入到有类别标签数据集L中,并将这部分样品从无类别标签数据集U中剔除;
S22.使用随机子空间法从有类别标签数据集L中抽取一个特征子集,并映射得到一个训练子集,使用代价敏感的SVM训练得到一个基本分类模型CS;
S23.重复步骤S21和步骤S22,得到N个基本分类模型CS。
3.根据权利要求2所述的基于代价敏感和半监督分类的客户分类方法,其特征在于,所述步骤S21包括:
S211.设定阈值k,阈值k表示想从无类别标签数据集U标记的样本占无类别标签数据集U中全部样本的百分比;计算选择性标记样本集Q与无类别标签数据集U的样本百分比b=size(Q)/m,size表示用来计算Q中样本个数的函数,m为无类别标签数据集U的初始样本个数,选择性标记样本集Q初始为空;
S212.判断样本百分比b与样本百分比k的大小,若b≤k,则执行步骤S213,若b>k,则执行步骤S22;
S213.使用随机子空间法从有类别标签数据集L中抽取三个特征子集,并映射得到三个训练子集,使用代价敏感的SVM训练得到三个中间分类模型CS';
S214.分别使用三个中间分类模型CS'来预测无类别标签数据集U中全部样本的类别标签,并将三个中间分类模型CS'预测一致的样本放置在候选集Uj中;若候选集Uj为空,则执行步骤S213,否则从候选集Uj中根据有类别标签数据集L中初始的正负样本比例选取概率输出值Probi1大于标记阈值θ1的正类样本和概率输出值Probi1小于标记阈值θ2的负类样本作为选择性标记样本添加到有类别标签数据集L和选择性标记样本集Q中,并将该选择性标记样本从无类别标签数据集U中剔除。
4.根据权利要求3所述的基于代价敏感和半监督分类的客户分类方法,其特征在于,所述基于代价敏感和半监督分类的客户分类方法还包括设置基本分类模型CS的数量N、标记阈值θ1和标记阈值θ2的步骤。
5.根据权利要求4所述的基于代价敏感和半监督分类的客户分类方法,其特征在于,所述标记阈值θ1的值为1,所述标记阈值θ2的值为-1。
6.基于代价敏感和半监督分类的客户分类装置,其特征在于,包括:
数据获取模块,用于取有类别标签数据集L、无类别标签数据集U和测试集Test;
随机子空间模块,用于对有类别标签数据集L和无类别标签数据集U采用随机子空间法训练N个基本分类模型CS;
分类模块,用于分别使用N个基本分类模型CS对测试集Test中的样本进行分类,得到N个中间分类结果R1,R2,...,RN;
投票集成模块,用于对N个中间分类结果R1,R2,...,RN使用多数投票集成得到最终分类结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川大学,未经四川大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810258062.0/1.html,转载请声明来源钻瓜专利网。