[发明专利]基于集成学习的多标签分类方法在审
申请号: | 201710178952.6 | 申请日: | 2017-03-23 |
公开(公告)号: | CN106971201A | 公开(公告)日: | 2017-07-21 |
发明(设计)人: | 胡军;程龙;欧阳卫华 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 重庆华科专利事务所50123 | 代理人: | 谭小琴 |
地址: | 400065 *** | 国省代码: | 重庆;85 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 集成 学习 标签 分类 方法 | ||
技术领域
本发明涉及智能信息处理的技术领域,具体涉及一种基于集成学习的多标签分类方法。
背景技术
现如今的人类生活在一个信息大爆炸的时代,从复杂信息中定位自己需求信息的要求也在不断提高。多标签分类就是这样一种技术,它可以为人们将信息准确的分门别类,从而在一系列的标签信息中就可以获取该信息的精华部分。与传统的单标签分类技术不同的是,单标签分类只能解决是与否的问题,比如说电影是否好看,一本书是否是小说等等;而多标签分类技术则能提供更高精度的信息描述,电影可以用历史、战争、爱情、明星等标签同时描述,书可以用小说,推理,福尔摩斯,密室等标签来标记。
多标签分类学习的定义:
假设X=Rd表示d维实例空间,Y={y1,y2,...,yq}表示有q个类标签的标签空间;
多标签学习的目标就是从多标签训练集D={(Xi,Yi)|1≤i≤m}中学习映射函数h:X→2Y;
对于每一个学习样本(Xi,Yi),Xi∈X是一个d维的特征向量,而是与之对应的标签集。
多标签分类技术主要有两类:一种是问题转化方法,它通过将现有的多标签问题转化多个单标签问题来解决;一种是算法适应方法,它用传统的机器学习算法直接处理多标签问题。
现有技术说明:
RAkEL算法是一种算法适应算法,主要思想是集成学习,它有三个参数m、k、t,分两步步完成。第一步从训练数据集中的L个标签中得到个标签子集,取)个标签子集获取训练子集,每个训练子集使用LP分类器进行训练,得到个基分类器;第二步,在集成阶段,通过基分类器训练得到结果中每个标签的支持比率与t进行比较,确定最终的分类结果。
发明内容
针对上述技术中存在的不足之处,本发明提供一种能提升集成效果的基于集成学习的多标签分类方法。
为了达到上述目的,本发明一种基于集成学习的多标签分类方法,包括以下步骤:
A1、预先设置参数m,k,t,其中:m表示基分类器的个数,k表示基分类器中训练集标签个数,t表示在集成阶段分类器判断是否含有标签的阈值;
A2、对原始训练样本集进行聚类,根据聚类结果计算标签的重要性程度;
A3、依据标签重要性程度,从原始训练集中获取m个训练集学习基分类器;
A4、将基分类器的训练结果进行集成,得到最终的分类结果。
所述步骤A2中,标签重要性的计算方法为:
A21、通过聚类得到样本所属类簇以及类簇数|C|=n,其聚类结果可用集合的方式表达C={c1,c2,...,cn};
A22、计算每个标签对任意类簇的表达能力pij,其中|Yij|表示在类簇cj中含有标签i的样本数,|cj|表示类簇cj中样本的总数,|Yi|表示在原始样本中含有标签i的样本数,|Di|表示样本总数;
A23、计算每个标签对类簇的表达的能力的离差ei,即标签重要性,公式为:
A24、进行归一化
所述步骤A3中,学习基分类器的方法为:
A31、依据Ei值的大小即标签重要性的大小从原始标签集中非等概率的获得m个k大小的标签子集Ym,要求
A32、每个标签子集Ym对应含有该标签子集的样本组成的集合为基分类器的训练集Dm;
A33、使用LP分类器学习训练集Dm,得到m个基分类器h1,h2,…,hm。
所述步骤A4中,集成的过程具体为:
A41、对于测试样本,任意标签Yi,统计基分类器hm中学习过标签Yi的基分类器个数Sumi,并统计认为样本含有Yi的基分类器个数Votei;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710178952.6/2.html,转载请声明来源钻瓜专利网。