[发明专利]基于集成学习的多标签分类方法在审

申请号：	201710178952.6	申请日：	2017-03-23
公开（公告）号：	CN106971201A	公开（公告）日：	2017-07-21
发明（设计）人：	胡军;程龙;欧阳卫华	申请（专利权）人：	重庆邮电大学
主分类号：	G06K9/62	分类号：	G06K9/62
代理公司：	重庆华科专利事务所50123	代理人：	谭小琴
地址：	400065 ***	国省代码：	重庆;85
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于集成学习标签分类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及智能信息处理的技术领域，具体涉及一种基于集成学习的多标签分类方法。

背景技术

现如今的人类生活在一个信息大爆炸的时代，从复杂信息中定位自己需求信息的要求也在不断提高。多标签分类就是这样一种技术，它可以为人们将信息准确的分门别类，从而在一系列的标签信息中就可以获取该信息的精华部分。与传统的单标签分类技术不同的是，单标签分类只能解决是与否的问题，比如说电影是否好看，一本书是否是小说等等；而多标签分类技术则能提供更高精度的信息描述，电影可以用历史、战争、爱情、明星等标签同时描述，书可以用小说，推理，福尔摩斯，密室等标签来标记。

多标签分类学习的定义：

假设X＝R^d表示d维实例空间，Y＝{y₁,y₂,...,y_q}表示有q个类标签的标签空间；

多标签学习的目标就是从多标签训练集D＝{(X_i,Y_i)|1≤i≤m}中学习映射函数h:X→2^Y；

对于每一个学习样本(X_i，Y_i)，X_i∈X是一个d维的特征向量，而是与之对应的标签集。

多标签分类技术主要有两类：一种是问题转化方法，它通过将现有的多标签问题转化多个单标签问题来解决；一种是算法适应方法，它用传统的机器学习算法直接处理多标签问题。

现有技术说明：

RAkEL算法是一种算法适应算法，主要思想是集成学习，它有三个参数m、k、t，分两步步完成。第一步从训练数据集中的L个标签中得到个标签子集，取)个标签子集获取训练子集，每个训练子集使用LP分类器进行训练，得到个基分类器；第二步，在集成阶段，通过基分类器训练得到结果中每个标签的支持比率与t进行比较，确定最终的分类结果。

发明内容

针对上述技术中存在的不足之处，本发明提供一种能提升集成效果的基于集成学习的多标签分类方法。

为了达到上述目的，本发明一种基于集成学习的多标签分类方法，包括以下步骤：

A1、预先设置参数m，k，t，其中：m表示基分类器的个数，k表示基分类器中训练集标签个数，t表示在集成阶段分类器判断是否含有标签的阈值；

A2、对原始训练样本集进行聚类，根据聚类结果计算标签的重要性程度；

A3、依据标签重要性程度，从原始训练集中获取m个训练集学习基分类器；

A4、将基分类器的训练结果进行集成，得到最终的分类结果。

所述步骤A2中，标签重要性的计算方法为:

A21、通过聚类得到样本所属类簇以及类簇数|C|＝n，其聚类结果可用集合的方式表达C＝{c₁，c₂,...,c_n}；

A22、计算每个标签对任意类簇的表达能力p_ij，其中|Y_ij|表示在类簇cj中含有标签i的样本数，|c_j|表示类簇cj中样本的总数，|Y_i|表示在原始样本中含有标签i的样本数，|D_i|表示样本总数；

A23、计算每个标签对类簇的表达的能力的离差e_i，即标签重要性，公式为：

A24、进行归一化