[发明专利]一种基于聚类的多标签不平衡生物医学数据分类方法有效
申请号: | 201611115834.2 | 申请日: | 2016-12-07 |
公开(公告)号: | CN106599913B | 公开(公告)日: | 2019-08-06 |
发明(设计)人: | 王进;卜亚楠;欧阳卫华;谢水宁;孙开伟;张登峰;王科;李智星;陈乔松;邓欣;胡峰;雷大江 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G16H50/20 |
代理公司: | 北京同恒源知识产权代理有限公司 11275 | 代理人: | 廖曦 |
地址: | 400065 *** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 标签 不平衡 生物医学 数据 分类 方法 | ||
本发明涉及一种基于聚类的多标签不平衡生物医学数据分类方法,包括以下步骤:S101对标签不均衡的数据根据特征相似度和标签关联性定义关系矩阵;S102根据关联矩阵对数据进行聚类;S103对每个类簇中的不平衡标签进行有方向性的增加;S104对每个类簇中的数据用多标签分类器进行训练学习;S105根据投票原则把每个分类器的结果进行合并,预测出标签。本发明通过层次聚类方法对数据进行聚类,并且在聚类时考虑标签关联性来降低簇内标签的不平衡性,从而提高重采样方法生成新数据的可靠性,降低噪声数据的概率。
技术领域
本发明涉及多标签技术领域,尤其涉及一种基于聚类的多标签不平衡生物医学数据分类方法。
背景技术
多标签学习可以称为监督学习的一个范式。不同于二分类问题,多标签学习允许样本有多个类别。但也不同于多分类问题,多标签学习允许一个对象同时属于多个类别。对于多标签样本数据分类表示为某一个样本数据含有多个标记的标签,整个样本数据集被标记成q维的多标签空间,每一个数据样本的特征向量表示为xi,标签向量标记为di={di1,di2,…,diq},其中dir∈{0,1},1≤r≤q,表示对于每一个样本数据,标签存在相同的标记,1为此样本数据含有这个标记的标签,0为此样本数据不含有这个标记的标签。多标签对于单标签的优势在于多标签考虑到了标签之间的关联性问题,对于一条数据来说,可以被标记多个标签属性。目前,多标签数据在当前的许多应用领域大量存在,比如生物医学、文本分类、图像分析和情感分析等。
由于数据量爆炸式的增长使数据集内部结构变得越来越复杂,数据类别分类不均导致了不平衡数据集的出现。对于多标签二分类问题,不平衡数据集中样本数量多的类别(本发明设其标签值为0)在数据集中占领支配地位,直接或间接影响分类系统对样本数量少的类别(本发明设其标签值为1)的决策和分类。不平衡数据分类问题旨在解决类别分布不平衡对分类系统的影响,从数据和算法两个方面提高分类系统对不平衡数据的分类能力。不平衡数据分类问题的难点在于数据不平衡导致传统机器学习算法性能下降,这是由于大多数传统的机器学习算法都假定数据集中不同类别基本趋于平衡,或者不同类别具有相同的错分代价。因为,这类算法在处理复杂的多标签不平衡数据分类问题时,构造的分类系统不能很好地拟合数据集的类别分布,进而导致了较差的分类效果。这种类别不平衡的情况广泛存在于各个应用领域,包括医疗数据分类、石油溢出探测和欺诈检测等等。生物医学数据分类是多标签不平衡数据分类的一个重要的研究点,这类数据由于数据样本本身比较少,或者收集某些类别的样本数据比较困难,甚至要付出高昂的成本,因而大部分数据集类别分布都不平衡。实际应用中,人们常常更关注不平衡数据集中的正类样本,因为这类样本分类错误后会产生更高的错分代价,生物医学数据正是如此,将疾病患者误诊为健康病例会耽误患者的治疗时间,有时甚至会付出生命的代价。目前,不平衡生物医学数据的处理方法主要通过将数据集划分为均衡的训练集和不平衡的测试集,从而一定程度上克服传统分类算法对负类的倾向性。
发明内容
有鉴于此,本发明的目的在于提供一种基于聚类的多标签不平衡生物医学数据分类方法,旨在解决大多数传统分类器在多标签不平衡生物医学数据分类性能方面存在误差的问题。本发明对数据进行有方向性的重采样,对于传统的重采样更加具有针对性,降低产生噪声数据的影响。
本发明的目的是通过以下技术方案来实现的,一种基于聚类的多标签不平衡生物医学数据分类方法,包括以下步骤:S101对标签不均衡的数据根据特征相似度和标签关联性定义关联矩阵;S102根据关联矩阵对数据进行聚类;S103对每个类簇中的不平衡标签进行有方向性的增加;S104对每个类簇中的数据用多标签分类器进行训练学习;S105根据投票原则把每个分类器的结果进行合并,预测出标签。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611115834.2/2.html,转载请声明来源钻瓜专利网。