[发明专利]一种基于聚类的多标签不平衡生物医学数据分类方法有效
申请号: | 201611115834.2 | 申请日: | 2016-12-07 |
公开(公告)号: | CN106599913B | 公开(公告)日: | 2019-08-06 |
发明(设计)人: | 王进;卜亚楠;欧阳卫华;谢水宁;孙开伟;张登峰;王科;李智星;陈乔松;邓欣;胡峰;雷大江 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G16H50/20 |
代理公司: | 北京同恒源知识产权代理有限公司 11275 | 代理人: | 廖曦 |
地址: | 400065 *** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 标签 不平衡 生物医学 数据 分类 方法 | ||
1.一种基于聚类的多标签不平衡生物医学数据分类方法,其特征在于:包括以下步骤:
S101对标签不均衡的数据根据特征相似度和标签相似度定义关联矩阵;
S102根据关联矩阵对数据进行聚类;
S103对每个类簇中的不平衡标签进行有方向性的增加;
S104对每个类簇中的数据用多标签分类器进行训练学习;
S105根据投票原则把每个分类器的结果进行合并,预测出标签。
2.根据权利要求1所述的一种基于聚类的多标签不平衡生物医学数据分类方法,其特征在于:所述关联矩阵的定义包括以下子步骤:
S1011根据传统的欧氏距离来计算样本数据特征之间的关联度定义特征相似度;
S1012根据汉明距离来计算样本数据标签之间的关联度定义标签相似度;
S1013通过特征相似度和标签相似度定义关联矩阵,根据如下公式(1)定义计算关联矩阵Lij;
其中,Lij表示为第i条样本数据和第j条样本数据在关联矩阵中对应的值,n、p、q代表测试样本个数,dnp表示的是第n条样本数据与第p条样本数据的特征相似度,ξnq表示的是第n条样本数据与第q条样本数据的标签相似度,W1和W2分别表示特征相似度和标签相似度的占有比的阈值。
3.根据权利要求2所述的一种基于聚类的多标签不平衡生物医学数据分类方法,其特征在于:在步骤S102中,采用层次聚类方式对数据进行聚类,当每个类簇中的标签满足一定结束条件时,聚类停止;结束的判断方法为:
判断样本数据集的MeanIR是否大于1.5,并且样本数据个数大于生成数据个数占有整体的一个阈值限定T2;或者x是否大于S/T2,MeanIR表示的是样本数据的不平衡程度值,x表示某一个均衡标签的生成数据,S表示原来该簇的大小。
4.根据权利要求3所述的一种基于聚类的多标签不平衡生物医学数据分类方法,其特征在于:所述步骤S103具体包括以下子步骤:
S1031根据不平衡多标签的定义公式,对于每个数据进行判断,判定哪些标签为不平衡标签,挑选出所有含有不平衡标签的数据集,
S1032在此数据集中随机选取一条数据,
S1033根据欧氏距离找到最近的k条数据,对数据进行重采样;重采样的新数据特征由k+1个样本数据的每个特征分别求平均来产生,重采样的新数据标签由k+1个样本数据的每个标签根据多数投票原则产生。
5.根据权利要求4所述的一种基于聚类的多标签不平衡生物医学数据分类方法,其特征在于:对于一个新的测试样本数据,计算测试样本数据与每个簇类样本特征之间的距离,把这个距离作为下一步进行投票原则的权重(W1,W2,…,Wn/2),采用投票原则对测试数据的标签进行预测,具体步骤为:选取距离最近的前n/2个簇,把测试样本数据集放进距离最近的前n/2个簇训练学习的分类器中,对于每一个簇分类器输出一个结果,根据如下公式(8)来计算测试数据每个标签预测的值;
其中Φ(xi)表示根据每一个分类器预测出的标签,wi为权重,i表示第i条样本数据,n表示总共有多少个簇。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611115834.2/1.html,转载请声明来源钻瓜专利网。