[发明专利]一种基于聚类的多标签不平衡生物医学数据分类方法有效

申请号：	201611115834.2	申请日：	2016-12-07
公开（公告）号：	CN106599913B	公开（公告）日：	2019-08-06
发明（设计）人：	王进;卜亚楠;欧阳卫华;谢水宁;孙开伟;张登峰;王科;李智星;陈乔松;邓欣;胡峰;雷大江	申请（专利权）人：	重庆邮电大学
主分类号：	G06K9/62	分类号：	G06K9/62;G16H50/20
代理公司：	北京同恒源知识产权代理有限公司 11275	代理人：	廖曦
地址：	400065 ***	国省代码：	重庆;50
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于标签不平衡生物医学数据分类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于聚类的多标签不平衡生物医学数据分类方法，其特征在于：包括以下步骤：

S101对标签不均衡的数据根据特征相似度和标签相似度定义关联矩阵；

S102根据关联矩阵对数据进行聚类；

S103对每个类簇中的不平衡标签进行有方向性的增加；

S104对每个类簇中的数据用多标签分类器进行训练学习；

S105根据投票原则把每个分类器的结果进行合并，预测出标签。

2.根据权利要求1所述的一种基于聚类的多标签不平衡生物医学数据分类方法，其特征在于：所述关联矩阵的定义包括以下子步骤：

S1011根据传统的欧氏距离来计算样本数据特征之间的关联度定义特征相似度；

S1012根据汉明距离来计算样本数据标签之间的关联度定义标签相似度；

S1013通过特征相似度和标签相似度定义关联矩阵，根据如下公式(1)定义计算关联矩阵L_ij；

其中，L_ij表示为第i条样本数据和第j条样本数据在关联矩阵中对应的值，n、p、q代表测试样本个数，d_np表示的是第n条样本数据与第p条样本数据的特征相似度，ξ_nq表示的是第n条样本数据与第q条样本数据的标签相似度，W₁和W₂分别表示特征相似度和标签相似度的占有比的阈值。

3.根据权利要求2所述的一种基于聚类的多标签不平衡生物医学数据分类方法，其特征在于：在步骤S102中，采用层次聚类方式对数据进行聚类，当每个类簇中的标签满足一定结束条件时，聚类停止；结束的判断方法为：

判断样本数据集的MeanIR是否大于1.5，并且样本数据个数大于生成数据个数占有整体的一个阈值限定T2；或者x是否大于S/T2，MeanIR表示的是样本数据的不平衡程度值，x表示某一个均衡标签的生成数据，S表示原来该簇的大小。

4.根据权利要求3所述的一种基于聚类的多标签不平衡生物医学数据分类方法，其特征在于：所述步骤S103具体包括以下子步骤：

S1031根据不平衡多标签的定义公式，对于每个数据进行判断，判定哪些标签为不平衡标签，挑选出所有含有不平衡标签的数据集，

S1032在此数据集中随机选取一条数据，

S1033根据欧氏距离找到最近的k条数据，对数据进行重采样；重采样的新数据特征由k+1个样本数据的每个特征分别求平均来产生，重采样的新数据标签由k+1个样本数据的每个标签根据多数投票原则产生。

5.根据权利要求4所述的一种基于聚类的多标签不平衡生物医学数据分类方法，其特征在于：对于一个新的测试样本数据，计算测试样本数据与每个簇类样本特征之间的距离，把这个距离作为下一步进行投票原则的权重(W₁,W₂,…,W_n/2)，采用投票原则对测试数据的标签进行预测，具体步骤为：选取距离最近的前n/2个簇，把测试样本数据集放进距离最近的前n/2个簇训练学习的分类器中，对于每一个簇分类器输出一个结果，根据如下公式(8)来计算测试数据每个标签预测的值；

其中Φ(x_i)表示根据每一个分类器预测出的标签，w_i为权重，i表示第i条样本数据，n表示总共有多少个簇。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于重庆邮电大学，未经重庆邮电大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201611115834.2/1.html，转载请声明来源钻瓜专利网。

上一篇：一种基于动态时间规整均值的矢量聚类方法
下一篇：一种多传感器融合的腕式跌倒检测方法及装置

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于聚类的多标签不平衡生物医学数据分类方法有效

专利文献下载