[发明专利]一种面向大规模异构数据的联合聚类方法有效
申请号: | 201510054469.8 | 申请日: | 2015-02-02 |
公开(公告)号: | CN104636454B | 公开(公告)日: | 2018-04-17 |
发明(设计)人: | 杨武;申国伟;王巍;苘大鹏;玄世昌 | 申请(专利权)人: | 哈尔滨工程大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 150001 黑龙江省哈尔滨市南岗区*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 大规模 数据 联合 方法 | ||
技术领域
本发明属于互联网信息挖掘领域,尤其涉及能够降低大规模异构数据的稀疏性的,一种面向大规模异构数据的联合聚类方法。
背景技术
随着微博、社交网络等异构信息网络的兴起,异构信息挖掘已经成为当前数据挖掘领域中的一个研究热点。异构网络中包含多类实体,实体之间存在着复杂的交互关系。例如微博中包含用户、消息、标签、词等实体,用户发布消息,消息由词语组成,消息中还包含标签等。通过抽取实体间的关系数据进行联合聚类分析,能够挖掘出异构网络中不同实体间的潜在结构关系。
非负矩阵分解在联合聚类算法中取得了很好的效果,但是数据本身的几何结构会影响聚类的准确性。特别是在处理大规模异构数据时,当异构数据规模增大时,关系数据结构呈现明显变化。主要表现出如下两方面的问题:
(1)非平衡问题:待分析的异构数据规模增大时,异构数据中不同类实体的规模并不呈现统一的增长模式。例如微博消息数量成线性增长时,用户、词和标签等实体并不呈现线性增长模式。传统的非负矩阵分解方法的时间复杂度都与矩阵的行和列规模相关,因此处理大规模数据时计算时间复杂度较高。
(2)稀疏性问题:真实异构网络中的关系数据比较稀疏,随着待分析异构数据规模进一步增大时,关系数据变得异常稀疏。例如微博中的消息内容最多包含140个字,构建的消息和词之间的关系矩阵非常稀疏。当消息规模进一步增大时,由于中文常用词的数量是一定的,因此消息和词之间的关系矩阵变得异常稀疏,消息和用户、标签的关系矩阵同样如此。传统的非负矩阵分解方法针对异常稀疏的关系矩阵进行分解时效果并不理想。
发明内容
本发明的目的是提供能够降低大规模异构数据的稀疏性的,一种面向大规模异构数据的联合聚类方法。
本发明是通过以下技术方案实现的:
一种面向大规模异构数据的联合聚类方法,包括以下步骤,
步骤一:从异构数据中抽取实体以及实体间的异质关系,建立二部图,得到异质关系矩阵R;
步骤二:从将异质关系矩阵R对应的两个实体中选择规模小的实体X2,以实体X2的关联关系构建关联矩阵C;
步骤三:采用对称矩阵稀疏分解法对关联矩阵C进行分解,得到实体X2对应的聚类指示矩阵B;
步骤四:将实体X2对应的聚类指示矩阵B作为输入,对异质关系矩阵R进行三分解,得到实体X1对应的聚类指示矩阵F,通过实体X1对应的聚类指示矩阵F和实体X2对应的聚类指示矩阵B,实现实体类别划分。
本发明一种面向大规模异构数据的联合聚类方法,还可以包括:
1、得到异质关系矩阵R的方法为:
步骤一:从异构数据中抽取待分析的实体,统计实体在异构数据中出现的频次,删除频次小于或者等于2次的实体;
步骤二:从剩余的实体中抽取任意两个实体之间的异质关系,建立二部图G=(V,E,ω),其中V=X1∪X2,X1和X2为异构关系中的两类实体,实体X1和X2的数量分别为m和n,E为异构关系对应的边,ω为边的权重;
步骤三:将二部图表示成m×n的关系矩阵,得到异质关系矩阵R。
2、关联矩阵C为:
C=WWT,
其中,W为关联强度矩阵,Wi,j为实体X2中任意两个实体xi,xj的关联关系,
其中,N(wi,wj)为X2中的实体xi,xj基于X1中实体同时出现的次数。
3、求得实体X2对应的聚类指示矩阵B的方法为:
采用对称矩阵稀疏分解法对关联矩阵C进行分解,得到矩阵B:
对矩阵B进行二元化,使B中每一行的最大值对应的聚类结果为1,其余对应的都为0,得到实体X2对应的聚类指示矩阵B。
4、得到实体X1对应的聚类指示矩阵F的方法为:
建立目标函数:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工程大学,未经哈尔滨工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510054469.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种信息推送前推送列表的去重方法
- 下一篇:一种数据库的加解密方法及装置
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置