[发明专利]一种面向大规模异构数据的联合聚类方法有效

专利信息
申请号: 201510054469.8 申请日: 2015-02-02
公开(公告)号: CN104636454B 公开(公告)日: 2018-04-17
发明(设计)人: 杨武;申国伟;王巍;苘大鹏;玄世昌 申请(专利权)人: 哈尔滨工程大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 暂无信息 代理人: 暂无信息
地址: 150001 黑龙江省哈尔滨市南岗区*** 国省代码: 黑龙江;23
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 面向 大规模 数据 联合 方法
【说明书】:

技术领域

发明属于互联网信息挖掘领域,尤其涉及能够降低大规模异构数据的稀疏性的,一种面向大规模异构数据的联合聚类方法。

背景技术

随着微博、社交网络等异构信息网络的兴起,异构信息挖掘已经成为当前数据挖掘领域中的一个研究热点。异构网络中包含多类实体,实体之间存在着复杂的交互关系。例如微博中包含用户、消息、标签、词等实体,用户发布消息,消息由词语组成,消息中还包含标签等。通过抽取实体间的关系数据进行联合聚类分析,能够挖掘出异构网络中不同实体间的潜在结构关系。

非负矩阵分解在联合聚类算法中取得了很好的效果,但是数据本身的几何结构会影响聚类的准确性。特别是在处理大规模异构数据时,当异构数据规模增大时,关系数据结构呈现明显变化。主要表现出如下两方面的问题:

(1)非平衡问题:待分析的异构数据规模增大时,异构数据中不同类实体的规模并不呈现统一的增长模式。例如微博消息数量成线性增长时,用户、词和标签等实体并不呈现线性增长模式。传统的非负矩阵分解方法的时间复杂度都与矩阵的行和列规模相关,因此处理大规模数据时计算时间复杂度较高。

(2)稀疏性问题:真实异构网络中的关系数据比较稀疏,随着待分析异构数据规模进一步增大时,关系数据变得异常稀疏。例如微博中的消息内容最多包含140个字,构建的消息和词之间的关系矩阵非常稀疏。当消息规模进一步增大时,由于中文常用词的数量是一定的,因此消息和词之间的关系矩阵变得异常稀疏,消息和用户、标签的关系矩阵同样如此。传统的非负矩阵分解方法针对异常稀疏的关系矩阵进行分解时效果并不理想。

发明内容

本发明的目的是提供能够降低大规模异构数据的稀疏性的,一种面向大规模异构数据的联合聚类方法。

本发明是通过以下技术方案实现的:

一种面向大规模异构数据的联合聚类方法,包括以下步骤,

步骤一:从异构数据中抽取实体以及实体间的异质关系,建立二部图,得到异质关系矩阵R;

步骤二:从将异质关系矩阵R对应的两个实体中选择规模小的实体X2,以实体X2的关联关系构建关联矩阵C;

步骤三:采用对称矩阵稀疏分解法对关联矩阵C进行分解,得到实体X2对应的聚类指示矩阵B;

步骤四:将实体X2对应的聚类指示矩阵B作为输入,对异质关系矩阵R进行三分解,得到实体X1对应的聚类指示矩阵F,通过实体X1对应的聚类指示矩阵F和实体X2对应的聚类指示矩阵B,实现实体类别划分。

本发明一种面向大规模异构数据的联合聚类方法,还可以包括:

1、得到异质关系矩阵R的方法为:

步骤一:从异构数据中抽取待分析的实体,统计实体在异构数据中出现的频次,删除频次小于或者等于2次的实体;

步骤二:从剩余的实体中抽取任意两个实体之间的异质关系,建立二部图G=(V,E,ω),其中V=X1∪X2,X1和X2为异构关系中的两类实体,实体X1和X2的数量分别为m和n,E为异构关系对应的边,ω为边的权重;

步骤三:将二部图表示成m×n的关系矩阵,得到异质关系矩阵R。

2、关联矩阵C为:

C=WWT

其中,W为关联强度矩阵,Wi,j为实体X2中任意两个实体xi,xj的关联关系,

其中,N(wi,wj)为X2中的实体xi,xj基于X1中实体同时出现的次数。

3、求得实体X2对应的聚类指示矩阵B的方法为:

采用对称矩阵稀疏分解法对关联矩阵C进行分解,得到矩阵B:

对矩阵B进行二元化,使B中每一行的最大值对应的聚类结果为1,其余对应的都为0,得到实体X2对应的聚类指示矩阵B。

4、得到实体X1对应的聚类指示矩阵F的方法为:

建立目标函数:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工程大学,未经哈尔滨工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201510054469.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top