[发明专利]一种基于蝴碟模型的主题-文档二分图网络聚类切割方法在审
申请号: | 202010436501.X | 申请日: | 2020-05-21 |
公开(公告)号: | CN111611381A | 公开(公告)日: | 2020-09-01 |
发明(设计)人: | 郑军;郑艺;吴可心 | 申请(专利权)人: | 北京理工大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/31;G06F16/953 |
代理公司: | 北京正阳理工知识产权代理事务所(普通合伙) 11639 | 代理人: | 王民盛 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 模型 主题 文档 二分 网络 切割 方法 | ||
本发明涉及一种基于蝴碟模型的主题‑文档二分图网络聚类切割方法,属于谱图理论中的图数据挖掘技术领域。包括:步骤1:计算出图G的主题邻接矩阵、主题度矩阵和拉普拉斯矩阵;步骤2:根据主题邻接矩阵构造出无向加权图;步骤3:计算主题拉普拉斯矩阵第二小特征值对应的特征向量及该特征向量的索引值,具体为:计算主题拉普拉斯矩阵第二小特征值对应的特征向量并输出从大到小排序的索引值;建立r个索引值集合;步骤4:分别计算索引值集合的电导率,其最小值对应的类即为所求聚类。针对二分图网络进行聚类切割;使用拉普拉斯矩阵特征向量,有较高的稠密度和可分离度;适用于加权、未加权、有向和无向的二分图,均有较好的效果,具有普适性。
技术领域
本发明涉及一种基于蝴碟模型的主题-文档二分图网络聚类切割方法,属于谱图理论中的图数据挖掘技术领域。
背景技术
随着人工智能应用的发展,知识图谱已广泛应用于智能搜索,智能问答,个性化推荐,智能分析等领域。在实际应用中,二分图是知识图谱的一种常见表示形式。例如,研究论文主题topic和论文paper之间的关系可以用图1中的二分图表示,其中研究主题形成一个顶点分区,论文集形成另一个顶点分区。每篇论文都与所涉及的主题通过边相连。此外,产品与制造商,论文与作者,演员和电影之间的关系都可以通过二分图网络来表示。由此可见,二部图是能表示实体之间的一对一,一对多和多对多关系的图,并且在网络分析中起着不可替代的作用。
在网络中找到密集的交互结构可以揭示不同实体之间的功能和关联。聚类切割是一个热门的研究主题,它是根据通用结构(例如网络主题motif)来对网络进行切割,得到一个由密集网络主题组成的网络子图。其中,网络主题是复杂网络的基本构建块。
先前的聚类研究集中于在普通图中基于边和主题的聚类切割方法。例如Hao Yin等人研究了复杂网络的边缘如何聚类的更全面。但由于边的内聚性不足以显示整个网络的构建结构,因此越来越多的研究通过网络主题图案来切割聚类。例如Jaewon Yang等人提出了一个新的范式来揭示复杂网络中不同模块的聚类;Alex Rodriguez等人提出了一种新的基于密度的聚类方法;Suraj Jain等人提出了SGC的聚类切割方法。这些研究都是应用于普通图中的聚类切割方法,却没有专门针对二分图的聚类切割。普通图中最常见的图案是小尺寸的团,比如三角形,但在图1的二分图中,我们看到并没有两个以上顶点的团,更没有三角形,因此在二分图中我们无法应用常用的三角形来进行聚类。在二分图中取而代之的是完整的2×2的双斜线结构,也称为butterfly蝴蝶。它是二分图中最小的子图,是内聚力的最小单位,并已用于定义基本度量,如二分图中的聚类系数。可以认为它在二分网络中起的作用与三角形在普通网络中起着相同的作用,都是复杂网络的基本构建块。因此在本发明中,我们选择蝴蝶作为二分图的基本主题。本发明以知识图谱中文章-主题的二分图网络为例,提出了一种基于蝴碟主题的二分图聚类方法,针对二分图网络的特点,切割出具有密集蝴碟图案的聚类。
发明内容
本发明的目的是针对二分图网络中没有聚类分割的技术现状,提出了一种基于蝴碟模型的主题-文档二分图网络聚类切割方法,借助于电导率计算公式和拉普拉斯矩阵特征向量,从输入的无向、不加权二分图G和主题-蝴碟M中,计算出最紧密的目标聚类S。
本发明的技术方案如下:
所述基于蝴碟模型的主题-文档二分图网络聚类切割方法,包括以下步骤:
步骤1:计算出图G的主题邻接矩阵WM、主题度矩阵DM和主题拉普拉斯矩阵LM;
其中,图G为主题-文档二分图;
步骤1.1:计算出图G的主题邻接矩阵WM;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010436501.X/2.html,转载请声明来源钻瓜专利网。