[发明专利]基于时序文本网络的社区检测与用户关系预测方法有效

申请号：	201710624691.6	申请日：	2017-07-27
公开（公告）号：	CN107480213B	公开（公告）日：	2021-12-24
发明（设计）人：	贾雨葶;黄颖;吴昊;李杰锋;王睿杰;苏靖超;刘萌欣;洪逸宁;王嘉璐;傅洛伊;王新兵	申请（专利权）人：	上海交通大学
主分类号：	G06F16/9536	分类号：	G06F16/9536;G06F16/35;G06Q50/00
代理公司：	上海汉声知识产权代理有限公司 31236	代理人：	郭国中
地址：	200240 ***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于时序文本网络社区检测用户关系预测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于时序文本网络的社区检测与用户关系预测方法，包括：基于原始数据构建时序文本网络；针对时序文本网络，构建基于关系图模型的生成模型；利用梯度下降法构建生成模型的推断过程；根据模型的推断过程，对时序文本网络进行训练，提取出社区信息以及社区间的关系；根据提取出的社区信息，进行网络节点间的连接预测。本发明构建了全新的社区检测方法，并提出了社区相关度的概念，大幅提升了社区检测的准确性和解释性。

技术领域

本发明涉及到时序文本网络探社区检测领域，具体地，涉及一种基于时序文本网络的社区检测与用户关系预测方法。

背景技术

网络是一个强大的语言，它能够阐释社会、自然以及学术领域中的数据关系。一个理解网络的方法是定义和分析一组有着相同属性的节点。这样的一组节点可以被解释为社交网络中的组织单位，或者引用网络中的相同领域。探测社区问题就是在网络中寻找这样的一组节点的研究任务。传统的方法大都基于一个节点只属于一个社区这个假设，集中寻找离散社区。那么在除去这个假设的情况下，交叉社区检测问题变得越来越普遍并在最近引起了越来越多的关注。

尽管在过去网络中的交叉多等级社区问题已经被讨论过，但在一个大的网络中定义一个有意义的社区网络依旧是个艰难的任务。大多数方法很难应用于大型网络，并且在缺少有信服力的标准情况下，对检测出的社区进行评估极其困难。因此，尽管网络问题已经被广泛的研究，小型网络中的社区的存在和特性已经被熟知，在特大型网络中定义交叉社区的方法依旧不甚清晰。

探测重叠社区一般有两种形式的信息可以利用。第一种是链型结构，例如边的有无。经典方法大都集中于这种形式的信息，并致力于获取一组节点，这些节点之间的连接相比于外部网络而言更为紧密。第二种是节点属性，包括在线的用户档案，预先存在的蛋白质功能和论文的文本内容。由于链接结构中普遍存在的噪音，同时基于这两种方法检测社区信息的方法已经越来越受欢迎。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种基于时序文本网络的社区检测与用户关系预测方法，研究在时序文本网络中探测交叉社区的问题，在时序文本网络识别有意义的社区为后续应用开发提供了有用的知识。

为实现上述目的，本发明是根据以下技术方案实现的：

一种基于时序文本网络的社区检测与用户关系预测方法，包括如下步骤：

步骤S1：基于原始数据构建时序文本网络；

步骤S2：针对时序文本网络，构建基于关系图模型的生成模型；

步骤S3：利用梯度下降法构建生成模型的推断过程；

步骤S4：根据模型的推断过程，对时序文本网络进行训练，提取出社区信息以及社区间的关系，其中社区指表现出较高相关性的点的集合，社区间的关系指的是社区之间的相似度；

步骤S5：根据提取出的社区信息，进行网络节点间的连接预测。

上述技术方案中，所述步骤S1包括：

步骤S101：将顶点集V设为空集，将边集E设为空集；

步骤S102：将原始数据集中的每一篇文章加到顶点集V中；