[发明专利]基于时序文本网络的社区检测与用户关系预测方法有效
申请号: | 201710624691.6 | 申请日: | 2017-07-27 |
公开(公告)号: | CN107480213B | 公开(公告)日: | 2021-12-24 |
发明(设计)人: | 贾雨葶;黄颖;吴昊;李杰锋;王睿杰;苏靖超;刘萌欣;洪逸宁;王嘉璐;傅洛伊;王新兵 | 申请(专利权)人: | 上海交通大学 |
主分类号: | G06F16/9536 | 分类号: | G06F16/9536;G06F16/35;G06Q50/00 |
代理公司: | 上海汉声知识产权代理有限公司 31236 | 代理人: | 郭国中 |
地址: | 200240 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 时序 文本 网络 社区 检测 用户 关系 预测 方法 | ||
本发明公开了一种基于时序文本网络的社区检测与用户关系预测方法,包括:基于原始数据构建时序文本网络;针对时序文本网络,构建基于关系图模型的生成模型;利用梯度下降法构建生成模型的推断过程;根据模型的推断过程,对时序文本网络进行训练,提取出社区信息以及社区间的关系;根据提取出的社区信息,进行网络节点间的连接预测。本发明构建了全新的社区检测方法,并提出了社区相关度的概念,大幅提升了社区检测的准确性和解释性。
技术领域
本发明涉及到时序文本网络探社区检测领域,具体地,涉及一种基于时序文本网络的社区检测与用户关系预测方法。
背景技术
网络是一个强大的语言,它能够阐释社会、自然以及学术领域中的数据关系。一个理解网络的方法是定义和分析一组有着相同属性的节点。这样的一组节点可以被解释为社交网络中的组织单位,或者引用网络中的相同领域。探测社区问题就是在网络中寻找这样的一组节点的研究任务。传统的方法大都基于一个节点只属于一个社区这个假设,集中寻找离散社区。那么在除去这个假设的情况下,交叉社区检测问题变得越来越普遍并在最近引起了越来越多的关注。
尽管在过去网络中的交叉多等级社区问题已经被讨论过,但在一个大的网络中定义一个有意义的社区网络依旧是个艰难的任务。大多数方法很难应用于大型网络,并且在缺少有信服力的标准情况下,对检测出的社区进行评估极其困难。因此,尽管网络问题已经被广泛的研究,小型网络中的社区的存在和特性已经被熟知,在特大型网络中定义交叉社区的方法依旧不甚清晰。
探测重叠社区一般有两种形式的信息可以利用。第一种是链型结构,例如边的有无。经典方法大都集中于这种形式的信息,并致力于获取一组节点,这些节点之间的连接相比于外部网络而言更为紧密。第二种是节点属性,包括在线的用户档案,预先存在的蛋白质功能和论文的文本内容。由于链接结构中普遍存在的噪音,同时基于这两种方法检测社区信息的方法已经越来越受欢迎。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种基于时序文本网络的社区检测与用户关系预测方法,研究在时序文本网络中探测交叉社区的问题,在时序文本网络识别有意义的社区为后续应用开发提供了有用的知识。
为实现上述目的,本发明是根据以下技术方案实现的:
一种基于时序文本网络的社区检测与用户关系预测方法,包括如下步骤:
步骤S1:基于原始数据构建时序文本网络;
步骤S2:针对时序文本网络,构建基于关系图模型的生成模型;
步骤S3:利用梯度下降法构建生成模型的推断过程;
步骤S4:根据模型的推断过程,对时序文本网络进行训练,提取出社区信息以及社区间的关系,其中社区指表现出较高相关性的点的集合,社区间的关系指的是社区之间的相似度;
步骤S5:根据提取出的社区信息,进行网络节点间的连接预测。
上述技术方案中,所述步骤S1包括:
步骤S101:将顶点集V设为空集,将边集E设为空集;
步骤S102:将原始数据集中的每一篇文章加到顶点集V中;
步骤S103:顶点集V中的每一篇文章对应一个标签T,该标签是指每一篇文章的发表时间;
步骤S104:将原始数据集中文章间的链接关系加到边集E中;
步骤S105:(V,E;T)的集合构成图G,图G为时序文本网络。
上述技术方案中,所述步骤S2包括:
步骤S201:定义节点u与节点v之间通过社区i、j产生连接的概率:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学,未经上海交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710624691.6/2.html,转载请声明来源钻瓜专利网。