[发明专利]基于时序文本网络的社区检测与用户关系预测方法有效
申请号: | 201710624691.6 | 申请日: | 2017-07-27 |
公开(公告)号: | CN107480213B | 公开(公告)日: | 2021-12-24 |
发明(设计)人: | 贾雨葶;黄颖;吴昊;李杰锋;王睿杰;苏靖超;刘萌欣;洪逸宁;王嘉璐;傅洛伊;王新兵 | 申请(专利权)人: | 上海交通大学 |
主分类号: | G06F16/9536 | 分类号: | G06F16/9536;G06F16/35;G06Q50/00 |
代理公司: | 上海汉声知识产权代理有限公司 31236 | 代理人: | 郭国中 |
地址: | 200240 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 时序 文本 网络 社区 检测 用户 关系 预测 方法 | ||
1.一种基于时序文本网络的社区检测与用户关系预测方法,其特征在于,包括如下步骤:
步骤S1:基于原始数据构建时序文本网络;
步骤S2:针对时序文本网络,构建基于关系图模型的生成模型;
步骤S3:利用梯度下降法构建生成模型的推断过程;
步骤S4:根据模型的推断过程,对时序文本网络进行训练,提取出社区信息以及社区间的关系,其中社区指表现出较高相关性的点的集合,社区间的关系指的是社区之间的相似度;
步骤S5:根据提取出的社区信息,进行网络节点间的连接预测;
所述步骤S4包括:
步骤S401:从数据文件中读取数据,并根据步骤S1构建时序文本网络;
步骤S402:初始化用户与社区间的联系强度矩阵F;基于向网络中的导率模型,如果节点u的入邻居inN(u)有比所有点v∈outN(u)的入邻居inN(v)有更小的导率,则该入邻居inN(u)在邻近是最小的;对于属于一个在邻近最小的邻域k内的节点u′,初始化节点u′与一个社区k之间的联系强度Fu′k=1,否则令Fu′k=0;为了初始化η,设置主对角线上的项为0.9,其他项为0.1;
步骤S403:每轮次根据公式更新F与η,首先针对每个节点u,根据梯度公式更新节点u与所有社区之间的联系强度向量Fu,梯度公式如下:
其中inN(u)和outN(u)表示进入u节点和从u节点发出的节点的集合,Fu、Fv和Fv′分别表示u节点、v节点和v’节点与所有社区的连接强度的向量,η表示社区间的相似度的矩阵;ηT为对应的转置矩阵;
F更新完成后,根据梯度公式更新社区间的联系矩阵η,梯度公式如下:
其中E表示时序文本网络中所有边的集合;Fu、Fv和Fv′分别表示u节点、v节点和v’节点与所有社区的连接强度的向量;η表示社区间的相似度的矩阵;为对应的转置矩阵;(u→v)表示从点u指向点v的边;t(u)与t(v)分别表示点u与点v的时间戳;
步骤S404:经过一定轮次后,判定每个节点与社区间的隶属关系,针对每个社区k,设定一个阈值δk,具体设定方法如下:
其中N为节点总数;ηkk为社区间联系矩阵η第k行第k列的分量,对于节点u与社区k,若联系强度Fuk大于社区k的阈值δk,则认为节点u隶属于社区k。
2.根据权利要求1所述的基于时序文本网络的社区检测与用户关系预测方法,其特征在于,所述步骤S1包括:
步骤S101:将顶点集V设为空集,将边集E设为空集;
步骤S102:将原始数据集中的每一篇文章加到顶点集V中;
步骤S103:顶点集V中的每一篇文章对应一个标签T,该标签是指每一篇文章的发表时间;
步骤S104:将原始数据集中文章间的链接关系加到边集E中;
步骤S105:(V,E;T)的集合构成图G,图G为时序文本网络。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学,未经上海交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710624691.6/1.html,转载请声明来源钻瓜专利网。