[发明专利]一种基于话题影响力渗流的语义社交网络社区发现方法有效

专利信息
申请号: 202011126371.6 申请日: 2020-10-20
公开(公告)号: CN112329473B 公开(公告)日: 2021-07-30
发明(设计)人: 杨海陆;任旺;张金;陈德运;王莉莉 申请(专利权)人: 哈尔滨理工大学
主分类号: G06F40/30 分类号: G06F40/30;G06F17/13;G06F17/15;G06F17/16;G06Q50/00
代理公司: 哈尔滨市阳光惠远知识产权代理有限公司 23211 代理人: 刘景祥
地址: 150080 黑龙*** 国省代码: 黑龙江;23
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 话题 影响力 渗流 语义 社交 网络 社区 发现 方法
【权利要求书】:

1.一种基于话题影响力渗流的语义社交网络社区发现方法,其特征在于,所述语义社交网络社区发现方法包括以下步骤:

步骤1:构造语义社交网络节点的语义空间坐标表示;

步骤2:构造步骤1的同时构造基于渗流力学的话题影响力渗流微分方程;

步骤3:根据步骤2的话题影响力渗流微分方程,求解话题影响力偏微分方程;

步骤4:根据步骤3制定生成社区的博弈规则;

步骤5:在步骤4的博弈规则选取话题影响力最大的种子节点作为影响力渗流的初始非均衡节点;

步骤6:利用步骤4的博弈规则与步骤5的初始非均衡节点生成社交网络社区结构;

所述步骤1构造语义社交网络节点的语义空间坐标表示具体为,语义社交网络被建模为G=(V,E,T),其中V为节点集,代表语义社交网络用户;E为边集,代表语义社交网络用户之间的链接关系;T为文档集合,代表语义社交网络用户发表的文本信息;

以文档集合T为输入,利用开源的第三方Python工具包Gensim自带的文档话题生成模型LDA,提取文档集合T中的k个话题作为k维语义空间的基,某一节点vi∈V在语义空间中的坐标mi通过vi发表的文档ti∈T中的关键字的求和均值加以表达,具体如公式(1)所示,·

公式(1)中,Ni代表节点vi的文档ti中的关键词的个数,Ni,j代表文档ti中的第j个关键词,代表文档ti中的第j个关键词在k维语义空间中的坐标;

所述步骤2构造步骤1的同时构造基于渗流力学的话题影响力渗流微分方程具体包括以下步骤:

步骤2.1:制定话题影响力的渗流规则;

步骤2.1.1:选择渗流源点作为种子节点,种子节点的话题影响力初始时刻最大,并随着话题影响力的渗流开始传播;

步骤2.1.2:随着种子节点的话题影响力向周围区域不断渗透,种子节点对其他节点的影响会变小,但是种子节点总的话题影响力大小不变;

步骤2.1.3:受种子节点影响的所有节点会吸收并弱化种子节点的话题影响力,但是种子节点所代表的话题的影响力却得到了增强,话题影响力传播曲线呈现出高斯分布;

步骤2.2:基于渗流力学中的瞬时点源函数,对话题传播时影响力的渗流强度进行建模;

所述步骤2.2具体为,令S代表话题影响力的渗流强度,其定义为语义社交网络中,节点受自身以外的其他节点发出的话题影响力大小与其在语义空间坐标处形成的虚拟语义空间大小的比值,在语义空间中,每个节点自身是一个充满不等量话题影响力的固定大小的实心球体,建模时,先赋予S一个虚拟量纲[λγ-1],其中λ是话题影响力数值大小的量纲,γ表示实心球体在虚拟语义空间中的大小;

在语义空间中,mi与mj的内积mi·mj代表了节点vi与vj的语义相关性,vi与vj语义坐标越相似,mi·mj越大,定义话题传播空间坐标表示以节点vi为原点,节点vj相对于原点的话题传播空间坐标,并规定在语义传播空间原点满足zi→i=0,且mi·mj→0时,zi→j→∞,得到关于话题传播空间坐标z的一维话题渗流二阶偏微分方程如下:

其中,S为话题影响力的渗流强度,d为语义传播空间原点与受影响节点间的距离,z为话题传播空间坐标,ηz为话题传播的渗流系数,方程(2)的初始条件为:

S(z,0)=κ0δ(z) (3)

其中,κ0代表渗流原点处节点话题影响力的初值,S(z,0)代表语义传播空间原点与受影响节点间的距离为0,即未进行影响力传播时的话题影响力渗流强度;

δ(z)为狄拉克函数,其意义在于除了语义传播空间原点以外的节点的函数值都等于0,而在整个定义域上的积分等于1,其数学表示式为:

方程(3)代表的意义:当d=0时,影响力全部集中在渗源节点,在该节点未进行影响力传播时,在该节点的影响力值大小为κ0,而在其他位置影响力大小则为0;

偏微分方程(2)的边界条件如下:

S(∞,d)=0表明话题影响力渗流强度S在话题传播空间坐标为无穷时值为0,表明话题影响力渗流强度S对话题传播空间坐标z的偏微分在话题传播空间坐标z为无穷时大小为0;

所述步骤3求解话题影响力偏微分方程具体为,通过对偏微分方程式(2)和初始条件式(3)和式(5)来对偏微分方程求解,进一步揭示话题影响力渗流强度S和话题传播空间坐标z和语义传播空间原点到受影响节点间的距离d内在的数学关系,从而得到语义空间任意节点话题影响力渗流强度S的求解公式;

话题影响力渗流强度S是κ、z、d、ηz的函数,假设函数F(S,κ,z,d,ηz)=0,S的量纲为[λγ-1],κ是话题渗源节点的话题影响力,量纲为[λ],其中S正比于λ除以某一特征长度,选取作为特征长度;

利用布金汉π定理,选取S、d、ηz为基本变量,可得:

接下来确定待定函数f,设变量则有联合式(2)可得:

方程(5)的边界条件变为:

对方程(8)化简得到:

ω为常数,将方程(9)带入得到ω=0,可得方程(10)通解为根据假设,渗源节点话题影响力守恒,可得:

由可得ω0=1;最后结果为:

移项变形可得:

方程(13)是典型的标准正态函数,以话题传播空间坐标z作为横轴,话题影响力渗流强度S为纵轴;根据标准正态函数的数学性质可知瞬时影响力点源在一维无界语义空间的强度场中的任意d处沿z方向是正态分布;随距离d的变大,影响力强度峰值变小,而受到影响节点的范围变宽,分布曲线趋于平稳;

按照正态函数3σ原则的数学性质,每个节点的话题影响范围在(μ-3σ,μ+3σ)以外的概率小于3‰;因此,实际问题中通常认为相应的事件不会发生,把横轴区间(μ-3σ,μ+3σ)看作是随机变量话题传播空间坐标z实际可能的取值区间;为方便计算,认为节点的话题影响力仅在3σ的范围即有效,即μ-3σ<z≤μ+3σ;因此,通过给定以语义传播空间原点为中心的话题影响力最多覆盖3跳范围;

所述步骤4的博弈规则;

步骤4.1.1、博弈参与者为语义社交网络中种子节点以外任意节点;

步骤4.1.2、策略集Pi为策略集Pi=0,表示节点vi仅接受消息不传播,Pi=1表示节点vi接受消息并且继续传播;

步骤4.1.3、效益函数Ui为每个参与者vi选择一个单一的策略Pi,效益函数用来计算策略Pi对参与者的益处,在传播困境博弈模型中,节点vi的效益函数定义为:

Ui(Pi,Pj)代表参与者vi传播来自vj所含话题的带来的效益,Sji表示vj的话题对vi的话题的影响力渗流强度,ξ表示传播话题的损耗值;

语义社交网络中,如果节点vi的话题影响力的初值小于该渗透区域内其他节点的话题影响力的初值,那么vi就可能会受到其他节点影响力的渗透,同时对vi话题影响力渗流强度较小的节点的渗透会被对vi话题影响力渗流强度较大的节点的渗透所覆盖,若不存在比节点vi话题影响力的初值大的节点,则认为节点vi在该渗透区域影响力渗流强度Si为无穷大,其表示为:

这样一来,如果参与者vi被其他节点渗透,只需计算传播当前对自身话题影响力最大的节点的效益,而不必对全局所有节点的效益函数加以计算;

所述步骤5选取话题影响力最大的种子节点作为影响力渗流的初始非均衡节点具体为,

基于PageRank算法,提出一种面向话题影响力最大化的种子节点选取算法,步骤如下:

步骤5.1、初始化优先队列seedSet以及哈希表hashMap为空,其中seedSet存储排序后的话题影响力得分,为后续博弈算法提供高话题影响力种子节点,利用哈希表hashMap将节点ID与话题影响力得分之间形成映射,避免已经被划分的节点成为非均衡节点,从而加快后续社区的生成速度,构造节点数组outlink[vi],用以表示节点vi指向的节点;

步骤5.2、网络中的第i个节点将自身影响力按照不同的转移概率非均分的传递给指向节点,构造转移矩阵P:

其中i行j列的值表示影响力从节点vj传递到节点vi的概率,M(i,j)为权值邻接矩阵,公式如式(19)所示,

如果节点vi指向节点vj则有向边(i,j)边权为mi·mj,否则(i,j)边权为0;

步骤5.3、各节点的影响力得分取决于指向它的节点的得分,用向量vector存储网络中所有节点的影响力得分,并将其初始化为0,遍历社交网络节点,利用式(20)对向量vector进行迭代,

其中,α为阻尼因子,用来阻止某些节点影响力过大,P为,τ/N为自重启向量,为不具备直接链接关系的节点间建立转移概率,重复迭代公式(20),直到整个网络收敛,将vector中的影响力得分存储到优先队列seedSet以及哈希表hashMap中;

步骤5.4、将影响力得分转换为对应的话题影响力,定义转换系数ε,将各节点的影响力乘以转化系数得到对应的话题影响力κ,将哈希表hashMap和优先队列seedSet对应的节点进行转化,

步骤5.5、转化结束后,哈希表hashMap和优先队列seedSet存储有网络节点的话题影响力值,输出结果哈希表hashMap和优先队列seedSet,算法结束;

所述步骤6:利用步骤4的博弈规则与步骤5的初始非均衡节点生成社交网络社区结构具体包括以下步骤,

步骤6.1、遍历优先队列seedSet和哈希表hashMap,从队头取出seedSet中任一高话题影响力种子节点,如果在哈希表hashMap中种子节点已经被划分到社区中,重新遍历hashMap和seedSet,如果hashMap和seedSet不为空,则再次从seedSet中取出新的种子节点j,直到该种子节点没有归属社区,将该种子节点作为非均衡点;

步骤6.2、设定mi·mj<0.2时,节点vi与节点vj不参与渗流过程,因此话题传播空间坐标的模进而可得跳数d最大值为2.78,向上取整有dmax=3;

遍历种子节点3跳之内的所有节点,若当前受到影响的节点i未被划分社区,则计算该节点的非重叠社区效益函数Ui(Pi,Pj),如果Ui(Pi,Pj)>0,则当前受到影响的节点vi加入种子节点vj所在社区,将节点vi在hashMap中对应的ID标记为已经被划分社区,同时将hashMap元素个数减1,如果Ui(Pi,Pj)<0,则跳过节点vi寻找下一节点;

步骤6.3、若当前受到影响的节点vi已被划分社区并且与发出话题影响力的种子节点vj不在同一社区,则比较当前受到影响的节点vi所在社区的种子节点与发出话题影响力的种子节点vj的余弦相似性U(mseed(i),mj),其表达式为:

式中,|mseed(i)||mj|代表节点vseed(i)与节点vj的语义空间坐标的模的乘积,g代表节点vseed(i)与节点vj的语义空间坐标的第g个元素;

步骤6.4、若U(mi,mj)大于阈值0.7,则认为二者相似则合并二者当前所在社区;

步骤6.5、否则若U(mi,mj)小于阈值0.7,使用重叠语义社区效益函数UG(i)进行计算,如果UG(i)大于效益满足值ρ(i),则vi加入发出话题影响力的种子节点vj所在社区,同时当前受到影响的节点加入社区数|R(i)|加1;否则如果UG(i)小于效益满足值ρ(i),则跳过节点vi寻找下一节点;

步骤6.6、当执行一个最佳选择会带来效益的提升时,节点就会执行该最佳动作,局部达到纳什均衡,然后取出新的符合条件的种子节点作为非均衡节点;不断地选择非均衡节点进行博弈,直到整个网络处于纳什均衡状态;

步骤6.7、当seedSet种子节点个数为0,但hashMap中还有元素剩余时,为加速算法快速收敛,将剩余元素随机划分到离其跳数最小的社区重叠部分;

步骤6.8、迭代终止时,受到同一个非均衡节点影响且满足博弈条件的节点被划分为同一社区,并且相似非均衡节点所在社区彼此合并,语义社交网络全局达到纳什均衡,此时输出语义社区识别结果集合SC。

2.根据权利要求1所述一种基于话题影响力渗流的语义社交网络社区发现方法,其特征在于,为了更快的得到话题影响渗流强度S的值,引入数据结构胜者树;

当前节点受到其他任意节点的影响力渗流强度构成一颗胜者树,在高效率下筛选出话题影响力渗流强度最大节点,式(14)定义的效益函数仅针对于节点传播一个话题的情形,对应于节点加入单一社区的情况,

但真实语义社交网络通常存在语义重叠社区,因此针对语义重叠社区,定义效益函数如下:

其中为重叠损失系数,|R(i)|为节点vi传播的不同节点话题的个数,Ui(Pi,Pj)为仅传播单一节点话题时的效益,当个体传播某一节点的话题时,每次多传播一个节点的话题都会造成的损耗;

为了实现语义重叠社区利益和效率双重的最大化,定义了效益满足值ρ(i)

N代表节点vi加入的社区总数;当N=1时,为避免出现社区初始效益满足值过大导致后续社区无法加入,令效益满足值为节点vi有且仅有的一个传播话题社区的效益值(U值)的1/2,当N>1,效益满足值为各单一社区效益加和平均值,若UG(i)的值小于效益满足值ρ(i),则认为加入该社区会导致效率下降选择拒绝加入策略。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨理工大学,未经哈尔滨理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011126371.6/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top