[发明专利]一种基于强化学习的目标社区搜索方法和装置在审
申请号: | 202111011640.9 | 申请日: | 2021-08-31 |
公开(公告)号: | CN114048393A | 公开(公告)日: | 2022-02-15 |
发明(设计)人: | 孙付超;宋军帅;田栋琦;徐辉杰;高军 | 申请(专利权)人: | 孙付超 |
主分类号: | G06F16/9536 | 分类号: | G06F16/9536;G06N3/04;G06N3/08;G06Q50/00 |
代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 邱晓锋 |
地址: | 102206 北京市昌*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 强化 学习 目标 社区 搜索 方法 装置 | ||
1.一种基于强化学习的目标社区搜索方法,其特征在于,包括以下步骤:
利用社区评价模型为社区搜索模型输出的不同社区打分;
对于给定的任意单个或多个目标用户,采用深度强化学习算法,以社区评价模型反馈的打分作为奖励函数,持续优化社区搜索模型来挖掘最匹配的目标社区。
2.根据权利要求1所述的方法,其特征在于,所述社区评价模型定义Eθ(·|G(X,A)),其中θ表示神经网络参数,G表示任意给定社区,X表示此社区节点特征信息集合,A为此社区结构的邻接矩阵表示,Eθ接收任意G(X,A)作为输入,并输出此社区属于真实社区的概率pG(X,A)=Eθ(·|G(X,A))。
3.根据权利要求1或2所述的方法,其特征在于,还包括建立基础支持组件的步骤,所述基础支持组件包括数据集构建组件、特征抽取组件、模型训练与存储组件;所述数据集构建组件为社区评价模型构建训练数据,每次从中随机采样一个连通的子社区结构作为正样本,另外随机删除此子社区中部分原始用户并加入部分与此子社区结构上相连但不属于同社区的用户,作为负样本,每一个这样的正负样本对共同构成一个完整的社区评价模型训练样本;所述特征抽取组件采用自然语言处理中的词嵌入技术来获取文本特征,并与用户节点的原始属性特征信息共同构成节点内容特征,采用图嵌入技术来获取每个节点的结构特征,每个节点的内容特征和结构特征共同构成其完整特征表示;所述模型训练与存储组件负责训练社区评价模型,同时随着社区标记数据增多,结合新数据定期更新社区评价模型。
4.根据权利要求3所述的方法,其特征在于,所述社区评价模型的训练包括以下步骤:
a)初始化社区评价模型Eθ(·|G(X,A));
b)任意可重复地选择B个已有标记社区,并构建B个基于社区的正负样本对;
c)使用构建好的样本对训练Eθ(·|G(X,A)),使得正样本得分尽可能比负样本高;
d)不断重复b)-c)直到社区评价模型收敛。
5.根据权利要求1所述的方法,其特征在于,所述社区搜索模型定义一个策略网络πθ(·|G(X,A)),其中πθ是参数为θ的一个神经网络,G(X,A)表示内容特征为X,结构特征为A的社区;每次社区搜索模型接收一个已有子社区G,并给出一个用户集合σ,τ表示由子社区G扩展出来的同社区用户集合;子社区G和社区搜索模型输出的用户集合τ共同构成目标社区。
6.根据权利要求5所述的方法,其特征在于,训练社区搜索模型时,训练样本由社区搜索模型和社区评价模型交互持续生成;社区搜索模型的优化包括以下步骤:
a)加载训练好的社区评价模型;
b)初始化社区搜索模型πθ(·|G(X,A));
c)对于任意给定子社区G,将结束标识用户u*和所有与当前子社区有连边的用户作为候选,对任意候选用户使用u表示;
d)依据社区搜索模型采样下一个属于本社区的其它用户:当采样到结束标识用户u*或达到最大社区规模T时表示社区搜索过程结束;否则将采样到的用户与已有子社区合并为新子社区,并重复步骤c)-d);
e)使用社区评价模型对搜索到的社区进行打分,并将打分作为奖励信号;
f)重复c)-e)共B次,构成B个社区搜索模型训练样本,并归一化其中社区打分;
g)基于获取的社区搜索模型训练样本,使用深度强化学习技术更新社区搜索模型πθ(·|G(X,A))。
h)不断重复c)-g)直到社区搜索模型收敛;将收敛后社区搜索模型输出的用户集合和初始子社区合并作为最终目标社区。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于孙付超,未经孙付超许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111011640.9/1.html,转载请声明来源钻瓜专利网。