[发明专利]基于层次化主题偏好语义矩阵的关注关系识别及标注方法有效

申请号：	202010483759.5	申请日：	2020-06-01
公开（公告）号：	CN111723301B	公开（公告）日：	2022-05-27
发明（设计）人：	郑建兴;李沁文;李德玉;梁吉业	申请（专利权）人：	山西大学
主分类号：	G06F16/9536	分类号：	G06F16/9536;G06F40/289;G06F40/30;G06F16/33;G06Q50/00
代理公司：	太原申立德知识产权代理事务所(特殊普通合伙) 14115	代理人：	程园园
地址：	030006***	国省代码：	山西;14
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于层次主题偏好语义矩阵关注关系识别标注方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.基于层次化主题偏好语义矩阵的关注关系识别及标注方法，其特征在于：包括以下步骤：

步骤S1，构建主题偏好语义矩阵初始化的关注关系网络图；

步骤S2，学习基于翻译模型的层次化主题偏好语义矩阵；

步骤S3，通过偏好语义矩阵标注网络节点关注关系；

步骤S4，基于用户文本内容解释层次化主题偏好语义矩阵；

步骤S5，计算新用户与其他用户节点在层次化主题下的相关性；

步骤S6，选取具有最大相关性的层次化主题标注用户间关注关系；

步骤S7，标记关注关系的层次化主题偏好语义矩阵；

步骤S8，依据用户文本内容解释偏好语义矩阵；

所述步骤S1，构建主题偏好语义矩阵初始化的关注关系网络图还包括以下步骤：

步骤S1.1，根据用户的关注关系，建立关注关系图G(V,R)，其中V为节点的集合，R为边的集合；关注关系图中的节点表示用户，边表示用户间的关注关系r，若用户h关注了用户t，则构建从用户h指向用户t的一条边；其中，h、t均表示用户；关注关系图描述了用户之间的显式的社会化关注关系，有利于用来预测用户之间的潜在关注关系；

步骤S1.2，基于用户h发布的文本内容提取关键词集合S_h；基于用户t发布的文本内容提取关键词集合S_t；根据S_h、S_t分别计算与中文维基百科l层N个粗粒度主题的jaccard相似度系数，选取用户h和用户t的相似度高的m个粗粒度主题解释用户间的关注关系，并初始化m个粗粒度主题偏好语义矩阵在l层粗粒度主题基础上，根据S_h、S_t分别计算与中文维基百科l+1层P个细粒度主题的jaccard相似度系数，选取用户h和用户t的相似度高的q个细粒度主题解释用户间的关注关系，并初始化q个细粒度主题偏好语义矩阵粗粒度主题c的细粒度主题集合记为Child(c)＝{c₁,c₂,...,c_k,...,c_b}；

所述步骤S2，学习基于翻译模型的层次化主题偏好语义矩阵还包括以下步骤：

步骤S2.1，基于关注关系图上的用户h，用户t及关注关系建立三元组(h,r,t)，r为用户h到用户t的关注关系；进而在粗粒度主题方面基于翻译模型建模用户和关系的表示，给定粗粒度主题c，记用户h在粗粒度主题c方面的向量表示为用户t在粗粒度主题c方面的向量表示为其中，分别为用户h和用户t的向量表示；用户h和用户t的向量表示映射到粗粒度主题c方面的关系空间，得到粗粒度主题c方面的关系空间的向量表示

步骤S2.2，基于粗粒度主题c关于关注关系的解释作用，通过粗粒度主题c的细粒度主题Child(c)＝{c₁,c₂,...,c_k,...,c_b}可以进一步详细描述刻画用户间的关注关系；设c_k为粗粒度主题c的第k个细粒度主题，当粗粒度主题c为篮球时，则细粒度主题c_k表示CBA，在粗粒度主题c的主题偏好语义矩阵的基础上，学习细粒度主题c_k的主题偏好语义矩阵用户h在细粒度主题c_k上的向量表示用户t在细粒度主题c_k上的向量表示建立用户h和用户t在粗粒度主题c的细粒度主题c_k上的关注关系距离函数为：

其中，表示用户h和用户t在细粒度主题c_k方面的关注关系r上的距离函数；代表用户h在细粒度主题c_k方面的向量表示；代表用户t在细粒度主题c_k方面的向量表示；代表用户u和用户v的关注关系r的空间表示；

步骤S2.3，根据三元组(h,r,t)的距离函数，对于具有真实关注关系r的正样本三元组(h,r,t)和不具有关注关系r的负样本三元组定义基于翻译关系的Hinge Loss目标函数为：

其中，c、t是l层的粗粒度主题；c_i、c_j是粗粒度主题c的细粒度主题；为粗粒度主题c、t的偏好语义矩阵，为粗粒度主题c的细粒度主题c_i、c_j的偏好语义矩阵；为单位矩阵；为Hinge Loss损失函数；S为(h,r,t)用户关注关系的正样本集合，用户h与用户t具有关注关系r；为用户关注关系的负样本集合，为基于(h,r,t)替换的用户h，且与t不存在关注关系r，为基于(h,r,t)替换的用户t，且h与不存在关注关系r；γ表示边界参数；λ表示粗粒度主题的正则化超参数；η表示细粒度主题的正则化超参数；与正交保证了粗粒度主题c、t可以学习到不同的参数矩阵；与正交保证了细粒度主题c_i、c_j可以学习到不同的参数矩阵；

所述步骤S3，通过偏好语义矩阵标注网络节点关注关系还包括以下步骤：

步骤S3.1，从步骤S2.3学习到的粗粒度主题c的偏好语义矩阵解释用户之间的关注关系；

步骤S3.2，从步骤S2.3学习到的粗粒度主题c的细粒度主题c_k的偏好语义矩阵解释用户之间的关注关系；

所述步骤S4，基于用户文本内容解释层次化主题偏好语义矩阵的方法如下：基于用户发布文本内容的分词结果，根据步骤S3.1选取的粗粒度主题c关联的主题词文本内容解释标注用户之间的关注关系；同时，根据步骤S3.2选取的细粒度主题c_k关联的主题词文本内容解释标注用户之间的关注关系；

所述步骤S7，标记关注关系的层次化主题偏好语义矩阵的方法如下：将步骤S6中最大相关性的粗粒度主题c的偏好语义矩阵作为新用户关注关系的粗粒度主题偏好语义矩阵，在粗粒度主题c的基础上，选取最大相关性的细粒度主题c_k的偏好语义矩阵作为新用户关注关系的细粒度主题偏好语义矩阵；

所述步骤S8，依据用户文本内容解释偏好语义矩阵的方法如下：基于用户发布内容的分词结果，为粗粒度主题c选取关联的主题词文本内容解释标注用户之间新的关注关系；同时，为细粒度主题c_k选取关联的主题词文本内容解释标注用户之间新的关注关系。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于山西大学，未经山西大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010483759.5/1.html，转载请声明来源钻瓜专利网。

上一篇：一种公布票价的计算方法、装置、存储介质和服务器
下一篇：一种防止藤壶吸附船舶的方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于层次化主题偏好语义矩阵的关注关系识别及标注方法有效

专利文献下载