[发明专利]基于层次化主题偏好语义矩阵的关注关系识别及标注方法有效

专利信息
申请号: 202010483759.5 申请日: 2020-06-01
公开(公告)号: CN111723301B 公开(公告)日: 2022-05-27
发明(设计)人: 郑建兴;李沁文;李德玉;梁吉业 申请(专利权)人: 山西大学
主分类号: G06F16/9536 分类号: G06F16/9536;G06F40/289;G06F40/30;G06F16/33;G06Q50/00
代理公司: 太原申立德知识产权代理事务所(特殊普通合伙) 14115 代理人: 程园园
地址: 030006*** 国省代码: 山西;14
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 层次 主题 偏好 语义 矩阵 关注 关系 识别 标注 方法
【权利要求书】:

1.基于层次化主题偏好语义矩阵的关注关系识别及标注方法,其特征在于:包括以下步骤:

步骤S1,构建主题偏好语义矩阵初始化的关注关系网络图;

步骤S2,学习基于翻译模型的层次化主题偏好语义矩阵;

步骤S3,通过偏好语义矩阵标注网络节点关注关系;

步骤S4,基于用户文本内容解释层次化主题偏好语义矩阵;

步骤S5,计算新用户与其他用户节点在层次化主题下的相关性;

步骤S6,选取具有最大相关性的层次化主题标注用户间关注关系;

步骤S7,标记关注关系的层次化主题偏好语义矩阵;

步骤S8,依据用户文本内容解释偏好语义矩阵;

所述步骤S1,构建主题偏好语义矩阵初始化的关注关系网络图还包括以下步骤:

步骤S1.1,根据用户的关注关系,建立关注关系图G(V,R),其中V为节点的集合,R为边的集合;关注关系图中的节点表示用户,边表示用户间的关注关系r,若用户h关注了用户t,则构建从用户h指向用户t的一条边;其中,h、t均表示用户;关注关系图描述了用户之间的显式的社会化关注关系,有利于用来预测用户之间的潜在关注关系;

步骤S1.2,基于用户h发布的文本内容提取关键词集合Sh;基于用户t发布的文本内容提取关键词集合St;根据Sh、St分别计算与中文维基百科l层N个粗粒度主题的jaccard相似度系数,选取用户h和用户t的相似度高的m个粗粒度主题解释用户间的关注关系,并初始化m个粗粒度主题偏好语义矩阵在l层粗粒度主题基础上,根据Sh、St分别计算与中文维基百科l+1层P个细粒度主题的jaccard相似度系数,选取用户h和用户t的相似度高的q个细粒度主题解释用户间的关注关系,并初始化q个细粒度主题偏好语义矩阵粗粒度主题c的细粒度主题集合记为Child(c)={c1,c2,...,ck,...,cb};

所述步骤S2,学习基于翻译模型的层次化主题偏好语义矩阵还包括以下步骤:

步骤S2.1,基于关注关系图上的用户h,用户t及关注关系建立三元组(h,r,t),r为用户h到用户t的关注关系;进而在粗粒度主题方面基于翻译模型建模用户和关系的表示,给定粗粒度主题c,记用户h在粗粒度主题c方面的向量表示为用户t在粗粒度主题c方面的向量表示为其中,分别为用户h和用户t的向量表示;用户h和用户t的向量表示映射到粗粒度主题c方面的关系空间,得到粗粒度主题c方面的关系空间的向量表示

步骤S2.2,基于粗粒度主题c关于关注关系的解释作用,通过粗粒度主题c的细粒度主题Child(c)={c1,c2,...,ck,...,cb}可以进一步详细描述刻画用户间的关注关系;设ck为粗粒度主题c的第k个细粒度主题,当粗粒度主题c为篮球时,则细粒度主题ck表示CBA,在粗粒度主题c的主题偏好语义矩阵的基础上,学习细粒度主题ck的主题偏好语义矩阵用户h在细粒度主题ck上的向量表示用户t在细粒度主题ck上的向量表示建立用户h和用户t在粗粒度主题c的细粒度主题ck上的关注关系距离函数为:

其中,表示用户h和用户t在细粒度主题ck方面的关注关系r上的距离函数;代表用户h在细粒度主题ck方面的向量表示;代表用户t在细粒度主题ck方面的向量表示;代表用户u和用户v的关注关系r的空间表示;

步骤S2.3,根据三元组(h,r,t)的距离函数,对于具有真实关注关系r的正样本三元组(h,r,t)和不具有关注关系r的负样本三元组定义基于翻译关系的Hinge Loss目标函数为:

其中,c、t是l层的粗粒度主题;ci、cj是粗粒度主题c的细粒度主题;为粗粒度主题c、t的偏好语义矩阵,为粗粒度主题c的细粒度主题ci、cj的偏好语义矩阵;为单位矩阵;为Hinge Loss损失函数;S为(h,r,t)用户关注关系的正样本集合,用户h与用户t具有关注关系r;为用户关注关系的负样本集合,为基于(h,r,t)替换的用户h,且与t不存在关注关系r,为基于(h,r,t)替换的用户t,且h与不存在关注关系r;γ表示边界参数;λ表示粗粒度主题的正则化超参数;η表示细粒度主题的正则化超参数;与正交保证了粗粒度主题c、t可以学习到不同的参数矩阵;与正交保证了细粒度主题ci、cj可以学习到不同的参数矩阵;

所述步骤S3,通过偏好语义矩阵标注网络节点关注关系还包括以下步骤:

步骤S3.1,从步骤S2.3学习到的粗粒度主题c的偏好语义矩阵解释用户之间的关注关系;

步骤S3.2,从步骤S2.3学习到的粗粒度主题c的细粒度主题ck的偏好语义矩阵解释用户之间的关注关系;

所述步骤S4,基于用户文本内容解释层次化主题偏好语义矩阵的方法如下:基于用户发布文本内容的分词结果,根据步骤S3.1选取的粗粒度主题c关联的主题词文本内容解释标注用户之间的关注关系;同时,根据步骤S3.2选取的细粒度主题ck关联的主题词文本内容解释标注用户之间的关注关系;

所述步骤S7,标记关注关系的层次化主题偏好语义矩阵的方法如下:将步骤S6中最大相关性的粗粒度主题c的偏好语义矩阵作为新用户关注关系的粗粒度主题偏好语义矩阵,在粗粒度主题c的基础上,选取最大相关性的细粒度主题ck的偏好语义矩阵作为新用户关注关系的细粒度主题偏好语义矩阵;

所述步骤S8,依据用户文本内容解释偏好语义矩阵的方法如下:基于用户发布内容的分词结果,为粗粒度主题c选取关联的主题词文本内容解释标注用户之间新的关注关系;同时,为细粒度主题ck选取关联的主题词文本内容解释标注用户之间新的关注关系。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山西大学,未经山西大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010483759.5/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top