[发明专利]基于层次化主题偏好语义矩阵的关注关系识别及标注方法有效
申请号: | 202010483759.5 | 申请日: | 2020-06-01 |
公开(公告)号: | CN111723301B | 公开(公告)日: | 2022-05-27 |
发明(设计)人: | 郑建兴;李沁文;李德玉;梁吉业 | 申请(专利权)人: | 山西大学 |
主分类号: | G06F16/9536 | 分类号: | G06F16/9536;G06F40/289;G06F40/30;G06F16/33;G06Q50/00 |
代理公司: | 太原申立德知识产权代理事务所(特殊普通合伙) 14115 | 代理人: | 程园园 |
地址: | 030006*** | 国省代码: | 山西;14 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 层次 主题 偏好 语义 矩阵 关注 关系 识别 标注 方法 | ||
1.基于层次化主题偏好语义矩阵的关注关系识别及标注方法,其特征在于:包括以下步骤:
步骤S1,构建主题偏好语义矩阵初始化的关注关系网络图;
步骤S2,学习基于翻译模型的层次化主题偏好语义矩阵;
步骤S3,通过偏好语义矩阵标注网络节点关注关系;
步骤S4,基于用户文本内容解释层次化主题偏好语义矩阵;
步骤S5,计算新用户与其他用户节点在层次化主题下的相关性;
步骤S6,选取具有最大相关性的层次化主题标注用户间关注关系;
步骤S7,标记关注关系的层次化主题偏好语义矩阵;
步骤S8,依据用户文本内容解释偏好语义矩阵;
所述步骤S1,构建主题偏好语义矩阵初始化的关注关系网络图还包括以下步骤:
步骤S1.1,根据用户的关注关系,建立关注关系图G(V,R),其中V为节点的集合,R为边的集合;关注关系图中的节点表示用户,边表示用户间的关注关系r,若用户h关注了用户t,则构建从用户h指向用户t的一条边;其中,h、t均表示用户;关注关系图描述了用户之间的显式的社会化关注关系,有利于用来预测用户之间的潜在关注关系;
步骤S1.2,基于用户h发布的文本内容提取关键词集合Sh;基于用户t发布的文本内容提取关键词集合St;根据Sh、St分别计算与中文维基百科l层N个粗粒度主题的jaccard相似度系数,选取用户h和用户t的相似度高的m个粗粒度主题解释用户间的关注关系,并初始化m个粗粒度主题偏好语义矩阵在l层粗粒度主题基础上,根据Sh、St分别计算与中文维基百科l+1层P个细粒度主题的jaccard相似度系数,选取用户h和用户t的相似度高的q个细粒度主题解释用户间的关注关系,并初始化q个细粒度主题偏好语义矩阵粗粒度主题c的细粒度主题集合记为Child(c)={c1,c2,...,ck,...,cb};
所述步骤S2,学习基于翻译模型的层次化主题偏好语义矩阵还包括以下步骤:
步骤S2.1,基于关注关系图上的用户h,用户t及关注关系建立三元组(h,r,t),r为用户h到用户t的关注关系;进而在粗粒度主题方面基于翻译模型建模用户和关系的表示,给定粗粒度主题c,记用户h在粗粒度主题c方面的向量表示为用户t在粗粒度主题c方面的向量表示为其中,分别为用户h和用户t的向量表示;用户h和用户t的向量表示映射到粗粒度主题c方面的关系空间,得到粗粒度主题c方面的关系空间的向量表示
步骤S2.2,基于粗粒度主题c关于关注关系的解释作用,通过粗粒度主题c的细粒度主题Child(c)={c1,c2,...,ck,...,cb}可以进一步详细描述刻画用户间的关注关系;设ck为粗粒度主题c的第k个细粒度主题,当粗粒度主题c为篮球时,则细粒度主题ck表示CBA,在粗粒度主题c的主题偏好语义矩阵的基础上,学习细粒度主题ck的主题偏好语义矩阵用户h在细粒度主题ck上的向量表示用户t在细粒度主题ck上的向量表示建立用户h和用户t在粗粒度主题c的细粒度主题ck上的关注关系距离函数为:
其中,表示用户h和用户t在细粒度主题ck方面的关注关系r上的距离函数;代表用户h在细粒度主题ck方面的向量表示;代表用户t在细粒度主题ck方面的向量表示;代表用户u和用户v的关注关系r的空间表示;
步骤S2.3,根据三元组(h,r,t)的距离函数,对于具有真实关注关系r的正样本三元组(h,r,t)和不具有关注关系r的负样本三元组定义基于翻译关系的Hinge Loss目标函数为:
其中,c、t是l层的粗粒度主题;ci、cj是粗粒度主题c的细粒度主题;为粗粒度主题c、t的偏好语义矩阵,为粗粒度主题c的细粒度主题ci、cj的偏好语义矩阵;为单位矩阵;为Hinge Loss损失函数;S为(h,r,t)用户关注关系的正样本集合,用户h与用户t具有关注关系r;为用户关注关系的负样本集合,为基于(h,r,t)替换的用户h,且与t不存在关注关系r,为基于(h,r,t)替换的用户t,且h与不存在关注关系r;γ表示边界参数;λ表示粗粒度主题的正则化超参数;η表示细粒度主题的正则化超参数;与正交保证了粗粒度主题c、t可以学习到不同的参数矩阵;与正交保证了细粒度主题ci、cj可以学习到不同的参数矩阵;
所述步骤S3,通过偏好语义矩阵标注网络节点关注关系还包括以下步骤:
步骤S3.1,从步骤S2.3学习到的粗粒度主题c的偏好语义矩阵解释用户之间的关注关系;
步骤S3.2,从步骤S2.3学习到的粗粒度主题c的细粒度主题ck的偏好语义矩阵解释用户之间的关注关系;
所述步骤S4,基于用户文本内容解释层次化主题偏好语义矩阵的方法如下:基于用户发布文本内容的分词结果,根据步骤S3.1选取的粗粒度主题c关联的主题词文本内容解释标注用户之间的关注关系;同时,根据步骤S3.2选取的细粒度主题ck关联的主题词文本内容解释标注用户之间的关注关系;
所述步骤S7,标记关注关系的层次化主题偏好语义矩阵的方法如下:将步骤S6中最大相关性的粗粒度主题c的偏好语义矩阵作为新用户关注关系的粗粒度主题偏好语义矩阵,在粗粒度主题c的基础上,选取最大相关性的细粒度主题ck的偏好语义矩阵作为新用户关注关系的细粒度主题偏好语义矩阵;
所述步骤S8,依据用户文本内容解释偏好语义矩阵的方法如下:基于用户发布内容的分词结果,为粗粒度主题c选取关联的主题词文本内容解释标注用户之间新的关注关系;同时,为细粒度主题ck选取关联的主题词文本内容解释标注用户之间新的关注关系。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山西大学,未经山西大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010483759.5/1.html,转载请声明来源钻瓜专利网。