[发明专利]一种基于领域知识图谱的个性化文献推荐方法有效

专利信息
申请号: 201710163216.3 申请日: 2017-03-19
公开(公告)号: CN106960025B 公开(公告)日: 2019-09-27
发明(设计)人: 盛文瑾;闫健卓;李贤;王静;李东佩;郐弘智;陈建辉 申请(专利权)人: 北京工业大学
主分类号: G06F16/335 分类号: G06F16/335;G06F16/35
代理公司: 北京思海天达知识产权代理有限公司 11203 代理人: 沈波
地址: 100124 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 一种基于领域知识图谱的个性化文献推荐方法,涉及文献推荐技术领域。采用LDA模型构建知识图谱,并在此基础上,分别构建用户兴趣模型与文献模型,解决了词频统计方法不精确的问题;在建模的过程引入时间遗忘曲线函数,解决了用户兴趣变迁的问题;同时在建模过程中引入了激活扩散技术,解决了数据稀疏性的问题;在计算相似性的过程中采用基于知识距离的方法,有效的避免了元素个数匹配的强制性问题。将兴趣保持模型应用在文献推荐系统的用户建模中,考虑时间对用户短期兴趣变迁的影响,准确地量化用户当前兴趣。在用户建模与文献建模过程中引入激活扩散技术,有效的解决了数据的稀疏性问题。
搜索关键词: 一种 基于 领域 知识 图谱 个性化 文献 推荐 方法
【主权项】:
1.一种基于领域知识图谱的个性化文献推荐方法,其特征在于,包括如下步骤:步骤1:构建知识图谱数据结构抽取文献的标题与摘要作为文献库,采用LDA的“文献‑主题”理论从文献库中抽取主题,设置阈值,将满足阈值的主题抽取出来,构建数据结构的节点集;通过两个节点在文献中出现的频率定义节点之间关系的权重,设置阈值,将满足阈值的关系抽取出来,构建数据结构的边集与权重集;基于此,得到基于“节点‑边‑权重”模式的知识图谱数据结构;步骤2:构建用户知识模型利用激活扩散理论与时间遗忘曲线函数对用户知识进行建模,从而得到能够代表用户研究兴趣的向量;步骤3:构建文献知识模型利用激活扩散理论对每篇文献知识进行建模,从而得到能够代表每篇文献的向量模型;步骤4:计算知识距离,生成推荐结果首先,统计用户知识模型与每篇文献知识模型的知识距离集,即知识路径的集合;然后,对于每条路径,计算路径内主题的重要程度,通过对主题的重要程度累积来衡量此文献与路径的匹配程度;对每篇文献的路径进行遍历求和得到此文献的最优值;最后,按最优值对文献进行排序,从而找到最接近用户研究兴趣的前n篇文献,返回给用户;所述步骤2具体包括:步骤2‑1统计用户已发表的文献,并将其进行预处理,得到用户文献集;定义专业等级Expertise(u,t)为主题对用户的重要程度,具体的计算公式如下:其中Expertise(u,t)代表主题对用户的重要程度;n代表时间段;mj为时间段j内用户已发表文献的个数;t代表主题;udi代表指定时间段内的一篇文献;Tt为时间段j内主题t的持续时间;参数A,b的引入,是为了调节主题的重要程度,使重要程度和当前研究兴趣保持最大相关性;ω(udi,t)代表文献udi属于主题t的概率,而则是主题t在这个时间段内的重要程度,ω(udi,t)的计算公式如下:其中,为LDA的主题‑词语分布,公式如下:其中,k代表文献中的词语;为属于主题t的词语个数步骤2‑2为了解决数据稀疏性的问题,引入激活扩散理论;设定阈值,对于大于指定阈值的专业等级Expertise(u,t)构成初始用户知识集IUT={iut1,iut2,……iutn},即iut1代表主题t1的专业等级;以知识图谱数据结构为基础,使用激活扩散技术对初始知识模型中的主题值进行扩充,激活扩散过程的公式所示:O=[ε‑(1‑α)×wT]‑1×IUT   (4)其中,IUT为激活扩散过程的输入,即主题Expertise(u,t)值的集合;w表示激活扩散过程中的关系矩阵,矩阵中的元素wij表示主题ti与主题tj的关系权重,即已构建知识图谱中的关系权重组成的矩阵;α是延迟因子;ε是n阶单位矩阵;O=[O1,O2,…,On]T是扩散激活过程的最终输出,Oi是主题ti的激活扩散值,代表主题ti经过扩散后对于用户的重要程度;设定阈值,对于激活扩散过程后大于指定阈值的激活扩散值构成用户知识模型UT={ut1,ut2,……utn},即ut1代表主题t1的激活扩散值;所述步骤3具体包括:步骤3‑1首先对每篇文献进行预处理,定义重要等级importance(u,t)为主题对用户的重要程度;如下公式所示:importance(u,t)=w(d,t)   (5)其中w(d,t)的计算公式同公式(2),对于大于指定阈值的主题集构成每篇文献的初始知识集GT={gt1,gt2,……gtn},即gti代表主题ti的重要程度;步骤3‑2将文献初始知识集作为激活扩散的输入,经过激活扩散过程,如下公式所示:OL=[ε‑(1‑α)×wT]‑1×GT   (6)其中,GT代表大于指定阈值的主题重要程度importance(u,t)的集合;w同样代表已构建知识图谱中的关系权重组成的矩阵;OL=[OL1,OL2,…,OLn]T为激活扩散的输出集合;OLi代表主题t经过扩散后对于用户的重要程度;设定阈值,对于激活扩散过程后大于指定阈值的激活扩散值构成每篇文献的知识模型CRT={crt1,crt2,……crtn}。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201710163216.3/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top