[发明专利]一种基于频繁主题集偏好的学术论文推荐方法有效
申请号: | 201810492352.1 | 申请日: | 2018-05-22 |
公开(公告)号: | CN108664661B | 公开(公告)日: | 2021-08-17 |
发明(设计)人: | 王红霞;李冉;刘浩东 | 申请(专利权)人: | 武汉理工大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/36 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 魏波 |
地址: | 430070 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 频繁 主题 偏好 学术论文 推荐 方法 | ||
本发明公开了一种基于频繁主题集偏好的学术论文推荐方法,该模型在预测未知评分时,对包含频繁主题集的论文给予一定程度的偏重,频繁出现的主题集合通常代表学术研究的热点,从而凸显包含研究热点的学术论文的价值。该模型首先对语料库进行建模处理,得到论文在主题上的概率分布;从而挖掘出频繁出现的主题集合;最后在协同主题回归模型中融入频繁主题集对推荐结果的影响。本发明学术论文推荐算法考虑到频繁主题集在用户选择论文时的影响,提出基于频繁主题集偏好的协同主题回归模型,力求帮助用户找到更有价值的学术论文;在真实数据集上的实验证明,基于频繁主题集偏好的协同主题回归模型,对比PMF和CTR模型,在召回率和准确率上都有一定的提高。
技术领域
本发明属于数据挖掘技术领域,涉及一种基于频繁主题集偏好推荐方法,特别涉及一种针对学术论文推荐中项目冷启动问题的基于频繁主题集偏好的推荐方法。
技术背景
用户在某个研究方向下做研究时,首先需要阅读相关领域下的核心技术论文,以便了解该方向的主要研究内容和关键技术;其次,阅读新发表的论文对用户也是至关重要的,可以帮助用户紧跟学科的发展,并开阔眼界;同时,用户对包含热点主题的论文的关注度往往更高。
目前我国学术论文推荐算法的相关专利较少,申请号为CN201310537842.6的专利提供了一种基于社区的作者及其学术论文推荐系统和方法,但是没有考虑到推荐中项目冷启动问题;申请号为CN201610205785.5的专利提供了一种结合标签数据的二部图模型学术论文推荐方法,没有考虑频繁出现的主题集合对推荐结果的影响。
发明内容
针对以上不足,本发明提供了一种基于频繁主题集偏好的学术论文推荐方法,在考虑推荐项目中冷启动问题的处理和用户选择学术论文时对研究热点的偏好,其在召回率、准确率和RMSE等指标的显示结果上都有明显效果。
本发明所采用的技术方案是:一种基于频繁主题集偏好的学术论文推荐方法,其特征在于,包括以下步骤:
步骤1:对语料库进行建模处理,得到论文在主题上的概率分布;
步骤2:挖掘出频繁出现的主题集合,记为频繁主题集;
步骤3:在已有的协同主题回归模型CTR中融入用户对频繁主题集的偏好,获得基于频繁主题集偏好的协同主题回归模型,预测未知评分。
本发明的有益效果为:
1、本发明学术论文推荐算法考虑到频繁主题集在用户选择论文时的影响,提出基于频繁主题集偏好的协同主题回归模型,力求帮助用户找到更有价值的学术论文。
2、在真实数据集上的实验证明,基于频繁主题集偏好的协同主题回归模型,对比PMF和CTR模型,在召回率和准确率上都有一定的提高。
附图说明
图1为本发明实施例的协同主题回归模型示意图;
图2为本发明实施例的三种模型(PMF、CTR模型和基于频繁主题集偏好的协同主题回归模型)的召回率对比图;
图3为本发明实施例的三种模型(PMF、CTR模型和基于频繁主题集偏好的协同主题回归模型)的准确率对比图;
图4为本发明实施例的三种模型(PMF、CTR模型和基于频繁主题集偏好的协同主题回归模型)的综合测度对比图。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施例对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。
本发明提供的一种基于频繁主题集偏好的学术论文推荐方法,包括以下步骤:
步骤1:对语料库进行建模处理,得到论文在主题上的概率分布;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉理工大学,未经武汉理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810492352.1/2.html,转载请声明来源钻瓜专利网。