[发明专利]一种基于频繁主题集偏好的学术论文推荐方法有效
申请号: | 201810492352.1 | 申请日: | 2018-05-22 |
公开(公告)号: | CN108664661B | 公开(公告)日: | 2021-08-17 |
发明(设计)人: | 王红霞;李冉;刘浩东 | 申请(专利权)人: | 武汉理工大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/36 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 魏波 |
地址: | 430070 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 频繁 主题 偏好 学术论文 推荐 方法 | ||
1.一种基于频繁主题集偏好的学术论文推荐方法,其特征在于,包括以下步骤:
步骤1:对语料库进行建模处理,得到论文在主题上的概率分布;
步骤2:挖掘出频繁出现的主题集合,记为频繁主题集;
步骤3:在协同主题回归模型中融入用户对频繁主题集的偏好,获得基于频繁主题集偏好的协同主题回归模型,预测未知评分;
在协同主题回归模型CTR中融入频繁主题集的全局影响因子向量P,其中向量p中的元素代表用户对某个频繁主题集的偏好值;
具体实现包括以下步骤:
步骤4.1:重新定义用户对论文的预测评分;
式中,表示预测评分,向量Tj=(0/1,0/1,...,0/1)代表论文j包含频繁主题集的情况;Tj的第s个值取值为1,表示论文j中含有第s个频繁主题集;ui和vj分别代表用户i和论文j的特征向量,g(x)=1/(1+exp(-x))为逻辑函数,将预测评分映射到[0,1]区间;P=(P1,P2,...,Ps,...,Pp)是频繁主题集的影响因子向量,Ps表示频繁主题集s在用户对论文评分时产生的影响值,p是频繁主题集的维度;tj表示论文j中包含频繁主题集的个数,即向量Tj中1的个数;
步骤4.2:假定向量P和向量u和v一样服从均值为0的高斯分布,则推导损失函数的定义:
式中,Rij是用户i对论文j的真实评分;Iij为指示函数,如果用户i对论文j有过操作,则返回1,否则返回0;λu、λv和λp分别为ui、vj和P的正则化参数;N表示用户数量,M表示论文数量,θj表示论文j的主题分布;
步骤4.3:通过对向量ui、vj和P实施随机梯度下降法;
求解使损失函数取最小值的用户、论文潜在主题向量以及频繁主题集的影响因子向量P的值,从而通过预测未知评分。
2.根据权利要求1所述的基于频繁主题集偏好的学术论文推荐方法,其特征在于,步骤1中所述对语料库进行建模处理,具体是使用已有的潜在狄利克雷分布主题模型对论文进行建模。
3.根据权利要求1所述的基于频繁主题集偏好的学术论文推荐方法,其特征在于:步骤2中,利用潜在狄利克雷分布主题模型挖掘得到论文-主题概率分布矩阵,矩阵中的元素表示某篇论文包含某个主题的概率,并根据概率阈值筛选出论文中概率高于阈值的主题,记为论文-主题集;然后使用已有的Apriori算法对论文-主题集进行频繁项集挖掘,得到经常共同出现的主题集合,也就是频繁主题集,并获得各频繁主题集合在每篇论文中的分布情况。
4.根据权利要求1所述的基于频繁主题集偏好的学术论文推荐方法,其特征在于:步骤3中,重新定义协同主题回归模型中评分预测函数,使论文中包含的频繁主题集的情况作为预测评分大小的一个影响因素。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉理工大学,未经武汉理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810492352.1/1.html,转载请声明来源钻瓜专利网。