[发明专利]基于元结构技术的全局引文推荐方法、推荐系统有效
申请号: | 201910326299.2 | 申请日: | 2019-04-23 |
公开(公告)号: | CN110083696B | 公开(公告)日: | 2022-11-25 |
发明(设计)人: | 赵姝;赵桓幜;陈喜;陈洁;段震;张燕平 | 申请(专利权)人: | 安徽大学 |
主分类号: | G06F16/335 | 分类号: | G06F16/335;G06F16/9535;G06F40/30 |
代理公司: | 合肥市浩智运专利代理事务所(普通合伙) 34124 | 代理人: | 王亚洲 |
地址: | 230000 *** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 结构 技术 全局 引文 推荐 方法 系统 | ||
1.一种基于元结构技术的全局引文推荐方法,其特征在于,包括以下步骤:
S1、收集文章,构建原始数据集,原始数据集包括候选文章集与目标文章集;对原始数据集中的文章进行文章提取,得到文章的作者、出版商和术语,并使用文章、文章的作者、出版商和术语四种属性构建文章库;
S2、通过文章库中文章的作者、文章、术语和出版商四种属性建立异构信息网络;
S3、列举所有在异构信息网络中度数在三以内的元结构,并依据所选的元结构和基于元结构的相似度得到文章库中候选文章与目标文章的相似度;
S4、对S3中的每个元结构进行加权,用以融合文章间基于不同元结构获得的不同的相似度;根据候选文章与目标文章之间的相似度,为所有目标文章根据相似度排名生成推荐列表;
S5、使用优化算法优化推荐列表;
其中,所述S2中通过以下步骤建立异构信息网络;
S21、根据每篇文章和该文章包含的术语构建异构信息网络的文章、术语边;
S22、根据每篇文章和该文章的作者构建异构信息网络的文章、作者边;
S23、根据每篇文章和该文章的出版商构建异构信息网络的文章、出版商边;
S24、根据每篇候选文章和该候选文章的引文构建异构信息网络的文章、文章边;
所述S3包括以下步骤:
S31、列举所有在异构信息网络中文章、文章的作者、出版商和术语中度数在三以内的从文章节点出发到文章节点结束的M个元结构,表示为S={S1,S2,...,SM};
S32、使用基于元结构的BSCSE算法处理文章间基于S31中所有元结构的相似度,得到目标文章tpu与候选文章cpt在元结构下的相似度;
原始数据集中K篇目标文章TP={tp1,tp2,...,tpK}和N篇候选文章cP={cp1,cp2,...,cpN}之间基于所选的M个元结构下的相似度:
其中,tpu表示第u篇目标文章,表示第u篇目标文章在网络中对应的节点,u∈[1,K];Sj表示第j个元结构;其中,d(Sj)表示元结构Sj的维度;j∈[1,M];cpi表示第i篇候选文章,表示第i篇候选文章在网络中对应的节点,i∈[1,N];
表示从目标文章节点的邻居节点中选出类型为的节点,其中,vi表示目标文章节点的邻居节点中,类型为的节点中的第l个,表示网络中目标文章节点的所有邻居节点,表示目标文章节点的邻居节点个数,|V|表示网络中所有节点的个数;r(vl)∈{文章,作者,出版商,术语};
表示元结构Sj的第二项;
表示网络中从节点vl开始到候选文章节点为止,所有满足元结构的路径实例的个数;其中,表示Sj去除第一项的剩余部分的元结构,表示元结构Sj的第一项;
表示网络中从点vl开始,所有满足元结构的路径实例的个数,其中,表示Sj去除第一项的剩余部分的元结构,表示元结构Sj的第一项;
表示网络中从目标文章节点开始,满足元结构的路径实例的个数的β次幂,其中,表示第u篇目标文章在网络中对应的节点;表示由元结构Sj的第一项和第二项组成的元结构;β是一个权重系数,取值在[0,1]之间;
所述S5采用粒子群优化算法,包括以下步骤:
S51、将待求解的权重W={w1,w2,...,wM}作为粒子群优化算法中待求解的问题,不同权重的排列组合构成解空间中不同的解,在粒子群优化算法第h次迭代中,解xh为并且,每个解xh作为粒子群优化算法中粒子的位置;
S52、在粒子群优化算法的下一次迭代中,解优化的过程中,将推荐的召回率作为目标函数,并且每个粒子记录自己所走过的位置中的最优位置pbest,优化过程中也会记录空间中所有粒子走过的位置中的最优位置gbest,设置终止的损失函数值γ,方法遵循以下步骤:
S521、将解中的权重值输入S42步骤中的相似度模型中,计算所有目标文章TP与所有候选文章CP之间的相似度,SIM(tpu,cpt),其中tpu∈TP,cpt∈CP;
S522、根据候选文章与目标文章之间的相似度,为所有目标文章根据相似度排名生成推荐列表,推荐列表长度为25;若某一篇目标文章的推荐列表长度不足25,则以其推荐列表长度为准;
S523、根据推荐结果与目标文章实际的参考文献作对比,计算召回率,公式如下:
其中,K为目标文章的总数,为目标文章tpu的推荐列表中的所有文章集合,为目标文章tpu的实际的参考文献集合;
S524、若没有达到设定的迭代次数或Recall@25<γ,继续下一步S525,否则跳出循环,确定当前的解为最优解;
S525、计算每个粒子的速度
vh=vh+c1×rand×(pbest-xh)+c2×rand×(gbest-xh)
其中,vh表示粒子在第h次迭代时的速度,c1,c2为学习因子,rand表示随机数,rand∈(0,1);
使用粒子的速度来更新第h+1次迭代时,粒子的位置xh+1=xh+vh,其中,
S53、将步骤S524中的最优权重输入步骤S42中的相似度模型SIM(tpu,cpi)中,其中tpu∈TP,cpi∈CP;得到所有目标文章TP和所有候选文章CP之间的相似度;
S54、根据用户的推荐篇数的需求,为每篇目标文章返回相似性排名靠前的候选文章作为全局引文推荐算法的输出。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽大学,未经安徽大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910326299.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:技能服务调用方法、装置及存储介质
- 下一篇:一种中小企业公共服务系统