[发明专利]一种基于表示学习和竞争理论的学者推荐及合作预测方法有效
申请号: | 201810853249.5 | 申请日: | 2018-07-30 |
公开(公告)号: | CN109145087B | 公开(公告)日: | 2020-12-11 |
发明(设计)人: | 孔祥杰;闻琳燕;夏锋;张晨薇;刘晓钟 | 申请(专利权)人: | 大连理工大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/289;G06F40/247 |
代理公司: | 大连理工大学专利中心 21200 | 代理人: | 梅洪玉;刘秋彤 |
地址: | 116024 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 表示 学习 竞争 理论 学者 推荐 合作 预测 方法 | ||
1.一种基于表示学习和竞争理论的学者推荐及合作预测方法,其特征在于,具体步骤如下:
步骤一、从微软数据集中获取有效数据并进行预处理,然后划分为训练集和测试集;
所述的有效数据包括:论文中的学者信息、标题信息、摘要信息、关键词信息和引用信息;
所述的预处理是:依据学者信息获取学者群体,过滤合作数低的学者,得到有效学者群体,建立有效学者群体的四个因子文件;利用有效学者群体的四个因子文件建立无向合作网络,获取每个学者的最邻近网络节点邻居;四个因子包括论文的标题、摘要、关键词和引用;
步骤二、构建动态的基于论文内容的学者个性相似度计算模型,具体过程为:
(1)利用doc2vec计算学者之间标题的相似度、摘要的相似度,利用重合率计算方法计算学者之间关键词的相似度、引用的相似度;具体过程为:
利用doc2vec分别处理所有学者的标题、摘要,并过滤掉停用词,最终为每个学者生成一个128位的向量表示,并计算两两之间的余弦相似度以表征学者之间标题的相似度、摘要的相似度,计算公式均为:
其中,在计算标题相似度时,和分别为利用表示学习方法doc2vec处理学者i和学者j的标题获得的特征向量,在计算摘要相似度时,和分别为利用表示学习方法doc2vec处理学者i和学者j的摘要获得的特征向量;在计算标题相似度和摘要相似度两种情况中,以下符号代表的意义相同,和表示和为的第n位元素;
分别对每个学者的关键词信息和引用信息建立“带权集合”,集合中的每个元素为该学者论文中的四个因子之一,“带权”是指每个元素都有一个权值标记该因子出现的次数,利用重合率计算方法计算学者之间关键词的相似度、引用的相似度,计算公式分别为:其中,keywi和keywj分别为学者i和学者j的所有论文关键词“带权集合”,refi和refj分别为学者i和学者j的所有论文引用“带权集合”,学者i和学者j的关键词交集为交集内元素的权值总和;
(2)以某学者与其他学者间四个因子上的相似度总和作为节点状态的初始值,具体过程为:计算学者i的最佳表现值作为节点状态的初始值,公式为:其中,valuei为学者的最佳表现值,为因子特征向量的第m位的初始值,t为因子个数,m=1、2、3、4分别代表因子为标题、摘要、关键词、引用,为i、j两学者之间第m个因子上的相似度,是对步骤(1)得到的学者之间标题的相似度、摘要的相似度、关键词的相似度和引用的相似度的总称;所述的因子特征向量是一个四维向量,每个维度上的值代表了对应位置上的因子在整体作用中影响力的权重;k为测试集学者样本总数;
(3)根据步骤(1)计算的学者之间的相似度,利用梯度下降算法学习因子特征向量,同时不断更新处理节点的邻域节点的状态,以实现动态更新当前节点的状态值;具体过程为:在梯度下降算法中输入每个学者的四个因子,不断迭代直到因子特征向量的值趋于稳定,学者i的状态取决于其邻居节点状态值的最大值,当两次迭代学者状态的变化量小于阈值时,即停止迭代过程,在这个过程中学习所得的因子特征向量将作为最终的结果用于下一步计算,每次迭代过程更新因子特征向量和学者状态值的公式为:
其中,α为学习速率;为当前的学者状态值,初始值为0*k的矩阵,k为测试集学者样本总数;进入梯度下降算法的迭代过程前输入的为1维向量,数值上等于valuei,进入迭代过程后被不断更新;为对求偏导;为学者i的迭代更新后的状态值;为学者i迭代更新前的状态值;λ为自定义常量;为当前合作网络中学者邻居节点的状态值;
(4)利用学习得到的因子特征向量结合相似度计算每个学者的推荐度表征值,并生成初步的推荐列表;具体过程为:用学者i的最佳表现值与相似度综合表征值的和来表示学者i的推荐度,公式为:其中是梯度下降算法过程获得的的模;为梯度下降过程后获得的因子特征向量的第m位,为i、j两学者之间第m个因子上的相似度,m=1、2、3、4分别代表因子为标题、摘要、关键词、引用;根据计算结果生成一个初步的推荐列表,每个学者的推荐列表长度都是k-1,k为测试集学者样本总数;
步骤三、构建基于合作网络的学者环境相似度计算模型,具体过程为:
(1)利用表示学习方法node2vec分析步骤一所建立的无向合作网络,获得每个学者节点的特征向量;
(2)利用特征向量余弦值计算方法计算学者之间在合作网络中的相似度;余弦值计算公式为:其中和分别为利用表示学习方法node2vec处理合作网络获得的学者i和学者j的向量表示,和表示和为第n位元素;
步骤四、构建合作预测模型,具体过程为:
(1)利用步骤二得到的基于论文内容的学者个性相似度和步骤三得到的基于合作网络的学者环境相似度组合起来,得到组合相似度;
(2)根据组合相似度对初步的推荐列表进行排序,为每个学者的候选人生成一个组合相似度从高到低的降序序列,得到每个学者的合作预测列表;
(3)把每个学者合作预测列表中组合相似度最大的学者作为合作预测对象;
步骤五、构建竞争理论的处理模型,具体过程为:
(1)利用基于论文内容的学者个性相似度对每个学者的候选人列表进行排序,获得合作推荐候选列表;
(2)利用步骤三得到的基于合作网络的学者环境相似度,对排序后的合作推荐候选列表进行竞争处理,保证每个学者只被推荐给最佳的合作者,从而消除时间冲突;具体过程为:对合作推荐候选列表中的目标学者Ae被推荐给学者A1,…,Ah,找到其中与Ae环境相似度最大的学者Ai,则标记一个成功匹配,重复这个过程直到每个学者都被成功标记一个目标学者,竞争的原理为:Compete(Ae|A1,...,Ah)=Ai,if envSimxei=max{envSimxe1,...,envSimxeh};其中Ae表示目标学者;A1,…,Ah表示合作推荐候选列表种有学者Ae的源学者,envSimxei表示学者Ae和学者Ai之间的环境相似度;
(3)最终为每个学者推荐一个不冲突的最佳合作者,即每个目标学者只推荐给一个源学者;
步骤六、利用步骤一预处理的数据集对以上模型进行训练,根据训练获得的个性相似度,产生合作推荐候选列表和合作预测列表;
步骤七、利用环境相似度削弱过于相似的源学者和目标学者,同时利用竞争理论的处理模型消除时间冲突,从而获得最终的推荐列表和下一次合作对象预测结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810853249.5/1.html,转载请声明来源钻瓜专利网。