[发明专利]一种基于社会网络分析的学术合作可持续性的预测方法在审
申请号: | 201710030918.4 | 申请日: | 2017-01-18 |
公开(公告)号: | CN106886571A | 公开(公告)日: | 2017-06-23 |
发明(设计)人: | 夏锋;王伟;崔自鑫;高桐;孔祥杰 | 申请(专利权)人: | 大连理工大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06Q10/04 |
代理公司: | 大连理工大学专利中心21200 | 代理人: | 梅洪玉,侯明远 |
地址: | 116024 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 社会 网络分析 学术 合作 持续性 预测 方法 | ||
1.一种基于社会网络分析的学术合作可持续性的预测方法,其特征在于,步骤如下:
预测方法使用的合作可持续性预测模型包括数据提取模块和模型设计模块;
数据提取模块包括数据预处理和评价模块,模型设计模块包括训练模块和预测模块;
(1)数据提取模块:用于提取影响合作可持续性的因素;将影响合作可持续性的因素作为模型的输入因素,对合作的可持续性进行预测;数据提取模块包括数据预处理模块和评价模块;
①数据预处理模块:用于训练和测试合作可持续性预测模型的所有数据都是从DBLP数据集中提取;DBLP数据是一组由计算机科学领域的学者发表的论文组成;只采用发表过十篇以上论文的学者数据对合作可持续性预测模型进行训练;在重建学者合作数据集后,获得所有的任意两名学者之间的合作记录;
在数据预处理模块,提取个人属性和社会属性,其中共计五个影响因素的数据,并分析其对合作可持续性的影响;
所有的输入数据都被归一化到[0,1],以提高学习的效率,所使用的归一化思想如下:
另外,所有输入数据的计算时间节点是两个学者第一次合作之时;
当计算最短路径时,为每一次合作记录都建立新的学术合作网络,并通过该建立的网络计算即将合作的学者A和B之间的最短路径;将精度精确到年份;
A.个人属性:本方法中提取学术年龄、论文量和合作者数量三个属性作为个人属性;
学术年龄:指合作关系中学者A和学者B第一次合作时的学术年龄;计算方法是将调查当年的年份减去学者发表第一篇论文的年份;
出版量:指第一次合作时,学者A和学者B发表的论文数量;
合作者数量:指学者A和学者B合作前两者各自合作过的学者数量;
B.社会属性:本方法中提取最短路径和共同邻居两个属性作为社会属性;
共同邻居:指学者A和学者B第一次合作前,两人都有过合作的学者的数量;根据社会学理论三元闭包理论,拥有越多共同邻居的两个人越有可能在未来有所合作;因此,用共同邻居来衡量两个学者在合作关系网络中的相对位置和临近程度;
最短路径:指两个学者在没有合作之前的合作网络中,互相到达对方所要经过的学者数量,最短路径用于测量两个学者之间的亲密程度;
②评价模块:使用典型的机器学习思想,线性回归中四种典型的评价方式对模型的预测结果进行评价;同时,为了调查各个输入属性对模型的贡献率,采用如下“jackknife”的思想对各个属性的贡献率:a.除去一个属性后,利用余下的属性进行预测,即删除策略;b.只利用一个属性进行预测,即增加策略;c.利用所有属性进行预测,即全部策略;
采用四种典型的指标,包括平均绝对误差MAE、平均平方误差MSE、皮尔森相关系数PCC和一致性相关系数CCC来评价合作可持续性预测模型的性能,给出真实值y和预测值则有如下:
MAE的计算方式:
MSE的计算方式:
PCC的计算方式:
CCC的计算方式:
其中,n是预测结果的个数,yi和分别是真实结果和预测结果的第i个值;是y和之间的协方差,和分别是y和的方差,和分别是y和的平均值;得出预测性能越好,MAE和MSE的值越低,PCC和CCC的值越高;
本方法中使用线性回归模型与合作可持续性模型进行比较,线性回归模型是为预测工作找到一个函数f(x),该函数表示为:
f(x)=ω1x1+ω2x2+...+ωdxd+b
或用向量的形式表示为:
f(x)=ωT+b
其中ω和b是从训练集学习而得;
(2)模型设计模块:模型设计模块负责整个合作可持续性预测模型的构建和训练,包括训练模块和预测模块;
①训练模块:合作可持续性预测模型由一系列由梯度下降法训练的决策树组成,具体为集成树模块和梯度下降模块;
A.集成树模块:合作可持续性预测模型就是尝试通过给定的参数xi求出预测结果yi,并通过给定的训练集找到最佳参数;定义以下形式的目标函数,通常包含训练损失和正规化两个部分;
Obj(Θ)=L(θ)+Ω(θ)
其中,L是训练损失函数,Ω是正则化项,Θ是输入因素的合集,θ是各个具体的输入因素;训练损失函数L测试所提出模型在训练集上的性能,正则化项Ω控制模型的复杂度,以防止过度拟合;
合作可持续性预测模型是一个分类与回归集的集合,各个分类回归集合的预测结果相加得到最终结果,具体计算过程如下:
其中,K是集成树的个数,fk是一个独立树,F是所有可能的集成树的集合,因此修改上述公式如下:
其中,l是训练损失函数,Ω是正则化项;
合作可持续性预测模型的正则化项Ω如下:
其中,T和ω分别代表集成树的叶节点的数量和其对应的预测结果;γ和λ是控制正规化程度的参数;
B.梯度下降模块:令作为第i个实例第t次迭代时的预测结果,并增加ft作为一下实体函数的优化:
此时Γ(t)是优化过程中的实体目标函数Obj(Θ);
对此实体函数进行泰勒展开并定义和因此上述公式展开为如下:
其中,T代表迭代的总次数,Ij={i|q(xi)=j}代表子叶节点j的实体集,因此最佳的子叶节点质量由如下方法计算:
其中由此产生的客观价值由以下方式计算:
在这种情况下,一个较小的Obj值使得集成提升树的结构更好;同时对每一个叶子节点添加分割,分裂后的实体计算公式为:
其中,L指左节点,R指右节点,代表左子叶节点的质量,代表右子叶节点的质量;代表原节点未分解前的值;γ代表附加叶上面的正则化项值;
②预测模块:预测模块负责对两学者的学术合作可持续性进行预测;由于学术合作的可持续性从合作时间和合作次数两个方面进行研究和定量,预测模块的预测工作也由这两部分组成,即合作时间持续性预测模块和合作次数持续性预测模块。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710030918.4/1.html,转载请声明来源钻瓜专利网。