[发明专利]一种基于学术大数据的学术团队重要成员识别方法有效
申请号: | 201811500188.0 | 申请日: | 2018-12-10 |
公开(公告)号: | CN109657122B | 公开(公告)日: | 2020-10-20 |
发明(设计)人: | 万良田;张凯源;于硕 | 申请(专利权)人: | 大连理工大学 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/35 |
代理公司: | 大连理工大学专利中心 21200 | 代理人: | 温福雪;侯明远 |
地址: | 116024 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于学术大数据的学术团队重要成员识别方法,从度中心性、H因子以及学术年龄的角度识别团队领导者,并首次使用基于PageRank方法的DHRank模型来评估并标记团队关键成员。为了合理地进行团队聚类,本发明在进行以领导者为中心的基于最短路径的团队聚类后,使用基于团队规模比较和领导者H因子比较的方法来对聚类结果进行了进一步的完善,有助于提高后期使用DHRank模型识别关键成员的结果的准确性。相比其他方法,本发明提出的方法在发现有影响力学者方面更加准确,并且拥有更低的运算时间复杂度。本发明提供了学术团队中识别领导者和关键者的一种新方法,为学术网络中的团队科学研究提供了一种新的解决方案。 | ||
搜索关键词: | 一种 基于 学术 数据 团队 重要 成员 识别 方法 | ||
【主权项】:
1.一种基于学术大数据的学术团队重要成员识别方法,其特征在于,步骤如下:步骤1):通过统计真实的会议论文引用情况计算目标窗口年限,并根据目标窗口年限内的学者论文建立学术网络;通过统计分析DBLP数据集中的论文发表情况以及学者间的合作情况,确定以10年作为目标窗口年限进行团队重要成员的识别和分析;再利用目标年限内的学者论文信息建立学术网络;学术网络中的节点表示学者,边表示学者间的合作关系,边的权重表示两个学者的合作论文数目;步骤2):利用步骤1)中所构建的学术网络中学者节点的连接情况以及学者的论文的真实引用量对学者在学术网络中的度中心性以及学者H因子进行统计计算,得到潜在的团队领导者名单;2.1)计算学者在学术网络中的度中心性;根据某个学者与学术网络中的其他学者的合著关系以及学术网络中的节点个数对该学者的度中心性进行计算;度中心性的计算公式如下:
其中,deg(a,G)表示在学术网络G中学者a的全部合著者人数,A表示学术网络中全部的学者数;2.2)计算学者的H因子;一名学者的H因子是指该学者至多有H篇论文分别被引用了至少H次;根据H因子的定义,统计论文发表的真实引用量对学术网络中的学者的H因子进行计算;2.3)根据计算统计所得到的学者的度中心性和H因子两项指标,找出两项指标均高于指标平均值的学者,并将其标记为潜在的团队领导者节点;步骤3):统计学术网络中学者论文发表情况并计算学者的学术年龄,利用学术年龄和步骤2)中所得到的潜在的团队领导者名单确定领导者节点,并利用领导者节点和领导者之间的最短路径将非领导节点划分归属到不同领导者的学术团队;3.1)计算学者的学术年龄:对学者的论文发表行为进行统计,在步骤2)得到的潜在的团队领导者名单的基础上,筛选出学术年龄大于等于5的学者并将其标记为领导者节点;3.2)对于学术网络中的非领导者节点,计算该节点到全部领导者节点的最短路径距离,具有最短的最短路径距离的领导者节点即为此节点的领导者节点,将此节点划分为对应领导者节点的团队中;如果两个团队中共同节点个数大于平均团队节点数,则比较两个团队的领导者节点的H因子,具有高的H因子的领导者节点作为两个团队全部节点的领导者节点;步骤4):根据步骤3)中所得的学术团队,利用DHRank算法对团队中的关键成员进行识别和标记,得到学术团队中的重要成员,包括领导者和团队关键成员;4.1)计算团队中所有成员在学术网络中的度中心性,然后结合步骤2)计算得到的H因子计算每个学者的度中心性与H因子之和,对学者的学术影响力进行衡量;4.2)计算团队中所有成员的DHRank值,DHRank的计算方式如下:
其中,DHR(ai)表示学者ai的DHRank值,PR(ai)为学者ai的PageRank值,Deg(ai)表示学者ai在学术网络中的度,hindex(ai)为学者ai的H因子值;其中,学术网络中学者ai的PageRank值计算方式如下:
其中,E表示学术网络中的所有边的集合;(ai,aj)表示学者节点ai和aj之间的连边,
表示学者节点aj的度;设P=(PR1,PR2,…PRn)T为n维PageRank向量,A为学术网络的对应的转移矩阵,如下所示:
其中,A(ai,aj)表示从学者节点ai到学者节点aj的转移概率,
表示学者节点ai的度;采用poweriteration方法,指定PageRank值的迭代初始值为1,在进行迭代时PageRank最小值设为0,通过多轮迭代求解:Pk=ATPk‑1最终收敛于||Pk‑Pk‑1||<ξ,即两次迭代的差值小于阈值ξ;k表示迭代结束时的迭代次数;得到团队中的每个成员的DHRank值后,将团队成员按照该值进行降序排列,团队成员的关键性与其DHRank值成正比。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811500188.0/,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置