[发明专利]一种基于复杂网络的科研人员数据处理方法在审
申请号: | 202111671262.7 | 申请日: | 2021-12-31 |
公开(公告)号: | CN114328673A | 公开(公告)日: | 2022-04-12 |
发明(设计)人: | 刘闯;张国帆;詹秀秀;黄鹂强;张子柯 | 申请(专利权)人: | 杭州师范大学 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06F16/2457;G06F16/25;G06F17/18;G06K9/62;G06Q10/06 |
代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 陈炜 |
地址: | 311121 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 复杂 网络 科研人员 数据处理 方法 | ||
1.一种基于复杂网络的科研人员数据处理方法,其特征在于:该方法包括数据采集和数据预处理模块、合作网络构建模块、特征提取模块、结果评估模块,具体如下:
(1)数据采集和数据预处理模块:
(1-1)数据收集:通过公开数据平台,获得科研人员往年项目的所有信息;通过科研项目,在论文库中检索获得与之相关的所有论文;
(1-2)数据预处理:将没有论文信息的科研项目数据和没有科研项目信息的论文数据删除,并将科研项目数据和论文数据处理成用于后续研究的格式;
(1-3)数据统计分析:
统计不同科研项目数量下的平均论文数量,得到不同科研项目对应的平均论文数;统计不同科研项目数量下的平均职业年龄;
对科研项目数量、论文数量和职业年龄按照学科进行数量分布统计;分别对不同类型、不同学科项目的等待时间和生存时间进行数量分布统计;对科研项目等待时间内的论文数进行统计分析;按照职业年龄的不同对项目负责人的生存时间进行统计分析;
(2)合作网络构建模块:
(2-1)科研项目合作网络:
对所有的科研项目数据排除异常值,并对数据中的项目负责人和参与人加以区分,异常值包括空值、乱码和信息严重缺失;项目合作网络中以人员编号是唯一标识符;构建科研项目合作网络Gf=(Vf,Ef),其中Vf表示节点集,即项目人员,包括项目负责人和参与人,Ef表示边集,表示两个人员共同出现在同一个项目中,边权表示共同的项目数;
(2-2)论文合作网络:
构建论文合作网络Gp=(Vp,Ep),Vp表示节点集,即论文作者;Ep表示边集,表示两个作者共同合作发表文章,边的权重表示共同发表论文篇数;
(3)特征提取模块:
提取的特征包括计量特征、网络拓扑特征和网络隐含特征;
(3-1)计量特征:
基于科研人员的项目信息和论文信息,提取以下特征:
(3-1-1)基于项目的特征:科研人员的项目总数、每年的项目数、平均每年项目数、项目级别、项目类型和项目学科;
(3-1-2)基于论文的特征:科研人员的论文总数、每年的论文数、每年的第一作者论文数、通讯作者论文数和其他作者论文数;
(3-2)网络拓扑特征:
从科研项目合作网络和论文合作网络中提取特征,包括:科研人员的度、科研人员的强度、科研人员的特征向量中心性;所述的科研人员的度为与该科研人员相连的边的数量;所述的科研人员的强度为与该科研人员相连的边权重之和;所述的科研人员的特征向量中心性为全局结构上的科研人员重要性;
(3-2-1)科研项目合作网络中科研人员的度和论文合作网络中科研人员的度上标F表示科研项目合作网络,上标P表示论文合作网络:
其中,NF表示科研项目合作网络中的节点个数,如果科研项目合作网络中节点i和节点j有连边,则否则NP表示论文合作网络中的节点个数,若论文合作网络中节点i和节点j有连边,则否则
(3-2-2)科研项目合作网络科研人员的强度和论文合作网络科研人员的强度
其中,表示科研项目合作网络中节点i和节点j的连边权重,若节点i和节点j有共同的项目,则等于共同项目数,否则表示论文合作网络中节点i和节点j的连边权重,若节点i和节点j有共同发表论文,则等于共同发表论文数,否则
(3-2-3)科研项目合作网络中科研人员的特征向量中心性ECF(i)和论文合作网络中科研人员的特征中心性ECP(i):
其中,是矩阵AF的最大特征值λF对应的特征向量,表示科研项目合作网络的邻接矩阵;具体计算通过给定的初值ECF(0),使用迭代算法计算向量ECF,直到ECF(t)=ECF(t-1);表示论文合作网络中节点i的重要性,科研项目合作网络中特征向量中心性表明科研人员的重要性取决于其合作者的重要性;
(3-3)网络隐含特征的提取:
对于一个网络G=(V,E),V和E分别表示节点集和边集,节点集表示科研人员,边集表示人员之间有过合作;节点嵌入的目标是需要找到一个映射f,使得每个节点被表示为一个向量,即f:V→Rd,其中d为特征向量的维度;
采用node2vec算法进行网络嵌入,使用有偏的随机游走方法得到顶点的近邻序列,然后用Skip-gram模型进行训练,得到节点向量;
(4)结果评估模块:
(4-1)数据集划分:对于每个科研人员,将计量特征、网络拓扑特征和网络隐含特征进行整合,并基于数据的时序性构造了训练样本和测试样本;
(4-2)基于划分好的数据集,使用随机森林方法对科研人员的科研数据进行结果评估;
(4-3)结果评估:
评估结果通过AUC指标进行评估;AUC表示ROC曲线下的面积,ROC曲线是将假阳性率FPR定义为x轴,真阳性率TPR定义为y轴;
TP表示测试集中科研人员有科研项目且预期结果为有科研项目的个数;FP表示测试集中没有科研项目且预期结果为有科研项目的个数;FN表示测试集中有科研项目且预期结果为没有科研项目的个数;TN表示测试集中没有科研项目且预期结果为没有科研项目的个数;
根据(4-2)的模型结果绘制ROC曲线并得到AUC,AUC的值越大,即越接近于1表示模型的预期效果越好。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州师范大学,未经杭州师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111671262.7/1.html,转载请声明来源钻瓜专利网。