[发明专利]基于自然语言处理和社交网络的科研成果归属预测方法及系统在审
申请号: | 202310383084.0 | 申请日: | 2023-04-11 |
公开(公告)号: | CN116644833A | 公开(公告)日: | 2023-08-25 |
发明(设计)人: | 胡轶宁;吴星灿;李超;孙吉祥;王有东;陈超;唐洁;原欣;李春阳;吴丹丹;朱海建;李亚楠 | 申请(专利权)人: | 东南大学;江苏省未来网络创新研究院 |
主分类号: | G06Q10/04 | 分类号: | G06Q10/04;G06Q50/00;G06F18/214;G06F18/243;G06F18/2415;G06F16/35;G06F40/284;G06N5/04 |
代理公司: | 南京众联专利代理有限公司 32206 | 代理人: | 叶倩 |
地址: | 210096 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 自然语言 处理 社交 网络 科研成果 归属 预测 方法 系统 | ||
1.基于自然语言处理和社交网络的科研成果归属预测方法,其特征在于,包括如下步骤:
S1,训练样本库建立:基于现有的成果认领平台,为每个已经认领过科研成果的科研人员构建成果集合,所述成果集合中,将同一科研人员的同一类型成果按照时间排序形成列表L;
所述列表L中的任一成果p,与该成果p的前列表Lbefore、该成果p的后列表Lafter共同构成正样本(p,Lbefore,Lafter);
以非同一科研人员的随机成果p′替换成果p,与成果p的前列表Lbefore、成果p的后列表Lafter共同构成负样本(p′,Lbefore,Lafter);
S2,基于预训练模型训练二分类任务模型:任意选择的成果p是否在某位研究人员的成果列表L中定义为一个二分类问题,基于RoBERTa构建科研人员成果识别预训练模型,将步骤S1中的正负样本集中的搜索文本通过tokenizer转换为token,然后将token转换为模型训练输入可以接受的排列格式,输入模型训练,得到科研人员成果识别模型;所述搜索文本至少包括成果关键词和标题;
S3:构建科研人员合作网络:将同一科研成果的合作者作为边的两端计算权值,计算所有的科研人员之间的边权值后,得到带权有向科研人员合作网络,其中合作网络的边权值的计算方法为:科研成果p的作者列表,按照参与程度排序为A(p)=[a1,a2,a3,…,an],其中,n表示成果p的作者个数;其中作者ai与aj在成果p中的合作价值为将作者ai与aj在所有合作成果中的价值累加可以得到合作网络中边的权值为:
S4:构建成果属性过滤:针对待分配成果p,基于基础属性,排除不匹配的科研人员;所述基础属性至少包括人员姓名、所属单位、发表时间;
S5:打分预测:根据科研人员成果识别模型归属概率中位数设定模型推理最低有效值Smin;
对于仍未被认领的成果,基于步骤S4所述的过滤方法,构建归属候选人集合m,使用步骤S2训练的科研人员成果识别模型,计算集合中候选人对该成果模型推理分数S1,并令集合中候选人对该成果合作归属分数S2为0;
对于已被部分合作者认领,但合作者未认领齐全的成果,其中认领的作者记为[a1,a2,a3,…,an],通过步骤S3中构建的科研人员合作网络得到候选人集合m′,使用步骤S2训练的科研人员成果识别模型,计算集合中候选人对该成果模型推理分数S1,集合中候选人对该成果原始合作归属分数其中α为系统参数,将S1高于最低有效值Smin候选人员的S2′进行同比例归一化得到合作归属分数S2,使其取值在0到1之间,令S1不高于最低有效值Smin候选人员的合作归属分数S2为0;
合计S1与S2计算总分Stotal,当候选人集合中最高的Stotal>Smin时,作者将会被归属于Stotal最高的候选人。
2.如权利要求1所述的基于自然语言处理和社交网络的科研成果归属预测方法,其特征在于:所述步骤S1成果集合中的成果类型至少包括论文Lpaper、专利Lpatent、项目Lproject、专著Lbook,训练集中的正样本总数量为
其中,len()函数表示列表中的成果个数;m表示科研人员个数;
所述正负样本的比例为1:10。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学;江苏省未来网络创新研究院,未经东南大学;江苏省未来网络创新研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310383084.0/1.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理